- 训练数据集的样式:
1 手内肌萎缩0 缩萎肌内手1 尿黑酸0 酸黑尿1 单眼眼前黑影0 影黑前眼眼单1 忧郁0 郁忧1 红细胞寿命缩短0 短缩命寿胞细红1 皮肤黏蛋白沉积0 积沉白蛋黏肤皮1 眼神异常0 常异神眼1 阴囊坠胀痛0 痛胀坠囊阴1 动脉血氧饱和度降低0 低降度和饱氧血脉动
- 数据集的相关解释:
- 这些训练集中的正样本往往是基于人工审核的标准命名实体.
- 数据集中的第一列代表标签, 1为正标签, 代表后面的文字是命名实体. 0为负标签, 代表后面的文字不是命名实体.
- 数据集中的第二列中的命名实体来源于数据库中的症状实体名字, 它是结构化爬虫抓取的数据. 而非命名实体则是它的字符串反转.
- 正负样本的比例是1:1.
- 将数据集加载到内存:
import pandas as pdfrom collections import Counter# 读取数据train_data_path = "./train_data.csv"train_data= pd.read_csv(train_data_path, header=None, sep="\t")# 打印正负标签比例print(dict(Counter(train_data[0].values)))# 转换数据到列表形式train_data = train_data.values.tolist()print(train_data[:10])
- 代码位置: /data/doctor_offline/review_model/train.py
- 输出效果:
# 正负标签比例{1: 5740, 0: 5740}# 取出10条训练数据查看[[1, '枕部疼痛'], [0, '痛疼部枕'], [1, '陶瑟征阳性'], [0, '性阳征瑟陶'], [1, '恋兽型性变态'], [0, '态变性型兽恋'], [1, '进食困难'], [0, '难困食进'], [1, '会阴瘘管或窦道形成'], [0, '成形道窦或管瘘阴会']]
- 小节总结:
- 学习了训练数据集的样式及其相关解释.
- 学习了将数据集加载到内存中的过程.
