- 训练数据集的样式:
1 手内肌萎缩
0 缩萎肌内手
1 尿黑酸
0 酸黑尿
1 单眼眼前黑影
0 影黑前眼眼单
1 忧郁
0 郁忧
1 红细胞寿命缩短
0 短缩命寿胞细红
1 皮肤黏蛋白沉积
0 积沉白蛋黏肤皮
1 眼神异常
0 常异神眼
1 阴囊坠胀痛
0 痛胀坠囊阴
1 动脉血氧饱和度降低
0 低降度和饱氧血脉动
- 数据集的相关解释:
- 这些训练集中的正样本往往是基于人工审核的标准命名实体.
- 数据集中的第一列代表标签, 1为正标签, 代表后面的文字是命名实体. 0为负标签, 代表后面的文字不是命名实体.
- 数据集中的第二列中的命名实体来源于数据库中的症状实体名字, 它是结构化爬虫抓取的数据. 而非命名实体则是它的字符串反转.
- 正负样本的比例是1:1.
- 将数据集加载到内存:
import pandas as pd
from collections import Counter
# 读取数据
train_data_path = "./train_data.csv"
train_data= pd.read_csv(train_data_path, header=None, sep="\t")
# 打印正负标签比例
print(dict(Counter(train_data[0].values)))
# 转换数据到列表形式
train_data = train_data.values.tolist()
print(train_data[:10])
- 代码位置: /data/doctor_offline/review_model/train.py
- 输出效果:
# 正负标签比例
{1: 5740, 0: 5740}
# 取出10条训练数据查看
[[1, '枕部疼痛'], [0, '痛疼部枕'], [1, '陶瑟征阳性'], [0, '性阳征瑟陶'], [1, '恋兽型性变态'], [0, '态变性型兽恋'], [1, '进食困难'], [0, '难困食进'], [1, '会阴瘘管或窦道形成'], [0, '成形道窦或管瘘阴会']]
- 小节总结:
- 学习了训练数据集的样式及其相关解释.
- 学习了将数据集加载到内存中的过程.