第五章:命名实体审核任务 - 5.2 训练数据集 - 《NLP》

训练数据集的样式:

1   手内肌萎缩
0   缩萎肌内手
1   尿黑酸
0   酸黑尿
1   单眼眼前黑影
0   影黑前眼眼单
1   忧郁
0   郁忧
1   红细胞寿命缩短
0   短缩命寿胞细红
1   皮肤黏蛋白沉积
0   积沉白蛋黏肤皮
1   眼神异常
0   常异神眼
1   阴囊坠胀痛
0   痛胀坠囊阴
1   动脉血氧饱和度降低
0   低降度和饱氧血脉动

数据集的相关解释:
- 这些训练集中的正样本往往是基于人工审核的标准命名实体.
- 数据集中的第一列代表标签, 1为正标签, 代表后面的文字是命名实体. 0为负标签, 代表后面的文字不是命名实体.
- 数据集中的第二列中的命名实体来源于数据库中的症状实体名字, 它是结构化爬虫抓取的数据. 而非命名实体则是它的字符串反转.
- 正负样本的比例是1:1.

将数据集加载到内存:

import pandas as pd 
from collections import Counter
# 读取数据
train_data_path = "./train_data.csv"
train_data= pd.read_csv(train_data_path, header=None, sep="\t")
# 打印正负标签比例
print(dict(Counter(train_data[0].values)))
# 转换数据到列表形式
train_data = train_data.values.tolist()
print(train_data[:10])

代码位置: /data/doctor_offline/review_model/train.py

输出效果:

# 正负标签比例
{1: 5740, 0: 5740}
# 取出10条训练数据查看
[[1, '枕部疼痛'], [0, '痛疼部枕'], [1, '陶瑟征阳性'], [0, '性阳征瑟陶'], [1, '恋兽型性变态'], [0, '态变性型兽恋'], [1, '进食困难'], [0, '难困食进'], [1, '会阴瘘管或窦道形成'], [0, '成形道窦或管瘘阴会']]

小节总结:
- 学习了训练数据集的样式及其相关解释.
- 学习了将数据集加载到内存中的过程.