• 训练数据集的样式:
      1. 1 手内肌萎缩
      2. 0 缩萎肌内手
      3. 1 尿黑酸
      4. 0 酸黑尿
      5. 1 单眼眼前黑影
      6. 0 影黑前眼眼单
      7. 1 忧郁
      8. 0 郁忧
      9. 1 红细胞寿命缩短
      10. 0 短缩命寿胞细红
      11. 1 皮肤黏蛋白沉积
      12. 0 积沉白蛋黏肤皮
      13. 1 眼神异常
      14. 0 常异神眼
      15. 1 阴囊坠胀痛
      16. 0 痛胀坠囊阴
      17. 1 动脉血氧饱和度降低
      18. 0 低降度和饱氧血脉动

    • 数据集的相关解释:
      • 这些训练集中的正样本往往是基于人工审核的标准命名实体.
      • 数据集中的第一列代表标签, 1为正标签, 代表后面的文字是命名实体. 0为负标签, 代表后面的文字不是命名实体.
      • 数据集中的第二列中的命名实体来源于数据库中的症状实体名字, 它是结构化爬虫抓取的数据. 而非命名实体则是它的字符串反转.
      • 正负样本的比例是1:1.

    • 将数据集加载到内存:
      1. import pandas as pd
      2. from collections import Counter
      3. # 读取数据
      4. train_data_path = "./train_data.csv"
      5. train_data= pd.read_csv(train_data_path, header=None, sep="\t")
      6. # 打印正负标签比例
      7. print(dict(Counter(train_data[0].values)))
      8. # 转换数据到列表形式
      9. train_data = train_data.values.tolist()
      10. print(train_data[:10])

    • 代码位置: /data/doctor_offline/review_model/train.py

    • 输出效果:
      1. # 正负标签比例
      2. {1: 5740, 0: 5740}
      3. # 取出10条训练数据查看
      4. [[1, '枕部疼痛'], [0, '痛疼部枕'], [1, '陶瑟征阳性'], [0, '性阳征瑟陶'], [1, '恋兽型性变态'], [0, '态变性型兽恋'], [1, '进食困难'], [0, '难困食进'], [1, '会阴瘘管或窦道形成'], [0, '成形道窦或管瘘阴会']]

    • 小节总结:
      • 学习了训练数据集的样式及其相关解释.
      • 学习了将数据集加载到内存中的过程.