• 训练数据集的样式:
      1. 1 腹股沟淋巴结肿大腹股沟皮下包块 想请您帮忙解读一下上面的b超结果,是否要治疗,或做进一步的检查?>因为做完b超医生下班了
      2. 1 想请您帮忙解读一下上面的b超结果,是否要治疗,或做进一步的检查?因为做完b超医生下班了 左侧的包
      3. 块是否是普通的淋巴结肿大?
      4. 1 左侧的包块是否是普通的淋巴结肿大? 按压不疼,但用手敲会有点刺痛
      5. 1 按压不疼,但用手敲会有点刺痛
      6. 1 抗谬肋氏管激素偏低抗缪肋氏管激素偏低 昨天同房后出血了,以前都不会,先是鲜红色,今天变褐色,少
      7. 量,不想去医院检查,过几天它会自己停吧?还是要吃什么药?
      8. 0 水痘水痘后第七天脸上色素严重 五险一金会下调吗
      9. 0 腺样体重度肥大,分泌性中耳炎宝宝腺样体肥大怎么办 我爸因车祸死亡意外险能赔偿吗
      10. 0 尿血尿血这种情况要求高不高治疗 车辆保险理赔回执弄丢了可以补吗
      11. 0 尿路感染尿路感染备孕中 在单位辞职了,当时没办医保,是否能申办居民医保?
      12. 0 眼角有血块左眼角有血块状 有谁知道,安*长*树出险了需要提供哪些医院证明?

    • 数据集的相关解释:
      • 数据集中的第一列代表标签, 1为正标签, 代表后面的两句话是在讨论同一主题. 0为负标签, 代表后面的两句话不相关.
      • 数据集中的第二列是用户回复的文本信息, 第三列是与上一句相关或不相关的文本.
      • 正负样本的比例是1:1左右

    • 数据集所在位置: /data/doctor_online/bert_serve/train_data.csv

    • 数据集来源及其扩充方式:
      • 来源: 正样本数据来自网络医患在线问答的真实语料. 负样本来自其他使用其他问答语料的回复信息, 保证两段文本不相关.
      • 扩充方式: 根据来源, 可通过数据抓取技术对语料集进行扩充.