• 需要进行命名实体识别的数据内容:
      1. ...
      2. 麻疹样红斑型药疹.txt
      3. 麻疹病毒肺炎.txt
      4. 麻痹性臂丛神经炎.txt
      5. 麻风性周围神经病.txt
      6. 麻风性葡萄膜炎.txt
      7. 黄体囊肿.txt
      8. 黄斑囊样水肿.txt
      9. 黄斑裂孔性视网膜脱离.txt
      10. 黄韧带骨化症.txt
      11. 黏多糖贮积症.txt
      12. 黏多糖贮积症Ⅰ型.txt
      13. 黏多糖贮积症Ⅱ型.txt
      14. 黏多糖贮积症Ⅵ型.txt
      15. 黏多糖贮积症Ⅲ型.txt
      16. 黏多糖贮积症Ⅶ型.txt
      17. 黑色丘疹性皮肤病.txt
      18. ...

    • 每个txt文件的名字都是一种疾病名.

    • 文件位置: /data/doctor_offline/unstructured/norecognite/

    • 以黑色丘疹性皮肤病.txt为例, 有如下内容:
    初呈微小、圆形、皮肤色或黑色增深的丘疹,单个或少数发生于颌部或颊部,皮损逐渐增大增多,数年中可达数百,除眶周外尚分布于面部、颈部和胸上部。皮损大小形状酷似脂溢性角化病及扁平疣鶒。不发生鳞屑,结痂和溃疡,亦无瘙痒及其他主观症状
    

    • txt中是对该疾病症状的文本描述.

    • 文件位置: /data/doctor_offline/unstructured/norecognite/黑色丘疹性皮肤病.txt

    • 进行命名实体识别:
      • 进行命名实体识别的工作我们这里使用AI模型实现, 包括模型训练和使用的整个过程, 因此内容以独立一章的形成呈现给大家, 具体内容在第六章: 命名实体识别任务.

    • 进行命名实体审核:
      • 同4.2 结构化数据流水线中的命名实体审核.

    • 命名实体写入数据库:
      • 同4.2 结构化数据流水线中的命名实体写入数据库.

    • 本章总结:
      • 学习了离线部分的数据流水线以及组成部分.
        • 根据架构展开图图,离线部分可分为两条数据流水线,分别用于处理结构化数据和非结构化数据. 这里称它们为结构化数据流水线和非结构化数据流水线.

    • 结构化数据流水线的组成部分:
      • 结构化数据爬虫: 从网页上抓取结构化的有关医学命名实体的内容.
      • 结构化数据的清洗: 对抓取的内容进行过滤和清洗, 以保留需要的部分.
      • 命名实体审核: 对当前命名实体进行审核, 来保证这些实体符合我们的要求.
      • 命名实体写入数据库: 将审核后的命名实体写入数据库之中, 供在线部分使用.

    • 非结构化数据流水线的组成部分:
      • 非结构化数据爬虫: 从网页上抓取非结构化的包含医学命名实体的文本.
      • 非结构化数据清洗: 对非结构化数据进行过滤和清洗, 以保留需要的部分.
      • 命名实体识别: 使用模型从非结构化文本中获取命名实体.
      • 命名实体审核: 对当前命名实体进行审核, 来保证这些实体符合我们的要求.
      • 命名实体写入数据库: 将审核后的命名实体写入数据库之中, 供在线部分使用.

    • 学习了需要进行命名实体审核的数据内容.

    • 学习了结构化/非结构化数据流水线中命名实体审核的过程.

    • 学习了结构化/非结构化数据流水线中命名实体写入的过程.

    • 学习了需要进行命名实体识别的数据内容.

    • 非结构化数据流水线中命名实体识别的过程.