4.3 非结构化数据流水线

浏览 146 扫码分享 2023-11-22 12:44:26

需要进行命名实体识别的数据内容:

...
麻疹样红斑型药疹.txt
麻疹病毒肺炎.txt
麻痹性臂丛神经炎.txt
麻风性周围神经病.txt
麻风性葡萄膜炎.txt
黄体囊肿.txt
黄斑囊样水肿.txt
黄斑裂孔性视网膜脱离.txt
黄韧带骨化症.txt
黏多糖贮积症.txt
黏多糖贮积症Ⅰ型.txt
黏多糖贮积症Ⅱ型.txt
黏多糖贮积症Ⅵ型.txt
黏多糖贮积症Ⅲ型.txt
黏多糖贮积症Ⅶ型.txt
黑色丘疹性皮肤病.txt
...

每个txt文件的名字都是一种疾病名.

文件位置: /data/doctor_offline/unstructured/norecognite/

以黑色丘疹性皮肤病.txt为例, 有如下内容:

初呈微小、圆形、皮肤色或黑色增深的丘疹，单个或少数发生于颌部或颊部，皮损逐渐增大增多，数年中可达数百，除眶周外尚分布于面部、颈部和胸上部。皮损大小形状酷似脂溢性角化病及扁平疣鶒。不发生鳞屑，结痂和溃疡，亦无瘙痒及其他主观症状

txt中是对该疾病症状的文本描述.

文件位置: /data/doctor_offline/unstructured/norecognite/黑色丘疹性皮肤病.txt

进行命名实体识别:
- 进行命名实体识别的工作我们这里使用AI模型实现, 包括模型训练和使用的整个过程, 因此内容以独立一章的形成呈现给大家, 具体内容在第六章: 命名实体识别任务.

进行命名实体审核:
- 同4.2 结构化数据流水线中的命名实体审核.

命名实体写入数据库:
- 同4.2 结构化数据流水线中的命名实体写入数据库.

本章总结:
- 学习了离线部分的数据流水线以及组成部分.
  - 根据架构展开图图，离线部分可分为两条数据流水线，分别用于处理结构化数据和非结构化数据. 这里称它们为结构化数据流水线和非结构化数据流水线.

结构化数据流水线的组成部分:
- 结构化数据爬虫: 从网页上抓取结构化的有关医学命名实体的内容.
- 结构化数据的清洗: 对抓取的内容进行过滤和清洗, 以保留需要的部分.
- 命名实体审核: 对当前命名实体进行审核, 来保证这些实体符合我们的要求.
- 命名实体写入数据库: 将审核后的命名实体写入数据库之中, 供在线部分使用.

非结构化数据流水线的组成部分:
- 非结构化数据爬虫: 从网页上抓取非结构化的包含医学命名实体的文本.
- 非结构化数据清洗: 对非结构化数据进行过滤和清洗, 以保留需要的部分.
- 命名实体识别: 使用模型从非结构化文本中获取命名实体.
- 命名实体审核: 对当前命名实体进行审核, 来保证这些实体符合我们的要求.
- 命名实体写入数据库: 将审核后的命名实体写入数据库之中, 供在线部分使用.

学习了需要进行命名实体审核的数据内容.

学习了结构化/非结构化数据流水线中命名实体审核的过程.

学习了结构化/非结构化数据流水线中命名实体写入的过程.

学习了需要进行命名实体识别的数据内容.

非结构化数据流水线中命名实体识别的过程.

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录