智能问答、自然语言处理、神经网络、深度学习、视觉问答、知识图谱、推理问答、复杂问答、深度推理、交互式问答

1 智能问答

  1. 智能问答是自然语言处理中非常重要的研究内容,具体指计算机通过对人类语言的自动分析,回复用户所询问的问题。为了更精准回答用户提问,现通常采用对问句进行深层次语义分析,获取问句丰富内涵信息,再反馈接近用户需要的答案,由此体现计算机智能性。

2 智能问答系统研究主流方向

2.1 视觉问答

  1. 视觉问答是指用自然语言回答一个根据图片内容提出的问题, 如果要解决这个问题, 不仅需要理解图片的内容和问题的含义, 还需要理解文字和图片之间的关系。
  2. 当前实现视觉问答系统的方法主要包括基于贝叶斯框架的方法和基于深度学习的方法。

2.2 基于知识图谱的问答

  1. 基于知识图谱的问答系统已经成为一种访问大型知识图谱的流行方式。通过访问知识图谱的结构化数据, 其可以使用自然语言来准确地回答事实性问题。

2.3 推理问答

  1. 推理问答主要考验机器的智能理解能力, 它可以通过对已知知识的推理来得到未知的知识。推理问答的输入不仅有问题, 还有上下文, 它能够在阅读理解上下文之后, 对知识进行推理, 然后得到问题的正确答案。
  2. 当前推理问答系统的实现方法主要有基于规则的方法和基于记忆神经网络的方法。

3 基于知识图谱的智能问答方法

3.1 基于模板的问答方法

  1. 构建模板的问答方法通过构造一组模板参数,形成查询表达式,对问题文本进行匹配。整个过程通过预设查询模板替代相关实体关系映射。
  2. 优点:可以获得比较准确的答案,回答响应速度快
  3. 缺点:需要耗费大量人力进行模板校对,以及模板库维护。
  4. 当前该方法研究重点更侧重于模板自动生成,克服耗时耗力难题。

3.2 语义解析的问答方法

  1. 语义解析方法关键在于对自然语言问句成分进行解析,将查询转化成逻辑表达式,再利用知识图谱的语义信息将逻辑表达式转换成知识图谱查询,最终得到相应结果。

3.2.1 基于词典文法的语义解析方法

  1. 该方法依赖组合文法,如组合范畴文法(CCG)、同步上下文无关文法(SCFG)、组合语义法(DCS),来进行语义解析。

智能问答 - 图1

3.2.2 基于语义图的问句解析方法

  1. 通过对问句分析,构建相对应的语义图,语义图由节点(实体、变量或者类型)、边(关系)、操作符(countargmax 等)构成,被看作知识图谱子图,实现将问句映射到知识图谱中,再通过图匹配完成问题回答。

3.2.3 基于神经网络的方法

  1. 该方法将自然语言及对应的语义看作是两种不同语言,语义分析任务被看做类似于机器翻译任务,利用端到端模型,实现将问句翻译成对应语义的表示序列。

智能问答 - 图2

智能问答 - 图3

4 智能问答系统的研究挑战

4.1 复杂问题问答

  1. 一旦问题中存在多种关系与实体,或者存在潜在关系,甚至在开放性领域,目前已有的方法效果不尽人意。

4.2 深度推理机制

  1. 传统的基于符号的推理需要严格符号匹配,推理规则有限,以致领域适应性差,无法实现大规模推理。但是,深度学习作用于分布式语义表示,可以利用语义空间中的相似度计算,弥补符号推理需要严格规则的缺陷。所以,如何利用深度学习的大规模、可学习优点、融入传统逻辑推理规则,构建精准的大规模知识推理引擎是自动问答系统迫切需要解决的又一个热点问题。

4.3 多轮交互式问答

  1. 传统的问答系统大多采用一问一答的形式,但是现实应用场景中,用户与机器之间需要多轮交互,由此反馈给用户的答案不只是单一的实体、概念、关系等形式,需要考虑到先前的对话对即将发生的对话的影响或者当前的对话可能对后续对话造成的影响。除此之外,还需要采用用户理解的自然语言形式回复问题。在这一过程中,如何结合知识库,将知识库问答的答案加入自然语言回复中,是亟待解决的题。

4.4 长尾问句挑战

  1. 长尾问句是指在问答数据上,少量表示相同意思,出现频率高的问句在整个数据集中占有大部分的比例。将问句以柱状图的形式展示就会有很长的“尾巴”,尾巴上都是一些出现频率不高的问句。
  2. 例如在数据集中与“ehr系统包含什么功能”意思相近的问句有“ehr系统有哪些功能”“ehr 系统有什么功能”“ehr 系统能实现什么功能”。
  3. 如果数据集大部分都是相似的问句,这就会导致数据集的特征比较单一,学习的模型泛化能力不强。这就可能需要使用一些其他的算法来增强模型的泛化能力

参考:

[1]王智悦,于清,王楠,王耀国.基于知识图谱的智能问答研究综述[J].计算机工程与应用,2020,56(23):1-11.

[2]岳世峰,林政,王伟平,孟丹.智能回复系统研究综述[J].信息安全学报,2020,5(01):20-34.