面对面场景,即两人之间的对话场景。例如客户与客服之间的交流,主要包括客户阐述问题和客服提供解决方案的信息。而对于他人来说,阅读通篇对话记录是一项耗费时间,且效率不高的过程。对面对面场景的对话内容进行自动总结能够大幅节省人力资源,因此具备应用潜力。

    尽管抽取式摘要更简单,但在对话的摘要任务中这种方法往往不尽如人意,因为它在捕捉高度依赖的对话内容和产生连贯的话语方面的能力有限。近期的研究主要集中于生成式摘要方法,面临的问题主要有两点
    1)对于不同的发言者而言,其身份,目的,语言风格存在差异。以客户-客服场景来说,客户的目的是抛出问题,而客服的目的是提供解决方案,这会导致不一致的数据分布。现有的摘要方法均没有对这一特性进行针对性的解决。
    2)高质量的对话摘要标注数据的获取成本非常高,目前的模型通常使用主题描述作为参考摘要,但它们仅是对于整篇对话的宽泛内容概括,不包括关于演讲者的任何信息。一些方法利用对话行为和关键点序列等辅助信息来辅助摘要过程,这进一步增加了对于数据标注的要求。
    3)由于对话是两个人之间,同时又由于是第三方记录,导致了指代关系的一些词语多样且不明确

    Abstractive Dialog Summarization with Semantic Scaffolds ICLR 2020
    对每一个对话角色独立的分配编码器,去词化策略,以及对对话领域进行预测

    SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization
    建立了一个新的数据集(也正是现在用的一个比较主流的数据集),把ROUGE和人工的结果对比,认为ROUGE存在一点问题。对话的结构比新闻更复杂了

    Multi-View Sequence-to-Sequence Models with Conversation Structure for Abstractive Dialogue Summarization【EMNLP2020】
    使用的思路是建模对话过程的阶段,获取阶段的主题和对话阶段的切换