06、文本摘要中的NLP技术 - 《AI成长》

人类很难手动汇总大型文本文档。文本摘要是NLP为源文档创建简短、准确和流畅的摘要问题。随着推送通知和文章摘要获得越来越多的注意力，为长文本生成智能且准确摘要的任务每天都在增长。

通过首先计算整个文本文档的单词频率来自动汇总文本。然后，存储和排序100个最常用的单词。

然后根据它包含的高频词数对每个句子进行评分，更高频率的词，价值更大。最后，根据它们在原始文本中的位置来获取和排序前X个句子。

06、文本摘要中的NLP技术 - 图1

文本摘要有两种基本方法：提取和抽象。前者从原始文本中提取单词和单词短语以创建摘要。后者是学习内部语言表示以生成更像人类的摘要，解释原始文本的意图。

提取摘要的方法是通过选择子集来工作。这是通过从实际文章中提取短语或句子以形成摘要来完成的，LexRank和TextRank是众所周知的摘要总结，它们都使用了Google PageRank算法的变体。

LexRank是一种无监督的基于图形的算法，它使用IDF修改的余弦作为两个句子之间的相似性度量。该相似度用作两个句子之间的图形边缘的权重。LexRank还采用了智能后处理步骤，确保为摘要选择的顶级句子彼此不太相似。

TextRank是一种类似于LexRank的算法，具有一些增强功能，例如使用词形化而不是词干，结合词性标注和命名实体分辨率，从文章中提取关键短语，以及根据这些短语提取摘要句子。除了文章摘要外，TextRank还从文章中提取了有意义的关键短语。

抽象概括的模型属于深度学习。使用深度学习的文本摘要已经取得了一定的突破。以下是一些NLP领域最大公司最显着的公布结果：

Facebook的神经注意是一种神经网络架构，它利用基于本地注意力的模型，能够根据输入句子生成摘要中的每个单词。 ·

Google Brain的Sequence-to-Sequence模型遵循编码器-解码器架构。编码器负责读取源文档并将其编码为内部表示，解码器是一种语言模型，负责使用源文档的编码表示在输出摘要中生成每个单词。 · IBM Watson使用类似的序列到序列模型，但具有注意力和双向递归神经网络功能。