人类很难手动汇总大型文本文档。文本摘要是NLP为源文档创建简短、准确和流畅的摘要问题。随着推送通知和文章摘要获得越来越多的注意力,为长文本生成智能且准确摘要的任务每天都在增长。

    通过首先计算整个文本文档的单词频率来自动汇总文本。 然后,存储和排序100个最常用的单词。

    然后根据它包含的高频词数对每个句子进行评分,更高频率的词,价值更大。 最后,根据它们在原始文本中的位置来获取和排序前X个句子。

    06、文本摘要中的NLP技术 - 图1

    文本摘要有两种基本方法:提取和抽象。前者从原始文本中提取单词和单词短语以创建摘要。后者是学习内部语言表示以生成更像人类的摘要,解释原始文本的意图。

    提取摘要的方法是通过选择子集来工作。这是通过从实际文章中提取短语或句子以形成摘要来完成的,LexRank和TextRank是众所周知的摘要总结,它们都使用了Google PageRank算法的变体。

    LexRank是一种无监督的基于图形的算法,它使用IDF修改的余弦作为两个句子之间的相似性度量。该相似度用作两个句子之间的图形边缘的权重。LexRank还采用了智能后处理步骤,确保为摘要选择的顶级句子彼此不太相似。

    TextRank是一种类似于LexRank的算法,具有一些增强功能,例如使用词形化而不是词干,结合词性标注和命名实体分辨率,从文章中提取关键短语,以及根据这些短语提取摘要句子。除了文章摘要外,TextRank还从文章中提取了有意义的关键短语。

    抽象概括的模型属于深度学习。使用深度学习的文本摘要已经取得了一定的突破。以下是一些NLP领域最大公司最显着的公布结果:

    Facebook的神经注意是一种神经网络架构,它利用基于本地注意力的模型,能够根据输入句子生成摘要中的每个单词。 ·

    Google Brain的Sequence-to-Sequence模型遵循编码器-解码器架构。编码器负责读取源文档并将其编码为内部表示,解码器是一种语言模型,负责使用源文档的编码表示在输出摘要中生成每个单词。 · IBM Watson使用类似的序列到序列模型,但具有注意力和双向递归神经网络功能。