原文:https://arxiv.org/abs/2106.14361
    摘要:
    学习词的向量表示是NLP领域中最基础的领域之一,它能够捕获(提取)对各种NLP下游任务有用的语法和语义关系。然而,向量表示可能会受到限制,因为典型的评分(例如点积相似性)会将空间中向量的位置和大小紧密连接起来。在表示学习空间方面的激动人心的创新已经提出了可代替的基本表示,例如:distributions(分布), hyperbolic vectors(双曲向量), or regions。本文提出的模型Word2Box,对词表示问题采用基于region的方法,将词表示为n维矩形(rectangles)。这种表示将位置和宽度单独进行编码,并提供额外的集合操作,例如交集(intersection)和包含(containment),which allow them to model co-occurrence patterns vectors struggle with. 本文展示了在各种单词相似性任务上的提升的性能,特别是在不太常见的单词上,并进行了定性分析,探索 Word2Box 提供的额外独特表达能力。