本文介绍一个清华大学开源的一个在线反向词典 万词王
网站名称:https://wantwords.thunlp.org/home/
源码地址:https://github.com/thunlp/WantWords
何为反向词典?反向词典的意思不是提供反义词的词典,而是提供查询词定义的常规(正向)词典相反的,在语义上与查询描述匹配的词。
反向词典有什么作用呢?
官网给出的作用:
- Solve the tip-of-the-tongue problem, the phenomenon of failing to retrieve a word from memory 解决舌尖问题,(舌尖问题是一个心理学问题,拿现实生活举例,比方说一些平时很简单、很熟悉的字、单词或公式等话到嘴边就是无法记起,考试过后却突然忆起。)
- Help new language learners 帮助语言学习新手
- Help word selection (or word dictionary) anomia patients, people who can recognize and describe an object but fail to name it due to neurological disorder 帮助失语症患者
在NLP领域中常常会使用同近义词替换、文本改写、文本替换做数据增强,开源的词典库往往成为数据增强最好的语料。
该词典支持,中文、英文独立查询,并且还支持汉-英、英-汉转换查询
以太棒了
这个单词为例子,可以看到返回了一些有趣的例子,有一些和微博评论、梗有关。
官方建议配合搜索筛选器能得到更好的结果。
筛选包含简单的字数、笔画数和拼音,也包含复杂的词形、韵脚等。这对诗歌生成、歌词生成应该也会有一些用处。
我们筛选不小于4字的词,出现的基本都是四字成语,也会出现诸如人逢喜事精神爽
和惊天地泣鬼神
这样的短语
目前体验下来,可以作为语料库或者知识库,查询到的词语挺有意思,中英转换效果也很不错。