2020-06-19-✨Python 最佳实践 - 2020-03-31-基于模糊音的中文匹配算法Dimsim - 《技术笔记》

dimsim介绍

论文解读 dimsim的python实现

中文的语音相似性Phonetic similarity算法，可以用于语音纠错spelling correction，比如将稀饭修改为喜欢。

2020-03-31-基于模糊音的中文匹配算法Dimsim - 图1

dimsim三方库介绍：给定两个相同长度的中文单词，模型确定两个单词之间的距离，并返回几个与给定单词接近的候选单词。它包括 2 个API接口：

代码示例如下：

import dimsim
# 计算词语间的发音相似度
score_py = dimsim.get_distance("星辰", "姓陈")

在语音识别领域，由于我国方言众多，所以需要精准地匹配每个地方的方言目前还不太现实。市面上的语音识别服务基本上对普通话的识别率是最高的，但是也需要用户用很标准的普通话来讲。这就涉及到模糊音匹配的问题了。

用户说：“大娘水饺好吃吗”，被语音识别成了“大亮睡觉好吃嘛”（举个栗子而已），这个时候怎么将语音识别后的结果转换成我想要的结果。

一般来说中文单词的拼写错误大致有这么几种类型：

因为汉语表达比较精炼，使用编辑距离去做纠错，效果就很不好，比如 “南通市 – 难通市 – 北通市”，这三者的编辑距离都是 1，就不好判断了。但这时结合拼音去判断，就会发现 “南通市” 与 “难通市” 的相似度高于 “南通市” 与 “北通市” 了。

所以对于汉字的纠错，我们需要同时结合拼音和字形上的特点：

这种编码可以在一定程度上解决形近词的问题，但也有其自身的问题，由于只取汉字的四角笔形，有些外形截然不同的汉字，因为四角结构相同，也拥有同样的四角编码。
比如：量 - 6010 ，日 - 6010 ，但它们是不一样的。

所以为了解决汉字相似度计算问题，我们可以结合汉字的拼音、声调、四角编码、笔画数、字形结构等来考虑。

我们的做法：将ASR的2元结果跟姓氏库进行一一模糊匹配，检查用户的拼写是否有错误，如果有的话，给出正确的姓氏，完成姓氏读音纠错。

中文汉字大致有几个特征：
1）声母；2）韵母；3）声调；4）偏旁；5）结构；6）笔画
这几个特征中，在语音识别后的处理过程中，1、2、3的权重要高一些，其中，1、2最为重要，也就是语音识别为什么出错的原因，要做的事情就是通过模糊音将声母、韵母来进行匹配。
基于语言模型做文本自动纠错
查词典

检查一个单词是否拼写错误，我们可以通过查词典找同音词，在词典中查找相似度阈值大于某个特定值的关键词即为候选正确词。

如果得到多个正确词，但是通常显示给用户只有一个，按照下面规则对它们进行排序，越前面的规则权重越高。