https://aiui-doc.xf-yun.com/project-1/doc-1/
平台简介
什么是AIUI
AIUI 是一套人机交互解决方案,整合了语音唤醒、语音识别、语义理解、内容平台、语音合成等能力。支持SDK接入:Android、iOS、Windows、Linux
支持API接入:WebSocket API
AIUI 产品框架 平台功能:
应用接入
- 自定义唤醒词:在线下载自定义唤醒词;
- 识别引擎:配置外语、方言识别;
- 敏感词过滤:让敏感信息不展示给用户;
- 语义理解:配置你开发的或者AIUI官方提供的语音技能;
- 合成发音人:选择你喜欢的合成发音人,设置语速等。
技能工作室
- 自定义技能:开发业务相关的语音交互技能;
- 自定义问答:开发语音交互的问答,可以支持整句模糊匹配和关键词匹配;
- 设备人设:让设备拟人化,配置设备的名字,年龄等信息。
技能商店
查看和体验讯飞官方提供的语音技能。硬件模组
AIUI设备端能力
前端声学
用去混响,降噪、回声消除算法来提高唤醒率、识别率。- 麦克风阵列
多个麦克风按照特定位置排列,构成阵列,提高远距离识别率。常见阵列如下:
使拾音具有指向性,抑制波束外声音。2麦波束示例:
+ 回声消除
回声消除算法抑制麦克风音频中的喇叭声,提高识别率。 + 去除混响技术
声波在室内传播时,被墙壁反射形成反射声,并和直达声叠加,构成混响。去混响算法消减声音中的反射声,提升声音的清晰度。 + 噪音抑制
降噪算法抑制背景噪声,从而提升唤醒率和识别率。 + 声源定位
唤醒时,分析多个麦克风声音的时延来确认声音的方位。
语音唤醒
用3-6个字的唤醒词,将设备从休眠状态变成识别状态离线语音识别
满足无网络环境下的识别需求。支持标点、和实时出字离线命令词识别
支持开发者自定义命令词,最大300词离线文法语义
文法语义定制,可扩展至128个槽位、30000个词条,支持用户自由说,可以实现设备的精细控制;配合本地内容资源,还可以满足特定领域语义理解,实现纯离线语音交互,如户外拉杆箱(点歌机)或车载KTV的离线语音点歌。 注意:离线语义资源消耗:2核1.4G设备,占用CPU15%、内存70M离线合成
支持中文、英文等多种语种的合成,支持音量、语速调节,多个发音人可选。人脸识别
包含人脸检测、人脸识别、人脸跟踪、交互活体检测、静默活体检测、人脸1:1比对、人脸1:N检索。AIUI服务端能力
在线语音识别(ASR)
语音识别将声音转换为文本。支持23种方言和1个民族语言,提供四川话、广东话与普通话的混合识别。- 近场识别 人距离设备 < 1m
- 远场识别 人距离设备 1~5m
- 方言识别
同时 AIUI 支持23 种方言,可动态切换方言引擎。
`注意:AIUI语义理解默认支持普通话,方言识别会降低语义理解的效果 - 持续录音,连续识别
交互模式支持单轮交互(Oneshot)和 全双工(Continuous)
Oneshot: 一次唤醒,一次交互。如手机 APP 或者语音电视遥控器等单麦克风设备,一般使用单轮交互,需要用户或程序主动触发录音。
Continuous:一次唤醒,连续交互。设备需要很好的回声消除效果,且环境安静,否则自言自语。
注意:语音活动检测(Voice Activity Detection,VAD)。用于判断一句话的开始与结束。- 拒识,过滤无效语音
全双工模式,通过语义拒识技术,将无效的噪音和无意义语音进行过滤。
语义理解
语义理解(NLP)指将自然语言转化为结构化数据。 例:将“合肥天气”处理成JSON数据:Copy
{
"city":"合肥",
"time": "2018-01-19"
}
敏感词过滤
敏感词指涉黄、涉暴、涉政、涉恐等词汇。敏感过滤把敏感词屏蔽,不展示给用户,默认关闭,可联系AIUI开启。
语音合成
语音合成(TTS)指将文字转化为声音。讯飞有多个发音人。支持方言,支持动态调整音量、语速、音调,同时提供定制发言人。内容(信源)
内容(信源)指语义理解后的有效数据,例如天气信息,音乐的播放链接。AIUI 技能商店中多数技能包含内容。我们诚邀内容提供商与我们合作,包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源。语音翻译
AIUI支持英、日、韩、法、西、俄、阿拉伯等语种的翻译。 翻译属于增值服务,可以联系AIUI开启。AIUI交互指导
按键交互
设备有录音按钮,按下录音,松开后停止录音。唤醒交互
用户先喊唤醒词,设备被唤醒后才能进行语音交互。全双工交互
指设备喇叭发声的同时录音,无需唤醒词打断,用户可以跟设备对话。`
用户:小飞小飞,今天天气
音响:今天晴……
用户:明天呢
音响:明天多云……
离线语音交互
离线语音交互是将语音交互需要的服务下发至本地,通过本地解析实现原本只能在线才能支持的语音交互服务。AIUI离线语音交互服务支持开发者定制更新资源,进一步的提升设备化个性语音交互体验。 离线交互算力占用2核1.4G芯片:cpu占用15%;内存占用70M;
免唤醒交互
免唤醒语音交互实现了直接说话控制设备;没有网络也可以使用
免唤醒+离线交互算力占用2核1.4G芯片:cpu占用35%,内存占用90M;