说明-简易开发 - 图1

https://aiui-doc.xf-yun.com/project-1/doc-1/

平台简介


什么是AIUI

AIUI 是一套人机交互解决方案,整合了语音唤醒、语音识别、语义理解、内容平台、语音合成等能力。
支持SDK接入:Android、iOS、Windows、Linux
支持API接入:WebSocket API
说明-简易开发 - 图2 AIUI 产品框架 平台功能:

应用接入

  • 自定义唤醒词:在线下载自定义唤醒词;
  • 识别引擎:配置外语、方言识别;
  • 敏感词过滤:让敏感信息不展示给用户;
  • 语义理解:配置你开发的或者AIUI官方提供的语音技能;
  • 合成发音人:选择你喜欢的合成发音人,设置语速等。

技能工作室

  • 自定义技能:开发业务相关的语音交互技能;
  • 自定义问答:开发语音交互的问答,可以支持整句模糊匹配和关键词匹配;
  • 设备人设:让设备拟人化,配置设备的名字,年龄等信息。

技能商店

查看和体验讯飞官方提供的语音技能。

硬件模组

  • USB声卡
    用于设备录音及喇叭回声采集,不包含算法,了解详情
  • RK3588多模态交互板
    集成语音、手势、人脸等能力,适用于大屏一体机,机器人等公共场所人机交互场景, 了解详情

AIUI设备端能力

前端声学

用去混响,降噪、回声消除算法来提高唤醒率、识别率。
  • 麦克风阵列
    多个麦克风按照特定位置排列,构成阵列,提高远距离识别率。常见阵列如下:
    说明-简易开发 - 图3
自定义麦克风阵列可以联系AIUI获取 + 波束形成
使拾音具有指向性,抑制波束外声音。2麦波束示例:
说明-简易开发 - 图4 + 回声消除
回声消除算法抑制麦克风音频中的喇叭声,提高识别率。 + 去除混响技术
声波在室内传播时,被墙壁反射形成反射声,并和直达声叠加,构成混响。去混响算法消减声音中的反射声,提升声音的清晰度。 + 噪音抑制
降噪算法抑制背景噪声,从而提升唤醒率和识别率。 + 声源定位
唤醒时,分析多个麦克风声音的时延来确认声音的方位。

语音唤醒

用3-6个字的唤醒词,将设备从休眠状态变成识别状态

离线语音识别

满足无网络环境下的识别需求。支持标点、和实时出字

离线命令词识别

支持开发者自定义命令词,最大300词

离线文法语义

文法语义定制,可扩展至128个槽位、30000个词条,支持用户自由说,可以实现设备的精细控制;配合本地内容资源,还可以满足特定领域语义理解,实现纯离线语音交互,如户外拉杆箱(点歌机)或车载KTV的离线语音点歌。 注意:离线语义资源消耗:2核1.4G设备,占用CPU15%、内存70M

离线合成

支持中文、英文等多种语种的合成,支持音量、语速调节,多个发音人可选。

人脸识别

包含人脸检测、人脸识别、人脸跟踪、交互活体检测、静默活体检测、人脸1:1比对、人脸1:N检索

AIUI服务端能力

在线语音识别(ASR)

语音识别将声音转换为文本。支持23种方言和1个民族语言,提供四川话、广东话与普通话的混合识别。
  • 近场识别 人距离设备 < 1m
  • 远场识别 人距离设备 1~5m
注:远场识别引擎,让远距离识别率更高。
  • 方言识别
    同时 AIUI 支持23 种方言,可动态切换方言引擎。
    `注意:AIUI语义理解默认支持普通话,方言识别会降低语义理解的效果
  • 持续录音,连续识别
    交互模式支持单轮交互(Oneshot) 全双工(Continuous)

Oneshot: 一次唤醒,一次交互。如手机 APP 或者语音电视遥控器等单麦克风设备,一般使用单轮交互,需要用户或程序主动触发录音。

Continuous:一次唤醒,连续交互。设备需要很好的回声消除效果,且环境安静,否则自言自语

注意:语音活动检测(Voice Activity Detection,VAD)。用于判断一句话的开始与结束。
  • 拒识,过滤无效语音
    全双工模式,通过语义拒识技术,将无效的噪音和无意义语音进行过滤。
注意:全双工模式仍有小概率的误触发问题。

语义理解

语义理解(NLP)指将自然语言转化为结构化数据。 例:将“合肥天气”处理成JSON数据:
  1. {
  2. "city":"合肥"
  3. "time": "2018-01-19"
  4. }
Copy

敏感词过滤

敏感词指涉黄、涉暴、涉政、涉恐等词汇。
敏感过滤把敏感词屏蔽,不展示给用户,默认关闭,可联系AIUI开启

语音合成

语音合成(TTS)指将文字转化为声音。讯飞有多个发音人。支持方言,支持动态调整音量、语速、音调,同时提供定制发言人。

内容(信源)

内容(信源)指语义理解后的有效数据,例如天气信息,音乐的播放链接。AIUI 技能商店中多数技能包含内容。我们诚邀内容提供商与我们合作,包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源。

语音翻译

AIUI支持英、日、韩、法、西、俄、阿拉伯等语种的翻译。 翻译属于增值服务,可以联系AIUI开启

AIUI交互指导

按键交互

设备有录音按钮,按下录音,松开后停止录音。

唤醒交互

用户先喊唤醒词,设备被唤醒后才能进行语音交互。

全双工交互

指设备喇叭发声的同时录音,无需唤醒词打断,用户可以跟设备对话。`
  1. 用户:小飞小飞,今天天气
  2. 音响:今天晴……
  3. 用户:明天呢
  4. 音响:明天多云……

离线语音交互

离线语音交互是将语音交互需要的服务下发至本地,通过本地解析实现原本只能在线才能支持的语音交互服务。AIUI离线语音交互服务支持开发者定制更新资源,进一步的提升设备化个性语音交互体验。 离线交互算力占用
2核1.4G芯片:cpu占用15%;内存占用70M;

免唤醒交互

免唤醒语音交互实现了直接说话控制设备;没有网络也可以使用

免唤醒+离线交互算力占用
2核1.4G芯片:cpu占用35%,内存占用90M;

多模态交互

多模态交互,融合声纹识别,手势识别、唇形检测、虚拟人形象等AI技术,让人机交互方式更丰富,交互过程更自然。 用户可基于业务场景选择各个能力,并通过自定义技能及技能后处理实现交互流程的设计。