平台简介">平台简介

说明-简易开发 - 图1

https://aiui-doc.xf-yun.com/project-1/doc-1/

平台简介

什么是AIUI

AIUI 是一套人机交互解决方案，整合了语音唤醒、语音识别、语义理解、内容平台、语音合成等能力。
支持SDK接入：Android、iOS、Windows、Linux
支持API接入：WebSocket API
说明-简易开发 - 图2

AIUI 产品框架平台功能：

应用接入

自定义唤醒词：在线下载自定义唤醒词；
识别引擎：配置外语、方言识别；
敏感词过滤：让敏感信息不展示给用户；
语义理解：配置你开发的或者AIUI官方提供的语音技能；
合成发音人：选择你喜欢的合成发音人，设置语速等。

技能工作室

自定义技能：开发业务相关的语音交互技能；
自定义问答：开发语音交互的问答，可以支持整句模糊匹配和关键词匹配；
设备人设：让设备拟人化，配置设备的名字，年龄等信息。

技能商店

查看和体验讯飞官方提供的语音技能。

硬件模组

USB声卡
用于设备录音及喇叭回声采集，不包含算法，了解详情。
RK3588多模态交互板
集成语音、手势、人脸等能力，适用于大屏一体机，机器人等公共场所人机交互场景, 了解详情。

AIUI设备端能力

前端声学

用去混响，降噪、回声消除算法来提高唤醒率、识别率。

麦克风阵列
多个麦克风按照特定位置排列，构成阵列，提高远距离识别率。常见阵列如下：

自定义麦克风阵列可以联系AIUI获取 + 波束形成
使拾音具有指向性，抑制波束外声音。2麦波束示例：
说明-简易开发 - 图4

+ 回声消除
回声消除算法抑制麦克风音频中的喇叭声，提高识别率。 + 去除混响技术
声波在室内传播时，被墙壁反射形成反射声，并和直达声叠加，构成混响。去混响算法消减声音中的反射声，提升声音的清晰度。 + 噪音抑制
降噪算法抑制背景噪声，从而提升唤醒率和识别率。 + 声源定位
唤醒时，分析多个麦克风声音的时延来确认声音的方位。

语音唤醒

用3-6个字的唤醒词，将设备从休眠状态变成识别状态

离线语音识别

满足无网络环境下的识别需求。支持标点、和实时出字

离线命令词识别

支持开发者自定义命令词，最大300词

离线文法语义

文法语义定制，可扩展至128个槽位、30000个词条，支持用户自由说，可以实现设备的精细控制；配合本地内容资源，还可以满足特定领域语义理解，实现纯离线语音交互，如户外拉杆箱（点歌机）或车载KTV的离线语音点歌。注意：离线语义资源消耗：2核1.4G设备，占用CPU15%、内存70M

离线合成

支持中文、英文等多种语种的合成，支持音量、语速调节，多个发音人可选。

人脸识别

包含人脸检测、人脸识别、人脸跟踪、交互活体检测、静默活体检测、人脸1:1比对、人脸1:N检索。

AIUI服务端能力

在线语音识别（ASR）

语音识别将声音转换为文本。支持23种方言和1个民族语言，提供四川话、广东话与普通话的混合识别。

近场识别 人距离设备 < 1m
远场识别 人距离设备 1~5m

注：远场识别引擎，让远距离识别率更高。

方言识别
同时 AIUI 支持23 种方言，可动态切换方言引擎。
`注意：AIUI语义理解默认支持普通话，方言识别会降低语义理解的效果
持续录音，连续识别
交互模式支持单轮交互（Oneshot）和 全双工（Continuous）

Oneshot: 一次唤醒，一次交互。如手机 APP 或者语音电视遥控器等单麦克风设备，一般使用单轮交互，需要用户或程序主动触发录音。

Continuous：一次唤醒，连续交互。设备需要很好的回声消除效果，且环境安静，否则自言自语。

注意：语音活动检测(Voice Activity Detection,VAD)。用于判断一句话的开始与结束。

拒识，过滤无效语音
全双工模式，通过语义拒识技术，将无效的噪音和无意义语音进行过滤。

注意：全双工模式仍有小概率的误触发问题。

语义理解

语义理解（NLP）指将自然语言转化为结构化数据。例：将“合肥天气”处理成JSON数据：

{
  "city":"合肥"，
  "time": "2018-01-19"
}

Copy

敏感词过滤

敏感词指涉黄、涉暴、涉政、涉恐等词汇。
敏感过滤把敏感词屏蔽，不展示给用户，默认关闭，可联系AIUI开启。

语音合成

语音合成（TTS）指将文字转化为声音。讯飞有多个发音人。支持方言，支持动态调整音量、语速、音调，同时提供定制发言人。

内容（信源）

内容（信源）指语义理解后的有效数据，例如天气信息，音乐的播放链接。AIUI 技能商店中多数技能包含内容。我们诚邀内容提供商与我们合作，包括但不限于音视频资源、流媒体、新闻、自媒体、儿童故事与游戏、股票违章查询等功能类资源。

语音翻译

AIUI支持英、日、韩、法、西、俄、阿拉伯等语种的翻译。翻译属于增值服务，可以联系AIUI开启。

AIUI交互指导

按键交互

设备有录音按钮，按下录音，松开后停止录音。

唤醒交互

用户先喊唤醒词，设备被唤醒后才能进行语音交互。

全双工交互

指设备喇叭发声的同时录音，无需唤醒词打断，用户可以跟设备对话。`

用户：小飞小飞，今天天气
音响：今天晴……
用户：明天呢
音响：明天多云……

离线语音交互

离线语音交互是将语音交互需要的服务下发至本地，通过本地解析实现原本只能在线才能支持的语音交互服务。AIUI离线语音交互服务支持开发者定制更新资源，进一步的提升设备化个性语音交互体验。离线交互算力占用
2核1.4G芯片：cpu占用15%；内存占用70M；

免唤醒交互

免唤醒语音交互实现了直接说话控制设备；没有网络也可以使用

免唤醒+离线交互算力占用
2核1.4G芯片：cpu占用35%，内存占用90M；

多模态交互

多模态交互，融合声纹识别，手势识别、唇形检测、虚拟人形象等AI技术，让人机交互方式更丰富，交互过程更自然。用户可基于业务场景选择各个能力，并通过自定义技能及技能后处理实现交互流程的设计。