layout: posttitle: 第二天AICon人工智能大会记录
subtitle: 听课笔记
date: 2019-11-22
author: NSX
header-img: img/post-bg-ios9-web.jpg
catalog: true
tags:
- 技术博客

第二天AICon人工智能大会记录

AICon第二天 2019.11.22

小米人工智能实验室 《知识图谱在小米的落地与挑战》刘作鹏

  • 知识图谱简介

    • 本质上,知识图谱是大规模的语义网络( Semantic Web);
    • 语义网络是知识表示的重要方式之一,富含实体、概念和多种语义关系;
    • 让机器具备认知能力的关键技术
  • OpenBase 项目

    • 联合OpenKG、小米、清华大学、浙江大学、东南大学、狗尾草、海知智能
    • 多个中文知识图谱自由下载
  • 关键构建技术
    2019-11-22-第二天AICon人工智能大会记录 - 图5

    • bert太重,蒸馏!
  • 百科知识图谱构建(避坑指南)

    • 知识抽取 → 实体发现 → 实体分类 → 知识补全 → 知识更新 → 知识融合

    • 百科图谱的对齐: Schema层对齐

      • 以cnSchema为基础,半自动地抽取等价概念和上下位关系
      • 利用等价概念发现等价谓词
  • 垂域知识图谱的构建

    • ^本体定义 → 实体发现 → 知识抽取 → 实体对齐 → 知识择优 → 知识更新

    • 小样本条件下的文本分类模型

      • 联合BERT和Meta Network的网络模型;
      • Transformer层之间用残差网络连接
    • 图谱的质检流程…(众包)

    • 数据不足

      • 人工标注10000条垂域数据+远程监督
    • 知识择优来源

      • 数据的权重引用数
    • 知识及时更新
  • 小米图谱

    • 以百科图谱为中心(已接入9大业务类别),链接了52垂域图谱
  • 基于图谱的问答 - KBQA

    • 小爱开放域问答系统

2019-11-22-第二天AICon人工智能大会记录 - 图6

  • 问句理解是当前的难点

    • 问句纠错 → 问句改写 → 意图识别 → 指代消解 → 实体链接谓词判断

    • 借鉴了搜索和NLP的技术

    • 需要在80毫秒内完成全部处理,每天处理6千万次以上的请求 (120ms以内返回答案)

  • KBQA关键技术:实体链接
    2019-11-22-第二天AICon人工智能大会记录 - 图7

  • KBQA关键技术:谓词判断

    • ……
      • 未来发展
  • 从KG到KG Plus

  • KG Plus查询: 根据内容名称或者内容ID,从KG Plus里查询内容;
  • 理解服务:根据内容名称或者内容ID,查询补充了各类信息的内容数据;
  • 融合服务:将结构化的和非结构化的数据融合到KG Plus中;
  • 距离计算:查询实体之间或者概念之间的图谱距离 ;
  • 实体推荐:根据给定实体,推荐关联实体;
    • 知识图谱:好用,耗钱,耗人力,偏长远发展
  • 如何对客服机器人评价?

    1. 对给出的答案进行反馈(点赞点踩)

    2. 标注测试集,计算PRF值

平安银行 / AI算法团队《智能金融在客服机器人中台的落地实践》潘鹏举

  • 平安AI业务架构
    2019-11-22-第二天AICon人工智能大会记录 - 图8

  • 客服机器人小安1.0

    • 存在问题

      • 知识库独立不共享(借记卡和信用卡)
      • 前端重复开发
      • 不智能,无法回答其他业务的问题
    • 解决方案

      1. 知识库维护在一个地方
      2. 程序分别调用两个机器人,前端进行结果合并(√)
  • 客服机器人小安2.0
    利用中控机器人来调用不同业务机器人
    2019-11-22-第二天AICon人工智能大会记录 - 图9

    • 存在问题

      • 知识库的维护工作量增大(各类业务知识的不断接入)
      • FAQ知识不共享,扩展性差
      • 新机器人的冷启动工作量大

        • 冷启动科普:在无初始客户积累,得不到新入客户群数据,分析不出客户习惯,不能针对性改进和推广
      • 需定长周期的定制化开发(麻烦)
    • 解决方案

      • 对不同模块进行抽象封装(共享、复用、组件化 )
  • 客服机器人小安3.0(中台化)
    抽象出3个重点

    1. 知识统一沉淀

      • 知识共享(不同业务知识库+闲聊库)
      • 知识集中化管理(后台管理系统,知识易适配、易维护)
    2. 服务统一管理

      • 实现了服务的统一注册、编排和管理

2019-11-22-第二天AICon人工智能大会记录 - 图10

  • 实体管理 (分通用实体、场景化实体)

    • 实体状态保持机制实现

      • 命中了某个实体,根据上下文进行状态机制的保存
  1. 答案的配置化

    • 卡片式答案
    • 卡片组件库管理

2019-11-22-第二天AICon人工智能大会记录 - 图11

2019-11-22-第二天AICon人工智能大会记录 - 图12

  • 示例

2019-11-22-第二天AICon人工智能大会记录 - 图13

  • 总结

    • 扩展问的数量会大幅提高问答的效果

      • 找运维,多标注知识(很重要)
    • 充足的FAQ数据是保证模型起效果的关键

      • 数据!数据!数据!
    • 多轮对话效果有待提高

    • 核心的NLU抽象成模块,和知识、答案展示等服务进行解耦

    • 通过发现bad case,人工调整数据重新训练


阿里巴巴达摩院语音实验室 《阿里KAN-TTS技术和落地实践》雷鸣

  • 语音合成技术的历史演变
  • 语音合成技术的应用场景

    • ASR→NLP→TTS
    • 三方面刚需

      • 交互(智能客服、智能硬件、虚拟助理)
      • 播报(导航、内容播报)
      • 娱乐(变声)
  • Knowledge-aware Neural TTS (KAN-TTS)
    2019-11-22-第二天AICon人工智能大会记录 - 图14

    • 评价指标(MOS%)
  • 基于KAN-TTS的定制(声音克隆)

    • 5大场景,42种声音

      • 高品质– 听起来好听
      • 开箱即用– 想要什么声音就有什么声音
      • 低门槛定制– 想做什么声音就可以做什么声音
      • 个性化– 低成本娱乐效果

追一科技AI Lab《企业服务中智能交互机器人的实践与探索》徐易楠

实践过程中的瓶颈及探索

  • 冷启动效果差、可复制能力不够

    • 数据量 vs. 准确率 服从线性递增关系
  • 解决方案

    • 数据复用

      • 构造伪标签( 无监督数据增强+主动学习 )

2019-11-22-第二天AICon人工智能大会记录 - 图15

  • 模型优化

    • 小样本学习
      • 系统鲁棒性不⾜
  • 两句话相似,但语义完全不一致

  • 字面完全不匹配,意图却相关

  • 顺序重要还是不重要
    2019-11-22-第二天AICon人工智能大会记录 - 图16

  • 标点符号也很重要
    2019-11-22-第二天AICon人工智能大会记录 - 图17

  • 解决方案

    • 数据优化

      • 简单数据增强:近义词、乱序、随机替换、删除等
      • 复杂数据增强:使用生成模型
    • 模型优化

      • 对抗训练:在某个输⼊上有意的加⼊⾜够小的扰动,能够使⽹络预测错误且预测概率较高的样本
  • 口语化表达理解能力不够

    • 通用ASR对于 领域知识 识别效果有限 | ASR识别结果 | 标签 | | —- | —- | | 能不能改天呐 | 能不能改签呐 | | 我怎么投保啊 | 我怎么淘宝啊 |
  • 领域关键词通常会导致意图识别错误

  • 口语化表达与文本差异较大

  • 解决方案

    • 将ASR转写的数据也参与模型训练
    • 语音+文本联合建模
  • 不能洞察用户情感,从而进行安抚

微软小冰:人格化对话机器人的构建及在语音场景当中的实践(上)》曾敏

  • 对话系统的基本架构
    2019-11-22-第二天AICon人工智能大会记录 - 图18

  • 语义分析(四方面)
    2019-11-22-第二天AICon人工智能大会记录 - 图19

  • 检索模型的基本结构

    • 利用bert+蒸馏作检索排序(分类),效果提升很明显
  • 2017年业界第一个把开放域对话生成模型做成线上系统

  • 人格化IP

    • AI beings需要避免被工具化
    • 上升到内容创作,有创造力(现代诗创作)

网易云音乐搜索《AI算法在云音乐搜索中的应用实践》王新欣

  • 面临的问题

    • 用户需求仅仅是一首歌曲?
    • 如何理解用户并匹配?
    • 如何给用户更好的资源?
    • 如何给业务赋能?
  • 云音乐搜索框架
    2019-11-22-第二天AICon人工智能大会记录 - 图20

  • 关键分享(两部分)
    2019-11-22-第二天AICon人工智能大会记录 - 图21

  • Query理解体系
    2019-11-22-第二天AICon人工智能大会记录 - 图22

  • 意图识别 - 方法归纳
    2019-11-22-第二天AICon人工智能大会记录 - 图23

  • 多链路相关性(没太听懂)

    1. 传统相关性
    • Word Seg+Term weight
    1. 基于点击的Graph

2019-11-22-第二天AICon人工智能大会记录 - 图24

  1. 基于深度语义表征

2019-11-22-第二天AICon人工智能大会记录 - 图25

  • 排序模型(第二个重点部分)
    2019-11-22-第二天AICon人工智能大会记录 - 图26

华为海思计算芯片《达芬奇密码:昇腾芯片的前世今生》王晓雷

  • ⾼算⼒的计算平台

    • CPU
    • GPU / FPGA / DSP
    • TPU
  • 深度学习性能提升小秘诀