layout: posttitle: 第一天AICon人工智能大会记录
subtitle: 听课笔记
date: 2019-11-21
author: NSX
header-img: img/post-bg-ios9-web.jpg
catalog: true
tags:
- 技术博客

第一天AICon人工智能大会记录

AICon第一天 2019.11.21

  • Intel AI 分享
  • Baidu《人工智能创新机遇》雷鸣
  • AWS Shanghai AI Lab《Deep Graph Made Easy (and Faster)》
  • Baidu NLP 《大生产时代下的NLP技术创新与应用实践》忻舟
  • 华为诺亚方舟实验室《预训练语言模型》
  • 小米NLP《NLP在小米的探索与实践》王斌
  • 百分点科技《深度迁移学习在NLP中的应用及实践》苏海波

    Intel AI 分享
  • 六大战略投入加速人工智能发展

    • oneAPI:不用管xpu的束缚,开发dpc++语言
  • Intel ANALYTICS Zoo: 神经网络模型乐园
  • 支持各类深度学习框架

Baidu《人工智能创新机遇》雷鸣
  • 工业革命:能源+机械

  • 智能革命:数据+智能

  • 互联网对产业的改写

    • 商业→电商(代表:阿里)
    • 报社、杂志社→互联网媒体(代表:今日头条)
    • 电影、电视→互联网视频(代表:爱奇艺)
    • 社交(代表:Tencent)
    • 搜索(代表:Baidu)
    • O2O(代表:美团)
  • AI对产业的改写

    • 个性化推荐、信用预测、自动驾驶、智能医生、智能助理
  • 目前的创新机会是什么

    • Internet - 5G

      • 高传输
      • 低延时
      • 低功耗、低成本
    • AI – Vertical Solution

      • 模型性能强悍
      • 聚焦产业痛点
      • 解决实际问题
  • 中国优势:

AWS Shanghai AI Lab《Deep Graph Made Easy (and Faster)》
  • Computer science = algorithm + data structures

  • Many data are already graphs
    2019-11-21-第一天AICon人工智能大会记录 - 图1

  • 开发的图模型 Deep Graph library: DGL

    • Deep learning + Graph Github star 3.3k
    • Forward: easy to develop new models
    • Backward: seamless integration with existing framework
      (MXNet/Pytorch/Tensorflow)
    • Fast and Scalable

2019-11-21-第一天AICon人工智能大会记录 - 图2

  • Deep Graph Applications
    2019-11-21-第一天AICon人工智能大会记录 - 图3

  • Message passing paradigm is very flexible

    • Graph convolutional network (GCN) [Kipf, 2018]
  • Existing DL frameworks do not support graph DNNs well

    • Writing GNNs is hard in TensorFlow/Pytorch/MXNet.

2019-11-21-第一天AICon人工智能大会记录 - 图4

  • Writing GNNs is intuitive in DGL

  • Deep Graph Applications (DGL Model Zoo)

    • 药物发现 、知识图谱、推荐系统

Baidu NLP 《大生产时代下的NLP技术创新与应用实践》忻舟
  • NLP技术产业应用的思考

    • 技术应用

      • 场景化·产业化
    • 技术易用

      • 系统化·服务化
    • 深度定制

      • 定制化·工具化
  • 核心技术:基于ERNIE和Multi-Task的观点语义计算
    2019-11-21-第一天AICon人工智能大会记录 - 图5

  • 发现一个问题,找出一类问题,重新加入训练集,再次迭代训练

  • NLP场景化应用技术方案

    • 在国美评论分析的应用
    • 智能创作平台
    • 打造人民日报智能编辑部方案
  • ERNIE2.0 及平台化训练

    • 预训练(Pre-training) && 参数微调(Fine-tuning)
    • ERNIE的应用范式

2019-11-21-第一天AICon人工智能大会记录 - 图6

  • ERNIE应用案例:搜索问答识别和问答匹配

  • 模型蒸馏

2019-11-21-第一天AICon人工智能大会记录 - 图7

  • ERNIE套件全景图

2019-11-21-第一天AICon人工智能大会记录 - 图8

华为诺亚方舟实验室《预训练语言模型》
  • 哪吒NEZHA -中文预训练模型 (论文还未放出和开源)

    • 绝对位置改进
    • 全词mask
    • +wwm
    • +span预测任务
  • 乐府 -诗歌生成

    • 方案:GPT
  • tinyBERT -模型压缩

小米NLP《NLP在小米的探索与实践》王斌
  • 小米NLP技术
    2019-11-21-第一天AICon人工智能大会记录 - 图9

  • NLP基础平台-分词

    • 语料自动标注

    • 先进深度学习技术

    • 灵活干预机制

    • 多端支持

      • Cloud、Local、Lite移动端三种分词版本
  • NLP基础平台-命名实体识别

    • 基于先进深度学习技术(word+char-IDCNN-CRF)
    • 支持9种NER类型识别

      • 人名、地名、机构名
      • 日期、邮箱、邮箱、网址
      • 音乐、影视
    • 灵活有效的人工干预机制
  • NLP基础平台-意图识别

    • 基于ML+DL技术,准确识别用户意图
    • 融合分布式特征抽取、联合任务模型、集成学习
  • NLP基础平台—文本分类

  • 模型+集成学习

  • 闲聊对话-检索式
    2019-11-21-第一天AICon人工智能大会记录 - 图10

  • 离线机器翻译

    • 高压缩比

      • 知识蒸馏,模型变小、质量不降
      • Int8量化
    • 口语化 让机器说人话
    • 领域适配 -需领域相关的数据进行低学习率学习

百分点科技《深度迁移学习在NLP中的应用及实践》苏海波
  • NLP中的深度迁移学习:预训练模型

    • Source Domain:海量语料+无监督学习
    • Target Domain:标注数据+有监督学习
  • Google TPU的实践

  • 智能问答中的实践
    2019-11-21-第一天AICon人工智能大会记录 - 图11

  • 如何找到语义等价的问句

    • 基于BERT和BIMPM的语义等价新模型
  • 数据增强

    • 介绍:数据增强可以简单理解为由少量数据生成大量数据的过程
    • 作用:增加训练的数据量,提高模型的泛化能力;增加噪声数据,提升模型的鲁棒性
    • 方法:

      • 添加无意义词后等价
      • 关键词换成同义词后等价
      • 关键词换成非同义词后不等价
      • 构造等价问法模板
      • 删除修饰限定后语义不等价
  • NL2SQL
    2019-11-21-第一天AICon人工智能大会记录 - 图12

    • 基于X-SQL 和依存句法树的NL2SQL新算法

2019-11-21-第一天AICon人工智能大会记录 - 图13