Google、人工智能、深度学习、注意力机制、检索、自然语言处理、多模态、LaMDA、MUM

LaMDA

针对语言复杂性问题,谷歌的解决方案叫“LaMDA”,一个用于对话应用的语言模型,它是开放的,它被设计为可以应用于涉及任何话题的对话,它现在仍在研究和开发中,但很快就可以供第三方测试。皮查伊举例是人和LaMDA谈论冥王星的对话,看起来已经非常接近两个人类的对话。皮查伊提到LaMDA已经学习到了包括冥王星在内的上百万个话题的内容。学习概念在其中起到了至关重要的作用,LaMDA在对话过程中会不断理解,让后面对话进行下去,而不是每次中断,需要再次学习现在在谈什么。LaMDA的回答不是预先输入的数据,所以LaMDA能够让对话不断进行下去,保持开放性,是一种生成性的对话,不具有重复性。

但目前LaMDA还有需要完备的地方,有时候LaMDA也会给出一些荒谬的回答,使得对话难以进行下去。所以Google要继续完善LaMDA的开发,确保LaMDA能够满足在公平性,准确性,安全性以及隐私性上极高的标准。

LaMDA目前训练方式还是文字,但皮查伊说它最终会整合到谷歌语音助手Google assistan等产品中去,与多模态学习模型相结合,将文字识别,语音识别,图像识别,视频识别融合在一起,使得人能够在搜索时自然的问问题,形成一个多模态模式。

Multitask Unified Model, MUM

MUM也是基于transformer架构,但功能要强大的多,性能是BERT模型的1000倍。MUM的突破性之处就在于它能同时处理多项任务,以新的方式来解锁信息。它不仅能够理解语言,还能生成语言,它能同时训练超过75种语言,它还是多模态的学习模型,能够同时采用图片文本声音等多种信息形式来进行传播知识。

因此,MUM可以跨语言,跨模态地传递信息,使得在搜索时反馈的答案能够更加丰富全面,同时也能使用户在提问时能够更加自然,自由。

谷歌的产品MUM仍处于探索初期,但它的潜力是巨大的。谷歌举例将它放在Google Lens来识图翻译,并反馈相关信息。以一名Siti的学生学习英语的经历为例,她可以通过Google Lens扫描英语题目,不仅能获得题目的翻译结果,还能得到相关知识帮助她理解公式。

参考

[1] https://v.qq.com/live/p/topic/114554/review.html

[2] https://www.easemob.com/news/6657