AI 突飞猛进,正在脱离实验室,进入日常生活。仅仅是现在的技术水平,就足以模糊现实与虚拟的界限,颠覆一般民众的认知。
谷歌的机器学习专家格里高利·萨普诺夫(Grigory Sapunov)写了一篇通俗的科普文章,介绍目前的技术成果。
一 图像处理
图像处理是一种常见任务,智能要求比较高,需要使用 PhotoShop 之类的软件人工编辑,一般的算法解决不了。
1.1 对象补全
2017年,日本科学家提出了一种图像的对象补全模型。经过训练,模型可以补全图片上缺失的部分。
Nvidia 公司将这个模型做成了产品,放在网上。你可以到它的网站,上传一张图片,然后涂掉一些部分,让网站替你补全。
有的图像软件已经应用这项技术,去除人像脸上的斑点。
1.2 背景处理
背景处理指的是,将前景物体从图片分离出来,再对背景进行加工。目前,已经有很好的智能算法可以去除图片背景。
这个模型也已经做成了线上服务,大家可以上传图片感受一下它的效果。
既然可以去除背景,那当然就可以更改背景,为图片合成打开方便之门。
## 1.3 样式转换
人工智能还能够识别图片的风格样式(即像素的变化规律),将其套用在另一张图片。

## 1.4 图像着色
一旦识别出图片中的物体,模型就可以统计不同物体的像素颜色规律,然后就能推断黑白照片可能的颜色,从而实现照片着色。
网上也有免费的着色服务,大家可以体验。
二 GAN方法
GAN 是”生成对抗网络”(Generative Adversarial Networks)的缩写,它是一种革命性的提升人工智能模型效果、生成虚拟图像的方法。
原理很简单,就是两个神经网络互相对抗。
一个神经网络负责生成虚拟图像,另一个神经网络负责鉴定假图像。
理论上,如果 GAN 训练成功,那么生成的假图像与真图像将无法区分。2014年,这种方法提出以后,快速发展,目前效果已经可以乱真。
上图是过去几年,GAN 生成的虚拟人像。可以发现,每过一年,图片越来越大,细节越来越丰富,越发接近真实人像。
它的工作方法也是如此,第一步生成一张低分辨率图片,然后慢慢放大,依次修改每一个像素,确定该像素怎样才能最大概率通过鉴定器。
GAN 不仅能生成虚拟图像,还能生成音频、文本,甚至是化合物分子。
AI 模型可能创造出来的任何东西,都能使用 GAN 提升效果。
GitHub 有一个仓库,专门收集不同用途的 GAN,目前已经有500多种模型。
StyleGAN
目前,生成虚拟人像效果最好的模型是 Nvidia 公司的 StyleGAN。
下面两张头像,你能分辨哪张是虚拟的,哪张是真实的吗?
这是网站截图,你可以去那个网站试试看,能猜对多少张。需要提醒的是,这是2018年底的模型产物,随着模型进化,迟早将无法分辨真假。
GAN 不仅能生成人像,实际上可以生成任何图像。下面是 BigGAN 模型生成的各种图像,图片里的东西都是不存在的。
图像翻译
一种图像通过 GAN 转变为另一种图像,称为图像翻译。
空拍照片变成地图、黑白照片变成彩色照片,都是图像翻译的例子。
pix2pix 是图像翻译的开源工具,它可以让黑夜变成白天,示意图变成实物图。
也可以让春天变成夏天,晴天变成雨天。
图像翻译的难点在于,它需要有成对的示例(源图像和相应的目标图像),告诉模型应该怎么翻译,这些示例可能很难创建。
但是反过来,只要有配对的示例,就可以翻译图像,不管这种翻译是否合理。下面是两只小猫翻译成对应的豹子、狮子和老虎。
CycleGAN 模型还支持跨域翻译,将照片翻译成油画,斑马翻译成马。
Nvidia 开发了一个 GauGAN 软件,可以在线试玩。
用户只需手绘一个示意图,软件就能生成一张对应的风景照片。
人像翻译
@脸部属性的改变
@表情移植
SC-FEGAN 是人像翻译的开源软件,可以让你编辑人像,比如加上刘海,去除墨镜等等。
文本到图像生成
GAN 最惊人的成果之一,大概就是根据文本生成图像。
用户提供一个句子,软件生成对应的图像。原始文本”一只红中透白、长着非常短的尖嘴的鸟”,可以得到下面的图像。
论文甚至提到,将来存在可能,根据剧本直接生成一部电影。
三 视频生成
图像处理逐渐成熟以后,人工智能业界的关注重点就转向了视频。
从一个视频生成另一个视频,这就叫视频翻译。目前比较成熟的两个方向是运动传递和面部交换。
3.1 运动传递
运动传递指的是,将一个人的动作(包括身体、眼睛或嘴唇的动作)翻译到另一个人身上,使得另一个人出现一模一样的动作。
2018的论文《Everybody Dance Now》,给出了一个模型,可以将舞者的动作移植到任何人身上。
NVIDIA 公司的开源软件 vid2vid 更为强大,可以生成高分辨率的、连贯的逼真视频。
3.2 脸部生成
脸部生成指的是,根据一张脸的表情和动作,重建另一张脸。最著名的例子是虚拟的奥巴马演讲。2017年,华盛顿大学的团队发表了一段奥巴马的演讲视频。奥巴马其实从未做过这个演讲,是将别人的表情和口型套在他脸上生成的,语音也是合成的。
这种伪造的视频被称为 Deepfake(深度伪造),具有很大的欺骗性,许多在线平台都禁止上传这一类视频。
2018年出现的《深度视频肖像》更进了一步,生成的视频不局限于虚拟的面部表情,还会头部旋转、眼睛凝视和眨眼,是 3D 的肖像重构。
这些技术还在继续发展,现在你可以给出任意文本,从任何你指定的对象嘴里说出来。甚至只凭一张照片,就可以生成一段表情变化的视频。
3.3 中国的实践
国内的人工智能视频生成,并不落后于国外。
换脸应用 ZAO 只需用户上传一张照片,就能把影视剧主人公的脸换掉,好像你本人在表演电影一样。
2018年,新华社与搜狗合作推出了虚拟新闻主播,具有真人的形象,带有声音、面部表情和动作,在电视上播报新闻,已经开通了英语、俄语、阿拉伯语的主持人。
3.4 视频渲染
除了视频生成,人工智能在视频渲染上也取得了很大进展。
Nvidia 公司2018年展示了实时光线追踪 RTX 技术。
这项技术用人工智能预测光线的变化,从而不用耗费大量计算去追踪光线,因此可以实时渲染出高画质的 3D 动画。这对于视频游戏有重大意义。
下面是使用这项技术的 Unreal Engine 4,实时渲染出的一个女子的3D 动画,可以一边计算生成,一边播放,完全没有延迟。
实时光线追踪技术还可以用于自动驾驶,在白天和黑夜的不同时间,不同的路面和环境下,预测出暴雨、风雪和强烈的眩光导致的光线变化,对驾驶做出调整。
四 文本和声音处理
4.1 语音合成
谷歌在2018年推出了智能助手 Google Duplex,它会根据你的日程,自动打电话去餐厅订座位。
谷歌 CEO 说,这个机器人的对话能力,使得对方完全没有发现这是机器人。
4.2 音乐合成
OpenAI 基金会推出的 MuseNet,通过学习数十万段 MIDI 音乐,能做到使用10种乐器,生成一段4分钟的音乐。它的官网有这些音乐的下载,相当动听。
4.3 自动评论
据报道,使用 Yelp 网站的数据进行训练的模型,可以自动生成餐厅评论。
- 我喜欢这个地方,一直来这里已经好多年。它是与朋友和家人相聚的好地点,我喜欢这里的食物和服务,从未有过糟糕的经历。
- 我吃了烤蔬菜汉堡配薯条!哦,很好吃!
- 我和我的家人都是这个地方的忠实粉丝。工作人员超级好,食物也很棒。鸡肉很好,大蒜酱也很完美。配水果的冰淇淋也很美味。强烈推荐!
上面这些都是机器生成的评论。
4.4 智能邮件
Gmail 会根据电子邮件的来信内容,自动生成三种不同的回复,让用户选择。如果只是简单回应,用户不用自己动手写。
Gmail 的另一个功能是,根据用户已经写的内容,预测接下来会写的句子,供用户选择。
@小结
毫无疑问,人工智能是很酷的技术,创造出了神奇的产品,有着难以想象的巨大应用前景。
但是,人工智能也是一把双刃剑,模糊了现实与虚拟之间的界限,把我们带上了一条不可预测的道路。
作为个人,了解这些技术的进展和潜力,有助于保持一份清醒,享受技术之福的同时,避免它带来的一些副作用。
