原标题:将黑熊变成熊猫,将苹果变成橘子,以假乱真的人工智能太可怕!

编者按:近日,《连线》杂志发布了一系列文章,对2018年科技行业各个领域发展的趋势进行预测。本文是其中一篇,介绍了人工智能技术在文本、图片、视频处理方面的应用以及发展趋势。作者为SANDRA UPSON,文章由36氪编译。

将黑熊变成熊猫,将苹果变成橘子,以假乱真的人工智能太可怕!-汇美优普

一场革命正在酝酿中,你可以从条纹中知道它的存在。

今年早些时候,加州大学伯克利分校的一组研究人员发布了两组视频。在其中一个视频里(左边),一匹马在栅栏后面小跑。在第另一个视频中(右边),这个马被匹配上了斑马那种黑白相间的条纹。

将黑熊变成熊猫,将苹果变成橘子,以假乱真的人工智能太可怕!-汇美优普

把一匹普通马变成斑马是一个很好的噱头,但事实并非如此简单。这标志着机器学习算法在改写现实的力量日益强大。例如,其他人也会使用相同的工具,将黑熊变成了熊猫、将苹果变成桔子、将猫变成狗等等。有一位Reddit用户使用不同的机器学习算法来编辑色情视频,将其中主角的面部替换成名人的面部,从而使得像名人真正出演视频一样。在一家名为Lyrebird的创业公司中,机器学习专家正在从一分钟的人声样本中合成令人服的音频。开发Adobe人工智能平台Sensei的工程师们正在将机器学习技术注入到各种具有突破性的视频、照片和音频编辑工具中。虽然这些项目在立项和意图上有很大的不同,但它们有一个共同之处:它们产生的人工场景和声音,与现实世界的真实画面非常接近。与之前用人工合成的媒体做的实验不同的是,这些图片、视频和声音看起来和听起来都是非常真实的。

这一转变背后的技术将很快推动我们进入新的创意领域,不仅能提升当代艺术家创作的能力,也能将业余爱好者提升到经验丰富的专业人士的水平。以至于我们将需要为创新寻找新的定义了。但这种繁荣也有黑暗的一面。一些人工生成的内容将被用于欺骗,从而引发人们对大量算法假新闻的恐惧。关于一幅图片是否被篡改的老辩论,将会让位于关于各种各样的内容,包括文本。如果你还没有意识到,你会发现自己在想:如果有的话,人类在创作那部电影/电视剧/标题党文章中扮演了什么角色?

一个充斥着人工生成内容的世界是乌托邦的经典案例,同时也是一个反乌托邦的例子。它很混乱,很漂亮,而且已经在这里了。

起初,深度学习生成的内容并不适应现实。谷歌2015年发布的Deep Dreams是利用深度学习来制造迷幻风景和多眼怪物的早期例子。2016年,一款名为Prisma的流行照片编辑应用使用深度学习技术为艺术照片滤镜提供动力,例如将照片变成Mondrian或Munch的风格,以向他们表达敬意。Prisma背后的技术被称为“风格转移”:采用一种图像的风格(如《尖叫》),并将其应用于另一种照片。

现在,驱动风格转移的算法正在变得越来越精确,这标志着“恐怖谷理论”的终结——这种由计算机生成现实,通常会让人类产生一种不安感。与之前的一些粗略的影响形成对比的是,由人工智能驱动的工具已经开始填补“谷底的盆地”。想想康奈尔大学卡Kavita Bala实验室的研究成果吧,深度学习可以将一张照片的风格融入到一个单调乏味的大都市的快照中,让人误以为这个合成的地方是真实存在的。受到人工智能潜能的启发,Bala在这个基础上创立了一个叫Grokstyle的公司。比如说,你很喜欢朋友家沙发上的枕头,或者一本杂志的封面吸引了你的眼球。给Grokstyle的算法提供一个图像,它会在任何外观上显示你喜欢的对象。

“我喜欢这些技术的地方在于它们代表着设计和风格的民主化。”Bala说。“我是一名技术专家——我欣赏美丽和时尚,但却无法创造出值得一看的东西。所以这项工作让我有了机会。让别人也能享受到这一点是一件乐事,这样人们就可以玩得很漂亮了。我们在这些方面没有天赋,并不意味着我们必须生活在一片沉闷的土地上。”

在Adobe,机器学习早在十年前就已经是该公司创意工具的一部分了,但直到最近,人工智能才开始具有变革意义。10月,该公司的人工智能技术公司Sensei的工程师们展示了一款未来的视频编辑工具——Adobe Cloak。该工具可以让用户无缝地从视频中移除一个灯柱——对于资深编辑来说,这是一项非常痛苦的任务。另一项名为“Project Puppetron”的实验,他们将一种艺术风格实时应用到视频中。例如,它可以拍摄一个人的动态视频,让他成为一个爱说话的铜像或手绘的卡通形象。“人们基本上可以在网络摄像头或任何摄像头前进行表演,并实时将其转化为动画,”资深科学家、Adobe研究主管Jon Brandt说。

将黑熊变成熊猫,将苹果变成橘子,以假乱真的人工智能太可怕!-汇美优普

机器学习使这些项目成为可能,因为它能够比以前的计算机视觉方法更好地理解人脸,或者照片前景和背景之间的差异。Sensei的工具让艺术家可以偏重于概念,而不是原始材料。“Photoshop擅长处理像素,但人们想要做的是操作像素所代表的内容,”Brandt解释说。

这是一件好事。Brandt说,当艺术家不再浪费时间在屏幕上争论单个点时,他们的效率就会提高,也许还会增加他们的创造力。“我对出现新艺术形式的可能性感到兴奋,我认为这将会到来。”

但不难看出,单单说这会带来创造性的爆炸可能是错误的。对于芝加哥大学研究生Yuanshun Yao来说,这会让假视频变得更加真实并且非常容易,让他在最近的一个项目中探索机器学习的一些危险。他在最近一个又人工智能生成的,非常真实的奥巴马发表演讲中剪辑了一段,他开始思考:他能在文字上做类似的事情吗?

一个文本组合需要近乎完美地欺骗大多数读者并不容易,所以他从一个人们容忍度较高的目标开始,在Yelp或亚马逊这样的平台上发布虚假的在线评论。一个评论可能只有寥寥几句话,读者也不会期待有什么高质量的写作。因此,他和他的同事们设计了一个神经网络,每次能够生成大约5句“Yelp-style”的评论。出来了一堆评论,比如“我们最喜欢的地方!”、“我和我哥哥一起去吃素食,那里很好吃。”他让人类去猜测它们是真的还是假的,果然,人类被愚弄了。

在微任务市场上,制造虚假评论的成本大约在10美元到50美元之间。Yuanshun Yao认为,一个有驱动力的工程师试图将这个过程自动化,从而压低价格,并生成一堆虚假评论,只是时间问题。(他还探索了使用神经网络来保护一个平台,以抵御虚假内容,并取得了一定的成功。)“据我们所知,目前还没有这样的系统,”Yao说。“但也许在5到10年内,我们会被人工合成的东西所包围。”他的下一个目标是什么?生成令人信服的新闻文章。

视频方面的进展可能会更快。Hany Farid是研究假照片和视频的专家,同时也是达特茅斯学院的教授。他担心病毒传播的速度会很快,但验证过程却异常缓慢。Farid设想,在不久的将来,一段令人信服的假视频,显示了特朗普下令彻底毁灭朝鲜在网上疯传,引发恐慌,就像在人工智能时代重塑世界大战一样。他说:“我尽量不做极端的预测,但我不认为这是牵强的。这是今天可能发生的事情。”

虚假的特朗普演讲已经在互联网上流传,这是语音合成初创公司Lyrebird的产品。不过,在该公司与公众分享的音频片段中,特朗普的手指按下按钮,限制自己去称赞Lyrebird。该公司的联合创始人兼首席执行官Jose Sotelo认为,这项技术是不可避免的,因此他和他的同事们可能也会成为这样做的人,他们一起制定了道德准则。他认为,目前最好的防御措施是提高人们对机器学习能力的认识。Sotelo说:“如果你在月球上看到我的照片,你会认为这可能是一些图像编辑软件。但如果你听到令人信服的声音说你最好的朋友说了你的坏话,你可能会感到愤怒。这是一项真正的新技术,也是一个极具挑战性的问题。”

可能没有任何东西能阻止即将到来的人工智能生成的内容。在最糟糕的情况下,骗子和政治活动人士将部署机器学习算法,以生成数不清的虚假信息。由于社交网络有选择地传播最吸引眼球的内容,这些系统输出的内容将演变为最受欢迎的,并被广泛分享出去。

但在最好的情况下,人工生成的内容可能会以多种方式治愈我们的社会结构。Lyrebird的Sotelo梦想着,他的公司的技术可以让那些因ALS(肌萎缩侧索硬化)或癌症疾病失去声音的人恢复演讲。那伯克利那个将马变成斑马的视频呢?一个附带作用就是能够改善我们培训自动驾驶汽车的工作。通常,汽车驱动软件首先在虚拟环境中接受培训,比如像侠盗猎车手这样的世界就与现实非常相似。斑马算法旨在缩小虚拟环境与现实世界之间的距离,最终让自动驾驶汽车变得更安全

人工智能是把双刃剑。随着它的改进,它将能够模仿人类的行为。最终,它会变得和人非常像:善与恶的能力不相上下。

(本文由36氪编译组授权发布,未经许可不得转载。编辑:郝鹏程)