计算机生成的文字将永远无法替代人类的作品

许多人会通过 Gmail 的两个功能熟悉自动写作。智能回复 (Smart Reply) 为常规电子邮件提供简短回复。如果有人问「下午 3 点见面可以吗?」,那么 Gmail 就会提供「可以!」这样的一键式答复。更令人惊异的是,智能撰写 (Smart Compose) 会在你写邮件时启动,建议句子如何收尾。这两个功能生成的文字不仅语言规范,而且似乎常常能神奇地猜到你想说什么。如果有人发来坏消息,智能回复提供的答复可能是「呃……」。

《纽约客》的约翰·西布鲁克 (John Seabrook) 近日描述了这项技术的一个更强大版本,这个名叫 GPT-2 的系统可以巧妙地模仿《纽约客》的风格。这样的系统是基于有数十亿个人工「神经元」和虚拟「突触」(神经元之间连接的部分) 的数字网络,这个网络能通过不断「学习」而变得更强大 (GPT-2 的学习对象是 40 个 G 的网络文章)。西布鲁克试用的是学习了《纽约客》过刊的改进版。

人们很喜欢把这类系统比作大脑,但「神经元」和「突触」这两个词必须得加上引号。该系统只是在对《纽约客》的语言做统计分析后,猜测一个词后面跟哪些词会写出更符合它风格的句子 (不可否认,猜得水平很高)。在较简单的层级,假设一篇邮件以「祝你……」开头,看过数百万封其他电子邮件之后,Gmail 可以合理地猜测接下来的内容将是「生日快乐」。GPT-2 做预测时的道理也一样。

但计算机缺乏的是创造力。它的训练基于过去的创作,所以只能做到模仿。此外,计算机无法独立构思主题或意图,更不用说进而讲逻辑、有风格地谋篇成文。在西布鲁克撰写的一篇文章的网络版中,读者能在某些段落的末尾看到如果 GPT-2 代他写下去会是什么模样。那些语句感觉上像是人类的手笔,但仔细读就会发现内容空洞,甚至不连贯。

莫名其妙的文章并非人工智能的专利。世界上已经有大量的文字看似言之有物,但至少对大多数读者来说,终究还是空洞无物。1996 年,艾伦·索卡尔 (Alan Sokal) 向一家人文期刊投递了一篇瞎编的文章,内容都是胡说八道,但行文熟练地模仿了流行的后现代主义学术语体。文章被录用了,此事广为人知。2017 年,三位学者故技重施,他们投出的 20 篇胡编的论文中有四篇被发表。不管有意还是无意,人类自己就已经在生成没有意义的文字了。

但真正的写作首先得有话要说。电脑没有表达的欲望,它们只是等待指令,根据输入提供输出。这样的系统可以根据给定的一个主题或开头几段去开始「写作」。虽然写出来的东西可能语法正确,但不能与有意图的写作混为一谈。

要撰写有意义的文章,GPT-2 之类的系统首先必须与现实世界的知识数据库集成。目前能做到的集成程度非常有限。向苹果的 Siri 或亚马逊的 Alexa 问一个单一的事实问题,例如电影《壮志凌云》是哪一年上映的?它们可以给出答案。但如果让它们收集事实以证明一个观点,哪怕是一个简单直接的问题,比如「枪支管制减少了枪支犯罪吗?」,它们就会不知所措。

接下来,在整合知识上取得的进步须致力于实现另一项突破:训练自动写作系统不只写句子,还要谋篇布局。西布鲁克发现,他从 GPT-2 得到的文字篇幅越长,就越能明显看出它前言不搭后语。每个句子单独看都没问题;颇厉害的是,连续三到四个句子也能紧扣主题,貌似还算连贯。但要让机器从段落到段落重建出修辞和论证过程,还有太长的路要走。不仅今天的记者不用担心自己的职业生涯中会面对「作家终结者」(Writernator) 的竞争,如今的父母也还可以告诉他们的孩子,写作还是要学的。

除了令三流作家失业外,人们对这些系统有一个共同的担忧,就是它们会在社交媒体和网上评论区制造出大量半通不通的躁狂文字,蓄意分裂社会、煽动情绪。实际上,现在此类网站的情况可能差不多已经如此了,这也许也算不上太大的灾难。机器生成的愤怒胡话可能会迫使未来的读者区分貌似通顺的文字和名副其实的文章。若真如此,就像「终结者」那样,「作家终结者」甚至可以为世界做出一点贡献。

Leave a Reply

Your email address will not be published. Required fields are marked *