名家专栏

全媒派：AI续写小说悄然流行：人类特有的创作力，已经被AI复制？

2021-05-10名家专栏245

林黛玉葬花之时曹雪芹乱入，并与宝玉、袭人发生一场持续千年的世纪大战；鸿门宴再现，项羽喊着“伟大与光辉”与樊哙打作一团、而后项庄趁乱刺死刘邦；孔融让梨引发一场长达十多年的报复和最终精心谋划的血案；《桃花源记》中善良淳朴的村民竟会为了保守桃花源的秘密而设计害死渔民……

这些熟悉而又陌生的内容，并不是网友们对经典文学作品的恶搞，而是来自于AI的故事续写。

今年以来，由AI续写故事作为文本的视频在B站悄然流行开来，一些UP主利用市面上的AI创作应用续写人们熟知的文学作品，再将新的作品以人声演绎，配上BGM后制成视频。

经过AI的一顿操作，名著成了爆款爽文，前有诸葛亮开战斗机，后有庄子研究“三体”，各种平行世界信手拈来，AI一本正经胡说八道的本事，比过去的地摊文学还强。

其实，对于相关工具的使用者而言，用AI进行创作并没有技术门槛：只需输入文学作品的某些片段，AI创作机器就会根据给定文字的内容与风格对故事进行续写，这些经过AI二次创作的故事，往往情节曲折离奇，与原作的走向大相径庭，这种内容因为反常规和新鲜感而受到一些网民的追捧。

不过话说回来，艺术创作这种高度创意化、个性化的工作，原本被视为“人类的最后一片净土”，是理论上最不可能被人工智能取代的工作之一，可如今人工智能技术的发展却为艺术创作开辟了一条新的捷径。本期全媒派（ID: quanmeipai）带来一篇文章，探析AI创作正在对内容创作领域产生怎样的影响。

AI写作是怎么回事？

AI创作也就是机器人写作，这是一种拟人化的说法，实质上是指通过一定的计算机程序，对输入的信息进行自动化的分析、处理和加工，从而生成一篇较为完整的文章。总的来说，今天流行的AI续写，其实已经算是比较成熟的能力。

随着人工智能技术的快速发展，自然语言生成（natural language generation, NLG）技术在世界范围内得到广泛的应用。《纽约时报》和美联社等新闻机构都曾采用NLG技术来撰写新闻报道；仅在2014年，技术公司Automated Insights就实现了以每秒超过2000篇的速度生成新闻报道，全年发布新闻共计10亿多篇。[1]

图片来源：视觉中国

AI写作背后的原理非常复杂，其核心是自然语言处理（natural language processing, NLP）技术，同时涉及到数据挖掘、机器学习、知识图谱等多项人工智能技术。自然语言处理是指让机器拥有理解并解释人类语言的能力，目标是让机器在理解语言上像人类一样智能，最终弥补人类交流（自然语言）和计算机理解（机器语言）之间的差距。[2]

自然语言处理（NLP）涉及两个流程，分别是自然语言理解（natural language understanding，NLU）和自然语言生成（NLG）。市面上的写稿机器人大都是NLG系统，目前主要有模板式、抽取式和生成式这三种技术方向。[3]

模板式写稿机器人主要通过优化算法，在预先存储的大量写作模板中，选择与给定材料相匹配的模板，将信息加以组合生成文本，是目前应用最成熟、实现最容易的一种机器写作方法。

抽取式机器人会对文本进行语义分析，识别冗余信息，抽取重要内容，通过摘录或概括的方法压缩文本，形成对于既定文字的摘要，再加以计算确保文摘的连续性，这种技术广泛应用于新闻内容概括和文摘生成。

生成式NLG主要通过深度学习和增强学习技术实现，机器通过大量的文学作品样本进行训练，学习各类写作风格、建立写作模型，再根据输入的文字片段获知任务需求，预测并生成与需求相匹配的文稿，进行输出。

从现阶段来看，模板式和抽取式写稿机器人的技术已经趋于成熟，在市场上得到了广泛的应用；生成式NLG技术更加智能，也是当前NLG技术中更为高级的目标，OpenAI等研究机构在这方面做出了尝试，并在市场上得到了应用。

我们身边的AI写稿工具人

AI写作在当今社会早已不是什么新鲜事，早在2011年，《洛杉矶时报》就开始研发面向地震领域的自动化新闻生成机器人Quakebot。2013年3月，Quakebot因率先报道南加州发生的4.4级地震引发关注：2014年3月，美国洛杉矶发生4.4级地震，Quakebot用时3分钟就完成了相关报道的写作和发布。

同年7月，美联社引进Automated Insights公司开发的新闻写作机器人，开始使用自动生成新闻技术。此后，《纽约时报》《华盛顿邮报》《卫报》和路透社等媒体都走上了自动化新闻发展的道路。[4]

Quakebot近期发布的新闻。图片来源：《洛杉矶时报》

国内在自动化新闻领域也有许多尝试：2016年5月，四川绵阳发生4.3级地震，中国地震台网研发的地震信息播报机器人用6秒写下560字的速报，报道内容翔实；2017年8月，该机器人在第一时间报道了四川阿坝州九寨沟县的7.0级地震，引发广泛的讨论和关注。这条新闻消息约540字，新闻涵盖了速报参数、震中地形、热力人口、周边村镇、周边县区、历史地震、震中简介、震中天气8个方面的内容，并配有5张配图，用时仅25秒。在此后的余震报道中，新闻机器人最快出稿速度仅有5秒。[5]

地震信息播报机器人对九寨沟地震的报道

除了新闻报道以外，AI写作也在其他文字创作场景得到了广泛的应用。目前，无需人工干预的机器人写作可以生成诗歌、广告、各类行业分析报告、歌词、小说、甚至剧本。

以诗歌为例，微软研发的机器人小冰于2017年出版了诗集《阳光失了玻璃窗》，这是历史上第一部人工智能诗集，其中包含139首现代诗。[6]

诸如“快把光明的灯擎起来了/那里有美丽的天/问着村里的水流的声音/我的爱人在哪/因为我的红灯是这样的幻变/像是美丽的秘密/她是一个小孩子的歌唱/那时间的距离”的华丽辞藻还颇具美感，只是在逻辑性上有所欠缺。除了现代诗，律诗、藏头诗、词等各种风格的诗歌创作软件已然在市场上层出不穷。

图片来源：视觉中国

相比于新闻，故事、小说等连续语义的创作会更加困难，而这些也早已不是难题。早在2016年的伦敦科幻电影节上，纽约大学研究人员开发的机器人Benjamin创作了一部长达9分钟的科幻电影Sunspring，赢得了大批关注；MIT媒体实验室开发的机器人Shelly专职撰写恐怖故事，并在Twitter更新；Botnik研究室采用预测的算法创作了《哈利波特》的续集。

除了写稿，AI创作还有其他形式

当AI创作技术应用于写稿，可以诞生机器版的记者、小说家、诗人、编剧等，而当它应用于绘画、音乐和舞蹈领域时，则可以“培养”出画家、作曲家和编舞人员。

AI绘画创作大放异彩

利用机器绘画早已写入了人类的梦想清单：早在18世纪70年代，瑞士已经有人利用机械臂绘画；2016年，谷歌研发的绘画AI在旧金山拍卖会上大放异彩，其作品一度拍出单幅8000美元的高价；2019年，微软小冰独立完成的原创绘画作品在中央美术学院美术馆展出，并于2020年推出个人绘画作品集。[7]

AI音乐创作谱写别样乐章

AI在音乐创作中的应用比比皆是：2016年，索尼公司计算机科学实验室CSL的DeepBach项目仿照巴赫的风格创作的合唱曲目，被专业音乐家误认为是巴赫的作品。

除了谱曲，AI 还可以创作可以唱出声音的歌曲，CSL实验室的机器人Flow Machine模仿披头士的风格，自主创作了歌曲Daddy’s car。法国计算机科学家Pierre Barreau创造的作曲AI应用Aiva可以根据需求创作不同风格的音乐，甚至可以根据图画作曲，Aiva也于2017年成为“法国及卢森堡作曲家协会”（SACEM）的首个非人类会员。

AI舞蹈创作演绎非凡舞曲

有不少团队开发了舞蹈创作类的AI：谷歌研究院建立了名为AIST++的3D舞蹈动作数据集，据此训练的AI能够根据给定的音乐和一段2秒左右的种子动作生成长序列的逼真的3D动作。目前已有的舞蹈创作AI基本都能根据目标音乐生成与之匹配的舞蹈动作，并通过3D建模的方式将舞蹈进行表演。经过模型构建方法的迭代升级，AI生成的3D舞蹈在动作质量、动作多样性和动作与音乐的相关性方面均有着还不错的表现。

AIST++舞蹈数据集的示例。图片来源：https://arxiv.org/pdf/2101.08779.pdf

OpenAI公司最新推出的GPT-3模型，则开放了API服务，申请者可以调用GPT-3的API，将其进一步开发为论文翻译工具，网页生成工具，前端设计器，聊天机器人甚至游戏开发工具。在GPT-3的身上，我们看到AI从某一个领域的创作者成为各方面兼修全才的可能性。[8]

AI作为内容生产者还有哪些缺陷？

AI创作固然强大，但要想做到大规模的普及和落地，尚有一些问题横亘于我们面前。

首先就是AI的价值判断问题。机器学习只是提取训练集数据的风格特征，并对这种加以模仿，机器看似具有“学习”功能，实质上仍落入了按图索骥的窠臼。

AI本身对文本创作并没有价值判断，所以在AI生成的故事当中，我们可以读到讽齐王纳谏的邹忌为了保住权势富贵而出卖小妾，读到为孩子买橘子的父亲在月台摔倒暴毙……这些离奇的情节不仅与逻辑不符，对正常的价值导向也难以判定。如果训练内容存在问题，或者某些用户输入时刻意引导，AI生成的内容在伦理道德方面的处境更会雪上加霜。

其次是AI创作的版权问题。在当前技术框架下，AI的训练效果在很大程度上取决于语料库，没有足够量的语料库，AI便无法进行学习，更无法进行创作。

那么AI产出的作品该归语料的作者还是归AI的创作者所有呢？如果归语料作者所有，那么又如何为庞大的网络语料资源划定作者呢？如果归创作者所有，又能否将使用了相同技术线路和算法的创作者视为抄袭？这些问题仍然需要法理和伦理上的探讨。