AIGC的“魔法”与“咒语”|揭开AIGC的黑箱，提高艺术创作的基准

AIGC兴起

2022年是生成性人工智能模型（Generative AI Models）成果迭出的一年，也是人工智能生成内容（AI-Generated Content，AIGC）大放异彩之年。从三维模型到演讲语音，从照片修复到使用单一模型翻译200多种语言，由人工智能生成的内容已不再停留于技术报告和论文之中，也不是少数研究人员和技术爱好者的“玩具”，而走入了人们的工作、生活和娱乐。

仅在“人工智能艺术”方面，就有DALL·E2、Midjourney、NightCafe Creator、NovelAI等模型发布。它们的“作品”登上杂志封面、进入艺术画廊，成为媒体炒作与公关宣传的对象，收获了一批拥趸。由于即便是相似的架构，在不同的训练数据和具体训练方式之下，这些模型也显现出各异的适用范围，生成性人工智能模型开始展现出某种品牌意义。

以“城市”为关键词，AI生成一张有港口的画面，似乎在说“以港兴城”。

2022年8月，Stable Diffusion模型开源发布，互联网上很快开启了一场AIGC的“狂欢”。在开源社区的共同努力下，一个人可以不需要具备人工智能方面的技术知识，只需要了解如何安装使用现成的软件包，就能获得细节丰富的图像，还可根据已有的图像和文本要求进行修改。伴随这一系列变化，“人工智能艺术”真正走近了大众。

对于AIGC的热潮，鼓吹者将其称为数据与内容生产上的重大变革，预告“人类的某些创造性的工作可能会被生成性AI完全取代”，梦想出现所谓“零成本的自动化内容生产”。而批评者们则给予疑虑和担忧，将内容生产的“创造力”视为人类尊严的防线而加以捍卫。

也有一些人试图在两种观点之间寻求平衡。他们提出了人机协同、共同创作的主张。不过，这样的愿景如何实现，似乎很难说清辨明。其中主要困难或许在于：AIGC本身来源于一个缺乏解释的技术过程，一般大众和艺术批评者介入人工智能的运作方式，并没有人工智能“侵入”日常生活和艺术创作中的方式来得直接而多样。

AIGC的“魔法”与“咒语”

随着一批针对“二次元”形象生成的模型接连产生，AIGC在动漫爱好者中受到广泛欢迎和细致研究。他们形象地将文字提示称为“咒语”，而从文本描述中生成图像的过程，已俨然成为一种“赛博魔法”；修补程序bug、整合各类资源、编写相关教程的开发者，则被尊为“赛博佛祖”。

“咒语”与“魔法”之言，虽有几分戏谑，但人工智能绘画同“魔法”之间的相似却是显著的。对于如此大型的语言或图像模型，没有人确切知道它们为何能发挥作用，也没有人能够确切解释它们所呈现的一些重要特征，如上下文内容相关性、进行语义和逻辑推理的能力，究竟是如何从貌似无关的训练文本中涌现的。人们所知道的只是对提示文本进行某些修饰和处理，会更可能得到希望的结果。

大型的人工智能模型，即便对专业技术人员而言，也愈发呈现为一个难解的“黑箱”。有研究者指出，人工智能模型的不可解释性，带来了有关研究本身可复现性的疑虑：一些起关键作用的因素，可能仍掩藏在任意决定的数据排列和工程实现的技术技巧中。细节的技术性分析，通过在同源和有相关性的几种模型间展开比较，对人工智能模型的各种特性的来源，做出有根据的猜测，提示了一种对人工智能模型构建过程的“谱系学”研究。有理由相信，假以时日，人们就能重新打开人工智能模型的“黑箱”，将它们从“魔法”还原为“科学”。

但实践中，人们并不能等待有效的系统性解释产生，而是直接在与人工智能模型的交互中，通过试错归纳出临时有效的使用方法。由此，产生了一个新的领域，即“提示工程”（prompt engineering），致力于为人们提供便捷的工具，以定性了解提示文本和模型输出之间的关系，从而产生出更有效利用模型的定式——即便模型版本的迭代经常会颠覆这些定式的有效性。

2022年11月，OpenAI发布了名为ChatGPT的人工智能聊天机器人，把这一年的AIGC热度推向又一个热潮。作为一个从文本到文本的生成模型，已有人将它与其他种类的生成性模型相结合，通过上下文内（in-context）的训练，以更直接、自然的语言指令获得高质量的生成图像。可以说，“提示工程”本身又得到人工智能加持，从而更接近自然语言的“对话”。

在语言模型加持下，“提示工程”的发展，可以说，从另一个方面完成了对“魔法”的“祛魅”。当“咒语”不再依赖于小圈子里流传的经验总结，而是隐含在人机“对话”的中间过程里，使用那些生成性人工智能模型，就不再是一项专门的技术工作：需要专门学习的程序语言让位于自然语言，程序的调试为任务描述的修订所替代，起作用的也不再是技术性的理解——让Stable Diffusion产生预想的画面，不需要计算机图形学上的知识或编写代码，也不直接要求将图像的风格、内容等分解、转换为某种可计算的形式，尽管它们可能以某种方式隐含在模型的巨量参数之中，并作为一种结构性的因素发挥作用。

这样，人们同人工智能模型打交道的方式，实际上摆脱了以往研究者归纳出的计算机的媒介特殊性，转而以一种更一般的、更接近人与人之间的交互方式。生成性人工智能模型提供给人们的，是一种操作计算机的新方式——在此过程中，面对具体而个别的模型的认识占据了主导地位，取代了具有技术通用性的对程序代码或运行机制的认识。

2022年11月，上海外滩。澎湃新闻记者周平浪图

从内容的“创作”到艺术的表达

愈加成熟的生成性人工智能模型，让此前诸多对计算机技术的文化批评面临失效的危险。“代码”“可计算性”“数学原理”这些与计算机科学息息相关的要素，曾一度构成对计算机相关艺术实践和计算机技术自身具有的文化效应展开讨论的基点。代码和数学原理固然是人工智能模型得以运行的关键，却不再是人们指示计算机完成具体任务时直接面对的对象。就连那些原本被认为是“不可计算”的问题，也可通过复杂模型的“模拟”而在最终应用上显得仿佛已得到解决。相当程度上，它们在今天人工智能模型的具体应用中，已不再像以往那样能够切中要害。

AIGC凭借外观上的相似，一再实现人们此前认定为“不可能”的任务。一个伴随计算机技术发展反复出现的问题，再度置于公众舆论的焦点：人工智能会取代人吗？更具体来说，人工智能是否将会取代人类创作艺术？

两个世纪以前，摄影术的出现也曾让绘画艺术面临类似危机。但结果上，正是对这一危机的意识，促使后者更快地从对外观相似的追求中解放出来。时至今日，各式绘画流派与摄影并行不悖、相得益彰，摄影成为一门艺术，而绘画也保持着它的生命力。

与此相比，有关AIGC的争议虽然给出了不同立场，但它们大多基于一个共同预设，也就是将人与人工智能理解为创作某种“替代”关系。其背后更深层的原因则在于，将内容的生产与创作封闭在既有的方式范围之内，将艺术仅理解为某种“形态学上的相似”。

艺术是不断动态变化的。新的技术手段、新的技巧、新的行事方式，都可能成为艺术的组成部分。提示的编撰、结果的遴选相互迭代，则构成了一组新的技巧——通过文本、图像与AI模型交互的技巧。它虽然在文化上，尚无法具有可以与既有艺术创作相比拟的地位，但就其中所要求的那种对人工智能的理解、对人工智能模型直觉性的认识和体悟而言，也构成了一个同时独立于人工智能的技术研发和已有艺术实践的新领域。从这个角度说，AIGC与其说将会简化乃至取代“内容创作”，不如说是为人们的表达额外提供了一种方式。

另一方面，正如艺术家柯苏斯（Joseph Kosuth）所言：“使用这样那样的形式，给予这样那样的视觉体验”，只是一种“最低限度的创造性措施”；“虽然大量外观相似的物体或图像可能因为视觉/体验’解读’上的相似性而显得相关（或相连），人们不能因此而声称有艺术或概念上的关系。”人工智能固然可以产生出貌似绘画的图像、类同器乐演奏的声音、形如诗人所作的诗篇，但所有这些产物，并不等于绘画、音乐或文学。它们同绘画、音乐、文学如果一定说存在某种联系，那么，这种联系就在于，通过提升生成物的质量，来冲击假借那些艺术门类而进行的程式化的内容生产；将创作的门槛基准提高到艺术的水准，而非单纯的心理满足上；从而，让真正有价值的部分从洋洋大观的纷杂“作品”中显现出来。

可以说，人类的创作如何应对AIGC的“挑战”，或如何与之实现共存，这一类的问题不只需要人与机器协作完成某些作品，更不是简单将人工智能技术与艺术通过一些话语绑定在一起。它们各自保持着一定的独立性：在一个方面，将人工智能技术转化、征用为一种新的艺术表达方式；在另一个方面，促使既有的艺术门类实现自我更新。这两种不同方向的努力，将人们的想象力引向艺术探索的前沿，殊途同归于对人类艺术版图的拓展和丰富。

（朱恬骅，上海社会科学院文学研究所助理研究员）

【文章来源】

发布者：Web3创投，转载请注明出处：https://nft.aiju.com/news/53834.html，如涉及作品内容、版权及其它问题，请联系本站！

『声明：根据央行等部门发布的《关于进一步防范和处置虚拟货币交易炒作风险的通知》，本文内容仅用于信息分享，不对任何经营与投资行为进行推广与背书，请读者严格遵守所在地区法律法规，不参与任何非法金融行为』