上周,电影制片人达伦·阿罗诺夫斯基 (Darren Aronofsky) 的人工智能工作室原始汤和《时代》杂志发布了第一个两个 剧集的在这一天……1776。这个长达一年的短片系列以简短的片段描述了 250 年前美国革命那一天所发生的事情,但它使用“各种人工智能工具”来制作包含乔治·华盛顿、托马斯·潘恩和本杰明·富兰克林等历史人物头像的逼真场景。
在宣布时代工作室总裁本·比通蒂 (Ben Bitonti) 表示,该项目“让我们得以一睹人工智能的深思熟虑、创意十足、艺术家主导的使用方式,不是取代工艺,而是扩展可能性,让故事讲述者能够到达他们以前无法到达的地方。”
《这一天》的预告片,1776 年。
外界批评家显然对这一努力不那么兴奋。视听俱乐部认为介绍性剧集中“重复的镜头移动[和]蜡像人物”造成了“美国历史的丑陋面貌”。CNET说这种“人工智能的废话正在毁掉美国历史”,并称这些视频是“机器驱动的人工智能废话和糟糕的人类选择的地狱般的汤”。卫报感叹这位曾经备受赞誉的导演黑天鹅和摔跤手他把自己淹死在人工智能的垃圾里,称这个系列“令人尴尬”、“可怕”、“丑陋如罪孽”。我可以继续说下去。
但这种最初的反应显然并没有阻止 Primordial Soup 不断发展的努力。一位与制作关系密切的消息人士要求匿名,坦率地谈论该剧的创作细节,他告诉 Ars,随着团队的人工智能工具全年不断完善以及团队学会如何更好地使用它们,新剧集的质量将会提高。
“我们在进入这个阶段时,完全假设我们有很多东西需要学习,这个过程将会不断发展,我们使用的工具将会不断发展,”消息人士说。——我们会犯错误。我们会学到很多东西……我们会做得更好,[而且]技术将会改变。我们将看到观众对某些事物的反应,什么有效,什么无效。这确实是一个巨大的实验。”
并非所有人工智能
值得注意的是在这一天……1776并不是完全由人工智能制作的。例如,剧本是由阿罗诺夫斯基的长期写作伙伴阿里·汉德尔和卢卡斯·萨斯曼监督的编剧团队编写的,好莱坞报道者指出。这使得《卫报》对第一集中“听起来像 ChatGPT 的口号”的批评既有些不合时宜,又显得刺耳得可笑。
我们的制作消息来源称,该项目始终被认为是人类编写的作品,其背后的团队长期以来一直在规划和研究如何讲述此类故事。“我认为 [他们] 甚至不需要那种帮助,或者想要那种 [人工智能驱动的写作] 帮助,”他们说。“我们都尝试过[人工智能驱动的]写作和聊天机器人,你知道你能从中获得什么样的品质。”
银幕演员协会配音演员,而不是人工智能传真。同时最近谈判的工会规则可能与此有关,我们的制作消息人士还表示,团队用于临时曲目的人工智能生成的声音明显是人造的,尚未准备好进行专业制作。
据我们的消息来源称,人类还直接负责该项目的音乐、编辑、混音、视觉效果和色彩校正。“人工智能驱动的工具”唯一发挥作用的地方是视频本身,该视频是用公告中所说的“传统电影制作工具和新兴人工智能功能的结合”制作的。
我们的消息人士称,在实践中,这意味着人类创建故事板,找到地点和角色的视觉参考,并设置他们想要的镜头外观。这些信息与脚本一起被输入人工智能视频生成器,该生成器一次创建一个单独的镜头,然后由人类在传统的后期制作中拼接和清理。
这一过程使人工智能生成的电影对话更进一步祖先,短片《原始汤》去年夏天与 Google DeepMind 联合发布(不涉及新项目)。在那里,人工智能工具被用来增强“用 Veo 生成的序列来增强真人场景。”
“几周”的提示和重新提示
理论上,与传统电影制作相比,人工智能模型在几分钟内生成场景可能会节省大量时间——寻找地点、雇用演员、设置摄像机和布景等。但我们的制作人员表示,生成和完善镜头的高度迭代过程在这一天……1776每个分钟长的视频仍然需要“几周”的时间,而且“我们常常会推迟最后期限”。
第一集的在这一天……1776以戏剧性的升旗为特色。
尽管人工智能模型本质上是为逼真的头像制作动画,但消息人士表示,这个过程“更像是真人电影制作”,因为缺乏对视频模型生成内容的细粒度控制。“你不知道在第一次拍摄、第 12 次拍摄或第 40 次拍摄时是否能得到你想要的东西,”消息人士说。
虽然有些镜头比其他镜头需要更少的时间来完成,但我们的消息人士表示,人工智能模型很少会在第一次尝试时就产生完美的、适合屏幕的镜头。虽然人工智能生成的镜头中的一些小问题可以在后期制作中通过视觉效果或仔细编辑来掩盖,但大多数时候,团队必须返回并告诉模型生成一个经过小改动的全新视频。
“这仍然需要大量的工作,并不一定是因为它本身就是错误的,而是试图获得正确的控制,因为你[可能]希望光线以正确的方式落在脸上以试图讲述故事,”消息人士说。“我们仍然,我们仍然在努力获得与(真人制作)一样的控制力,以真正最大化故事和情感。”
快速拍摄和较小的预算
尽管自那时以来视频模型已经取得了进步威尔·史密斯吃意大利面的噩梦片段、幻觉和无意义的图像“仍然是制作过程中的一个问题”在这一天……1776,根据我们的消息来源。这就是该公司决定使用一系列短片而不是一部讲述相同重要故事的长片的原因之一。
– 在三分钟内保持一致是一回事。消息人士称,要在两个小时内保持一致要困难得多,需要做更多的工作。“我不知道现在的上限是多少,[但是]时间越长,掉落的东西就越多。”
信用:链坠/Reddit对于这样的人工智能动画制作来说,保持单个镜头较短还可以实现更多控制并减少“重拍”次数。
“想想看,如果您尝试创建一个 20 秒的剪辑,就会发生所有这些事情,如果其中一件事在 20 秒内出现问题,您就必须重新开始,”我们的消息人士说。– 而且 20 秒内出现问题的可能性相当高。八秒内出现问题的几率要低得多。”
虽然我们的制作人员无法具体说明团队花费了多少资金来生成如此多的人工智能建模视频,但他们确实表示,这个过程仍然比在外景拍摄这样的历史纪录片要便宜得多。
“我的意思是,用这么多钱我们永远无法实现我们在这里所做的事情,我认为当你看到这个时就很清楚了,”他们说。消息人士承诺,在未来的剧集中,“你会看到哪些地方有摄像机无法做到的事情,甚至无法做到”,以此作为“充分利用这种媒介的一种方式”。
“让我们看看我们能做什么”
如果您曾经关注到多快东西已经搬家了有了人工智能生成的视频,您可能会认为人工智能模型很快就能制作出好莱坞品质的电影,只需简单的提示即可。但我们的消息人士称,正在努力在这一天……1776强调了人类仍然参与此类事情的循环是多么重要。
“就我个人而言,我认为我们永远不会实现[取代人类编辑],”他说。– 我们实际上迫切需要一名编辑。我们需要另一双眼睛,他们可以看着剪辑并说:“如果我们早点结束这个镜头,那么我们就可以创造一点紧迫感。”如果我们在这件事上再多逗留一点……你仍然真的需要它。”
信用:原始汤这对于人类编辑来说可能是个好消息。
但是在这一天……1776还暗示了一个屏幕上(甚至动作捕捉)人类演员的世界是完全被人工智能生成的头像所取代。然而,当我询问消息来源时,为什么制片人认为人工智能已经准备好接管电影方程式中人类特有的部分,他们的回答让我感到惊讶。
“老实说,我不知道我们是否知道这一点,”他们说。——我想我们知道这项技术是可以尝试的。我认为作为讲故事的人,我们真的很感兴趣使用……我们可以使用的所有不同工具来尝试让我们的故事被理解并尝试让观众感受到一些东西。”
“我们很少有像这样巨大的新工具,”该消息人士继续说道。——我的意思是,这在我的一生中从未发生过。但是当你[获得这些新工具]时,你想要开始使用它们……我们必须尝试一些东西才能知道它是否有效,是否无效。”
– 所以,你知道,我们现在有了工具。让我们看看我们能做什么。”
Kyle Orland 自 2012 年起担任 Ars Technica 的高级游戏编辑,主要撰写有关视频游戏背后的商业、技术和文化的文章。他拥有马里兰大学新闻学和计算机科学学位。他曾经写了一整本书扫雷舰。
