“所思即所见,所见即所想”,将心中所想直接转化为眼前可见的内容是人类孜孜以求的梦想。作为AI微短剧《中国神话》创作者,我们融合文生文、文生图、文生音乐和文生视频等人工智能技术,实现了从创意构思到视听呈现的人工智能全流程再造,探索人类与机器智能合作的新模式。
智能化策划,让人工智能成为创意策划的“智囊团”。故事策划是视听内容创作的首要环节,传统编剧的灵感往往受限于个人阅历和知识结构,而大语言模型因为学习了万亿数量级的文字内容,相比于个体创作者,对古今中外的“人情世故”更为了解,有推理能力的人工智能还会组合创新,因而成为故事脚本撰写的好帮手。利用人工智能工具,可以高效完成剧本方案、人物设定、作品世界观架构等工作。以《中国神话》的创作为例,创作团队利用智能应用对中国古代神话资料进行智能检索、关联分析,快速梳理出角色谱系、情节脉络等关键信息,在此基础上生成数十个走向的故事候选方案,分集故事框架的搭建过程仅需20分钟,前期策划的人力投入减少70%左右。事实上,在清华大学团队近期创作的200余条AI视频中,人工智能辅助生成的选题方案已涵盖文史、科技、美食、旅行、教育等多个垂直领域,人工智能帮助策划者快速获取灵感、系统化拓展思路,为视听内容策划与制作的“想什么”赋能。
自动化生产,用人工智能丰富“怎么拍”的路径。在影视画面制作阶段,人工智能技术的引入带来流程再造。我们采用文生图、文生视频技术,通过输入文字指令让人工智能自动生成相应风格的图片素材与视频素材,极大简化了视觉创意从构思到呈现的流程。这其中的关键技术在于将自然语言文本与视觉内容建立精准映射,利用大规模多模态预训练模型,实现图片和视频内容的智能生成。这一技术打破了传统动画影视制作中分镜绘制、三维建模、动作捕捉等环节对专业技术的高度依赖,把传统视听创作对“心—目—手”的高要求转换为“心—目—言”的新要求,实现了从文字脚本到视觉画面的直接转化,使影视创意的呈现更加高效灵活。这是视听内容创作的一次重大范式转变。由于语料丰富,人工智能可以快捷制作出包括写实、抽象等在内的近130种不同艺术风格的影像内容,拓展了视觉创意的可能性,为视听内容创作提供更多灵感。
智能配音和剪辑,以人工智能替代大量基础性工作。音乐是视听作品的情感载体,对渲染气氛、引发共鸣起着关键作用。我们调用人工智能工具,对短剧的故事情节、画面节奏、情绪基调进行分析并提取关键信息点;再将文本信息输入音乐模型,使其实时输出与影片风格、情感氛围相匹配的音乐素材;最后再通过人工优选与整合润色,配制出风格一致、节奏流畅的影片配乐。文生音乐的创作模式实现了人工作曲到智能生成的转变,大幅提升了创作效率,降低了生产成本。
配音是视听作品的重要组成,对角色塑造、情感表达都起到不容忽视的作用。人工智能语音合成技术可自动匹配对白语气,再现角色的音色特点与情感状态。基于深度学习的人工智能配音系统还可捕捉真人配音的韵律特点与情感变化,生成更加接近真人的配音效果。目前,我们利用人工智能技术,可实现配音流程的全自动化。
后期制作向来是影视制作中耗时耗力的环节,我们在视频剪辑时采用智能镜头分类、自动拆条、片段标引、智能字幕、一键调色等方法,可让人工智能“剪刀手”代劳80%的粗剪工作。6分钟时长的影片粗剪仅需20分钟,是传统手工剪辑速度的5倍。整个视频全部交付的综合人力时间成本是传统制作流程的1/16左右。在人工智能代劳大量基础性工作后,人类创作者能够将更多精力投入对作品的宏观调度与艺术把控上,并对内容进行选择和优化。
整体而言,人工智能技术将成为提升视听内容生产力的重要工具,人工智能与人类智慧的交织融合正在重塑视听艺术的边界。未来,合成视频、对话和交互式视频、无编辑视频、跨风格视频等新类型内容,将极大丰富视听产品的品类和形态,提升内容的个性化水平,提高内容制作的实时性。同时,新的创作生产方式也对创作者的角色定位和知识结构提出了新的要求,审美和想象力将变得更加重要。当然,人工智能也会犯错,输出无中生有的内容,带来穿帮镜头等问题,随着技术的发展,这些问题将逐步得到解决。
当人工智能技术进一步成熟之后,视听内容创作效率将提升百倍千倍。人类提供一个初始想法,人工智能就能创作出一部中短篇小说,根据这部小说又能创作出一部影片,整个过程也许只需要数分钟即可完成,这种前所未有的视听创作的梦幻场景,有很大概率在不久的将来实现。届时,只要输入创作诉求甚至输出脑电波,人们就可进行多模态优质内容创作,在人工智能协助下实现艺术表达。《中国神话》等作品只是一个起点,人工智能赋能文艺创作的更多可能性,正等待着我们去探索和实现。