“AI提供速度，人承担判断” | 独家解读《AI影像融合创制行业观察报告》-千龙网·中国首都网

来源标题： “AI提供速度，人承担判断” | 独家解读《AI影像融合创制行业观察报告》

2026年6月，第28届上海国际电影节首次设立“AI片场”单元。在上海影城西侧4楼，一个不到800平方米的空间被红蓝色霓虹灯管勾勒成赛博朋克风格的“微型AI创制生态场”。

四支创作团队在此驻扎，依托MiniMax一体化AI工作流，完成从构思到成片的完整创作。往来参观的行业嘉宾实时围观创作者与AI协同工作的全过程——不是看成品，是看过程。

单元由上海国际电影节与MiniMax联合发起，首创“影视创作者+AI超级创作者”的1+1融合创制机制。中国传媒大学戏剧影视学院受邀担任学术观察团，对本次活动进行全程观察、记录与研究。

6月19日，《AI影像融合创制行业观察报告》正式发布，同步开源了全部工程文件与过程资料。

单元发起人、导演黄建新说：“看作品，也看作品如何被创作出来；看结果，也看过程中人的判断、协作和选择。对过程的探讨，其意义远大于作品本身。”

这份报告没有给出标准答案，而是把真实的“压力测试”过程摊开给人看。十个观察维度，指向同一个核心判断。

一、编剧和导演不会被取代，创作责任反而更重了

报告触及的第一个核心焦虑是：编剧和导演会被AI取代吗？

结论恰恰相反。

AI确实能查资料、列大纲、写人物小传、提供桥段方案，甚至根据提示词生成画面、模拟镜头和光线。但这些能力不是替代了编剧和导演，而是改变了他们工作的展开方式。

“能工智人”组的剧本共创过程揭示了AI时代编剧工作的本质变化。两位创作者围绕母亲角色的行为动机进行了多轮协商——一人倾向保留更尖锐的原始设定，另一人担心观众无法建立情感认同。最终，他们既保留了悲剧厚度，又避免了强行改写生死因果的伦理争议。

余曦指出：“过去做一个案子可能要看三个月资料，现在借助AI，不到一个月就能完成初步资料整理。AI给出的创意往往是已有材料的平均值，它能快速提供很多选项，却很难天然产生真正独特的方案。编剧仍然要核查资料来源，判断信源是否可靠。”

报告提出了一个关键概念——“AI导演”。它不是对传统导演的替代，而是AIGC流程复杂化后出现的新协作岗位，类似于摄影指导，在某一专业系统内部承担统筹功能。

创作者李哲言说：“如果AIGC创作者只是掌握工具和技巧，很快会被模型迭代替代。真正有价值的是，创作者能否理解作品意图，能否判断生成结果是否服务于人物、叙事和风格。”

AI能够参与创作过程，却不能替代创作责任。它让创作者更快抵达现场，但最终通向哪里，取决于人的创作判断。

二、AI让生成变快了，专业人士却更重要了

AIGC让小团队获得了前所未有的生产能力，但也容易让创作陷入“内部循环”——团队始终围绕模型反馈不断修改，却忘记了作品最终还要面对观众、平台和交付周期。

报告的核心观察是：AI让生成速度变快之后，来自专业人士指导的重要性反而更加凸显。

问题在于，AI可以快速给出一个“像电影”的结果，但画面好看不等于画面正确。历史题材中一个道具不准确会破坏年代感，神话题材造型偏向迪士尼会削弱本土审美，现实题材空间过度精致会让人物失真。

以“三头怪”组为例，监制老师在讨论中多次把视觉缺陷直接挂到叙事理解上：水下场景三个角色面部特征过于雷同，观众分不清谁是谁。在AIGC里，一个生成失准的镜头，可能直接让观众读出创作者根本没打算表达的东西。

专业指导的作用，正是把行业经验重新带回创作：题材边界与风险判断、交付节奏的控制、AI适用场景的判断、观众认知尺度——这些都不是模型能自动解决的。

报告特别强调：AIGC并没有让专业人士变得不重要，反而让他们以新的方式显现出关键价值。

三、AI时代的影视人才，需要“有根的复合判断者”

AIGC进入影视制作后，人才培养的问题被重新推到前台。

报告的回答是：AI时代需要培养能够跨越专业边界进行审美辨析、流程理解和创作协作的复合型人才。

“三头怪”组合在访谈中明确指出：“导演本来就是一个非常综合的角色，一部分是创作内的综合，一部分是创作外的资源聚集。导演之所以能成为导演，不只因为掌握某项技术，还因为能把不同创作力量聚合到同一部作品之中。”

余曦和李哲言的合作同样说明了这一点：双方都具备传统影视经验和AI制作能力，只是重心不同——一个更强的是编剧与调研判断，另一个更强的是将这些判断转化为可生成、可迭代的图像资产。正因为不是互相隔绝的两个工种，他们在合作中很快就能进入具体问题。

报告指出，AI时代影视教育的任务，不是培养无根的全能者，而是培养有根的复合判断者。不是取消专业，而是让专业能够进入新的生成流程。

四、“生图”不等于简单输入，传统经验被前置而非替代

AI生图远不是“输入提示词等输出”这么简单。传统影视能力没有消失，只是在流程中出现的位置、组合方式和工作重心发生了变化。

“三头怪”组明确说：“我们现在做的工作与其说是生图，不如说是在准备资产。”资产，指的是在生成视频时用来统一风格、保持人物和场景连续性、可反复调用的一整套视觉基础材料。

传统影视中分散在美术、道具、摄影、灯光、调色等多个部门的工作，现在被集中到了一个可以反复生成、修改、筛选和调用的流程节点中。

但效率提升不等于控制实现。访谈中反复谈到：改图很容易越改越糊，模型处理局部修改时可能忽略其他细节。AI强在生成可能性，却不一定强在精确可控性。

AI决定生成的速度，人承担判断的责任——这不是替代关系，而是新的流程协作关系。

五、提示词不是剧本，而是“中间文本”

提示词能不能被视为新型剧本？报告给出了明确的否定回答。

“三头怪”组指出：提示词虽然包含剧情信息，但还包括摄影风格、人物造型、美术要求、光线、画幅、模型参数等。正常剧本不会同时承担美术组、摄影组和技术参数文档的全部功能。

余曦特别强调：“本质上仍然是先有剧本，剧本之后的下一步才是提示词。剧本解决人物、关系、情节和行动的问题，提示词则把这些叙事意图进一步转化为模型可执行的视听信息。”

提示词是一种新的“中间文本”——它不替代剧本，而是把人物、情境、情绪转化成机器能理解的视听条件。

“能工智人”组的实践还揭示了另一个维度：抵抗AI的审美惯性。无论输入什么故事背景，模型都倾向于返回一种“全球化”的视觉结果——角色造型滑向迪士尼式面部结构，场景质感偏向好莱坞式写实肌理。这不是创作者主动选择，而是深植于训练数据中的审美惯性。

六、文字没有退场，反而成了人机协作的枢纽

“光锥”组在制作AI短片《我能》的过程中揭示了一个有趣现象：在AI视频生成中，文字不仅没有退场，反而被重新激活。

导演黄雷说：“最有效的方式仍然是从文本出发，必须有剧本。对于人类而言，最有力量和最高效的工具就是文字。”他解释，参考图给AI之后，AI可能会抓住参考图中某些你不希望它注意的东西，进行无端联想。

报告由此提出“语言学转向”的判断：AI时代，图像没有压倒文字，准确、有表达力的文字仍是人机协作的枢纽。

汉坤则从表演角度指出了AI的根本局限：“算法无法满足人的生命体验，比如痒了、痛了、渴了、饿了，这些都是真实的物理体验。”优秀演员的独特性源自特定身体、经历和生理状态催生的不可预测的反应回路，AI只能给出统计学意义上的中间值。

在视觉生产的技术门槛被大幅降低后，艺术的稀缺性重新回到了创作者自身的文学修养和对世界的独特理解上。

七、“去分镜化”背后：灵活需要更强的内在控制

“能工智人”组做了一个激进探索：取消了传统手绘分镜环节，代之以“剧本定稿→统一资产设计→脑中分镜→AI生成视频”的跳跃式流程。

但“去分镜化”并不意味着分镜逻辑消失，而是形态发生了质变。团队采用边生成边剪辑的模式，视频生成与后期剪辑同步推进，剪辑台本身成为了分镜调整的决策现场。分镜判断从“前期预设”变成了“中期动态校准”。

动态校准的代价是片比的极端膨胀。传统电影摄影中片比通常控制在5：1到15：1之间，但在AI流程中，某些关键镜头需要反复生成二十五次以上，才能从中挑选一段相对成立的画面。创作者不再像传统导演那样“保一条”，而是在二十五条生成结果里“筛一条”。

报告指出，未来AI影像流程有可能走向“混合分镜”模式：前期保留关键场次与空间关系的分镜设计以确保叙事骨架稳定性，中期借助AI生成的灵活性进行动态探索。

这揭示了一个深刻悖论：技术使流程更加灵活，但灵活本身需要更强的内在控制。

八、三维空间一致性：当前技术最大短板

报告以“光锥”组为例，直言三维空间一致性仍是当前技术的最大短板。

黄雷在拍摄“妈妈之家”的群戏时，AI生成的画面无法维持基本的物理恒定性：“演员站在桌子前面时桌子是横向摆放，当演员站在桌子侧面时桌子会变成竖向摆放……有时候从这个角度看明明可以看到三张床，从理论角度看只能看到两张床。”

他的总结很精辟：“在传统片场，所有道具师都知道花瓶放在桌子左边就不能挪到右边。但AI没有这个逻辑——对它来说没有逻辑错误。”

报告从媒介物质性层面分析了原因：传统摄影机嵌入在物理世界的三维欧氏空间中，空间一致性由物理实在的客观几何结构提供。而AI视频生成模型运行在完全不同的逻辑上，其“空间知识”来自对海量二维图像的统计学习——AI影像是一种彻底的“无锚影像”。

黄雷还指出了算力问题：动漫风格与写实风格所需的算力完全不在同一量级，一帧高质量的写实渲染可能需要“整个机房集群几个大机架的机器工作二十个小时”。

他最终将AI创作的成本逻辑概括为：“要么省钱要么省时间，二选一。”

九、动画门槛没有消失，只是转移了形态

“能工智人”组两位成员均不具备传统原画经验，却借助AI直接进入了动画生产。这似乎印证了“AI消解了动画技术门槛”的判断，但报告给出了更复杂的图景。

旧门槛的拆除，并不等同于门槛的消失。团队为确立《愿力司》的视觉风格进行了五十余次提示词迭代，这暴露出一个隐蔽的新门槛——与机器达成视觉共识的能力。

传统动画创作者需要理解线条、体积、动作节奏；AI动画创作者则需要理解算法如何解析语义、如何通过负面提示词抵消不想要的输出、如何通过参考图权重固定风格走向。手绘是“从手到眼”的直接控制，AI动画控制则是“从语言到概率”的间接控制。

报告将AI时代的创作者分为三个层次：准入者（跨越技术壁垒能产出影像）、表达者（让画面服务于叙事与情绪）、突破者（在AI审美惯性中开辟新的视觉语法）。

AI解决了第一层问题，但从第一层到第二层，需要跨越的正是那道表达门槛——它无法通过工具自动获得。

十、“影像论文”：以工具为镜，反思工具本身

在所有作品中，Bicycle Kids组选择了最独特的方向。

这部名为《活下来的碎片：给蝴蝶的口信》的视频随笔，基于一个真实的科学现象：毛虫在化蛹过程中身体彻底溶解，但部分记忆在“大规模重构”中幸存。六章英文旁白构成思想骨架，配合AI生成的影像系统，形成了一部兼具学术论证密度与影像诗学品质的作品。

报告特别分析了视频随笔与AI生成的适配性：视频随笔的真实性锚点从来就不是“影像是否实拍”，而是“思想是否真实”“论证是否有效”。AI生成的石像、蝴蝶、蛹内画面，更类似于学术论文中的“图示”——它们不是证据，而是“思考的可视化”。

叙事片中最困难的AI挑战——让同一角色在不同镜头中保持面孔一致——在视频随笔中并不存在。“文字+影像”的双轨结构为AI生成的偶然性提供了一个天然接纳框架。

这个选题具有罕见的自反性：它不仅“讨论”变态发育与记忆转移，它本身就“是”一个蜕变与记忆转移的实例。AI片场的“1+1”机制本身就是一次“化蛹”实验——传统影视创作的“身体”正在被AI技术彻底重组。

影片末句或许是对整份报告最好的注脚：

“口信将抵达错误的身体。它没有说：记住我。它说：让我的存在值得。”

结语：AI提供速度，人承担判断

十个观察维度，指向同一个核心判断。

AI决定“生成”的速度，人承担“判断”的责任。AI扩展可能性，传统影视经验决定这些可能性能否真正进入作品。

效率的提升，并没有让创作变得简单。AI让创作者更快抵达文本现场和画面现场，但最终通向哪里，仍然取决于人的创作判断。

编剧的价值不只是写出文字，而是组织经验、建立人物、推进冲突、重写文本；导演的价值不只是生产画面，而是确立意图、统合风格、筛选版本，并在众多可能性中完成定夺。

报告发起人、导演黄建新在活动现场说：“以AI当前的发展阶段，远没到只看作品的时候。更有价值的，是把创作过程拿出来，把问题摆在桌面上。”

这四部融合创制作品或许并不完美，但也正因如此，探索的过程和价值才更显得弥足珍贵。

在AIGC影像创作时代，我们要重新确认自身作为创作者的身份——AI不会反客为主，人仍是创作核心。

（本文来源：大象新闻。本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。对文章事实有疑问，请与有关方核实或与本网联系。文章观点非本网观点，仅供读者参考。）