从 SD 到 Wan2.5-Preview，AI 视频 2025 质变启示录

厍子儒 • 2025年11月01日 07:02 • 知识分享 • 阅读 63

作者｜ Cynthia 编辑｜郑玄全民玩梗的狂欢，再一次在 AI 视频领域上演。最大的时代红利，属于今年四季度发布的中美两大明星产品，OpenAI 的 Sora 2 与阿里的...

作者｜ Cynthia

编辑｜郑玄

全民玩梗的狂欢，再一次在 AI 视频领域上演。

最大的时代红利，属于今年四季度发布的中美两大明星产品，OpenAI 的 Sora 2 与阿里的 Wan2.5-Preview。

其中，Sora 2 的登场堪称一场教科书级的营销战役。熟悉的邀请码机制再次奏效，用户为了获得一个入场券除了需要购买 GPT 的会员之外，甚至还在二手平台再花几十美金购买邀请码。更绝的是，它把自己变成了一个 AI 版抖音，用户只需上传一张照片，就能生成自己和奥特曼对话的魔性视频。这种把用户变成主角的设计，让 Sora App 首周下载量直冲 62.7 万次，甚至超过了当年的 ChatGPT。

大洋彼岸，Wan2.5-Preview 则以另一种方式在各大社交媒体刷屏。一夜之间，抖音、小红书上的 AI 小猫开始集体说着「我爱妈妈」然后炒着三菜一汤等主人下班，画面中的光线、格局、小猫表情细腻到令人发指之外，甚至炒菜的锅气与油烟这样的细节也完全到位。

可以说，正是这两大模型的出现，让 AI 视频一夜之间从技术圈极客专属推向全民热潮。

那么，这一次 AI 视频 2025 年破圈的关键是什么？Wan2.5-Preview 在内的一众最新模型做对了什么？与此同时，这次的 AI 视频浪潮又会火多久？

一定程度上，这一波 AI 视频模型热潮，正是大模型落地从技术突破到改变世界交出的标准答案范本。

01

AI 视频为什么又火了

Wan2.5-Preview 与 Sora 2 的爆发绝非偶然，而是技术积累到一定程度的必然结果。

而要理解这次 AI 视频的爆发，就得先看懂历史上的三起两落。

行业的第一次爆发发生在 2022-2023 年期间，那时候借助 U - Net、DDPM 等经典生成架构，DALL - E 2（OpenAI）、Midjourney 、Stable Diffusion（Stability AI）、ControlNet、Gen - 2（Runway）、万相 1.0 等模型通过以文生图让人们第一次看到了 AI 创作的潜力。

但很快，这些模型就因为六指怪、表情呆板等问题被喷上热搜。模型随之在 2024 年前后，进入 Scaling 阶段，通过采用 DiT、Flow Matching 等新技术，结合视觉语言模型（VLM）的图像描述能力，生成更逼真的图片，图生视频成为可能，这一阶段，Sora（OpenAI）、可灵 1.0/1.6、海螺 01、Flux 1.1 、万相 2.0/2.1 陆续走上台前。但这一阶段，AI 生成的视频，依然存在时间短、音画不同步、无法执行复杂动作的弊病。

直到 2025 年，随着 LLM（大语言模型）与 Diffusion（扩散模型）的深度融合，AI 视频迎来了质的飞跃。通过引入视觉 CoT（思维链），模型从单纯的视觉渲染转向任务导向的智能决策，不仅能支持多模态交互，还能解决复杂的视觉 + 语言任务。Gemini 2.0 Flash（谷歌）、GPT - 4o 生图（OpenAI）、可灵 2.0、Veo 3、Seedance 1.0 、豆包、万相 2.2、Nano Banana（谷歌）相继爆火。

四年间，模型千变万化，但每次 AI 视觉产品的爆火的背后，都离不开两大方面的进步：

门槛降低以及效果提升。

早期以 SD 为代表的工具，是典型的极客专属——CFG scale 数值要反复调试，数十个节点的连接逻辑能劝退 90% 的用户；生成内容更是阴间赛博风，除了 P 站上粗制滥造的成人内容，几乎没人愿意盯着画面里突然冒出两张脸、音画完全不同步的视频超过一分钟。

反观当下的热门模型，无论是计划做 AI 时代抖音的 Sora 2，还是社交媒体刷屏的 Wan2.5-Preview ，都踩中了同一个关键点：高质量的同时，把门槛降到人人可用。

首先是针对过去 AI 模型的赛博审丑，Wan2.5-Preview 通过人类反馈的强化学习（RLHF）把用户对画面质感、动态效果、指令匹配度的反馈用于优化模型，彻底摆脱丑且诡异的标签。

而要达成以上效果，用户不需要懂任何技术，只要能把自己脑海中的画面，用一段简单的提示词说出来，就能生成栩栩如生的视频。

比如，这是一个使用 Wan2.5-Preview 生成的高赞视频。

提示词：黄昏，逆光，侧光，柔光，高对比度，中景，中心构图，干净的单人镜头，暖色调。年轻白人男子站在树林中，阳光透过树叶在他发丝上形成金色光晕。他穿着浅色衬衫，微风吹动他的头发和衣领，光线随着他的动作在脸上流动。背景虚化，远处是斑驳的光影和柔和的树影，镜头聚焦于他微微抬起的目光，眼神清澈且带有情绪。

视频链接：

https://tongyi.aliyun.com/wan/work-detail/4ce663a31fbc4c5f859a8d8d6fbf23eb?resourceId=4ce663a31fbc4c5f859a8d8d6fbf23eb

可以看到，画面中不仅人物神态动作自然，空气中的尘埃，树林中的光线也都十分还原，去掉右下角的 logo，几乎无法分辨是否实拍。

在此基础上我们再加点难度，画面更复杂一点，主体变成有精细毛发细节的布偶猫，然后加入动作、神态以及抑扬顿挫的语调：

提示词：电影感仰拍镜头，让主体显得很有权势。在一间奢华的客厅里，一只雍容华贵的布偶猫坐在一张王座般的猫爬架上。它用居高临下、充满审判意味的蓝色眼睛俯视着镜头。它缓缓抬起一只毛茸茸的爪子，以一种极度鄙视的表情指向观众，质问说：「嗯？那我再问你，我生成视频的音频不自然吗？回答我！Look in my eyes！Tell me, why？Why baby why？」。戏剧性的华丽光影，浅景深，超精细的毛发细节，照片级真实感。

可以看到多个升级版要求多管齐下，但整体画面的质量依然没有下降，甚至就连环境中的光线角度，光源反射细节都完美还原。

当然，这种低门槛与高质量，只是 Wan2.5-Preview 火起来的基础，在用户体验细节上，Wan2.5-Preview 还做了更多的探索与尝试。

02

如何定义体验 ready 的视频模型

AI 模型的技术参数再漂亮，最终要落地到用户体验上。

过去很多 AI 工具的通病是碎片化——文生图一个模型、文生视频一个工具、图生视频又要换平台，用户为了实现一个创意，得在多个工具间反复切换，生成、调整、合成的繁琐步骤，早已磨掉了创作热情。

更不用说，过去做一条电商营销视频，用户要先找模型生成画面，再用另一个工具做音频，最后用第三方软件合成，耗时不说，还容易出现音画错位。最后为了节约拍摄成本，不得不再招聘一个成本更高的算法工程师搭建业务的 workflow。

seaart.ai 的案例很有代表性。这家 2023 年 4 月成立的公司，专注图像和视频生成，全球活跃用户超 2500 万，稳居 AIGC web 产品 TOP 50 。他们采访过一位澳大利亚理发师，对方从小的梦想是当画家，却为生活拿起了剪刀。现在他每天最开心的时刻，就是下班用 seaart.ai（海艺）创作——过去用画笔无法表达的想法，现在用文字就能生成画面，「海艺成了安放灵魂和梦想的地方」。

之所以选择海艺，正是因为海艺集成像 Wan2.5-Preview 这样的模型，解决了过去 AI 视觉生成用户体验割裂的痛点。

在 Wan2.5-Preview，生成 10 秒视频时，系统会自动匹配人声、环境音效和背景音乐，甚至能让小猫的口型和「我爱妈妈」的台词对应上，全程无需人工干预。

在这背后，则是 Wan2.5-Preview 的统一框架设计：Wan2.5-Preview 没有像 SD 那样堆砌独立模型，而是把文本、图像、视频、音频的理解与生成装进了同一个框架里。底层用文本分词器、图像 / 视频编码器、音频编码器分别拆解不同类型的信息；核心用多模态 Transformer 做大脑，实现跨模态信息的深度融合；输出层直接支持文本、图像、视频、音频的生成，借助多模态对齐能力，用户不再需要在多个工具间切换。

最重要的是，用过 AI 的人都知道，一次性生成满意的内容几乎不可能。但是对图像和视频二次编辑又往往非常困难。Wan2.5-Preview 在这方面做了针对性优化：

视频上，Wan2.5-Preview 增强了复杂指令精准执行能力：能理解运镜语言（如推、拉、摇、移）及连续变化指令，无需多次调整；细节优化：强化图生视频的元素 ID 一致性（即生成过程中保持人物、物体等核心元素不丢失），同时支持通用音频驱动视频生成。

在生图上，AI 的生图质量今年行业基本解决，但是对于图片中加文字尤其是中文这样的需求，就很容易变成鬼画符，更不用提生成图表。Wan2.5-Preview 则不仅支持稳定生成中文、英文等文字，甚至能直接生成图表；还能通过文字指令一键换装、改风格，编辑时核心元素不会变形。

正是这些体验细节的打磨，让海艺平台上的用户用 Wan2.5-Preview 生成的视频数突破 500 万条，创意的表达就像说话一样自然。

03

技术到商业，如何加速

技术 ready、体验 ready 的 AI 产品不少，但很多都停留在叫好不叫座的阶段。

Wan2.5-Preview 的聪明之处在于，它在做好产品的同时，也打造了一整套完善的商业化体系。

这套完整商业化体系的最底层，是阿里云的算力支持，与模型软硬一体形成生态护城河。中间层则是阿里云百炼这样的模型开发服务平台，让用户一键部署大模型不再是天方夜谭；最顶层的模型侧，也给足了用户选择。

以 Wan2.5-Preview 给为例，不同用户的需求天差地别：有人只是想尝鲜做个 5 秒短镜头，有人要做 10 秒的抖音爆款；有人追求 1080P 电影级画质，有人觉得 720P 够用就行。

Wan2.5-Preview 选择，5 秒、10 秒，画质上，提供 480P、720P、1080P 三种选择，用户可以根据预算和用途自由切换。

在此基础上，Wan2.5-Preview 没有掩饰自己对商业化以及算清成本账的野心。在最近的飞天发布时刻上 Wan2.5-Preview 正式宣布商业化，并给出了明确且足够优惠的收费标准：

国内：1080P 1 元 / 秒，720P 0.6 元 / 秒，480P 0.3 元 / 秒；

海外：1080P 0.15 美元 / 秒，720P 0.1 美元 / 秒，480P 0.05 美元 / 秒。

形成对比，Sora 2 生成视频需要 0.1-0.5 美元 / 秒，国内可灵 2.0 收费标准为 0.5 元 / 秒，Wan2.5-Preview 属于同等内容质量产品中，定价也极具吸引力的一档。

而这种定价方式精准击中了不同用户的痛点：

对短视频团队、广告公司等专业用户，清晰的定价能让他们准确核算成本，比 SD 免费但需自己承担服务器成本更划算；

对普通尝鲜用户，按秒收费意味着花几块钱就能试玩，不会被高昂的套餐费吓跑。

建立在丰富的选择与定价标准之上，通义万相的商业生态也已经初步跑通， WaveSpeedAI 就是最好的案例。

这是一家专注多模态 AI 生成的平台型公司，也是全球第一个上线 Wan2.5 系列模型的平台。

围绕怎么用好 Wan2.5-Preview，WaveSpeedAI 的做法很聪明：它根据用户的价格敏感度，按照分辨率、生成时长、加速程度梯度收费，此外，根据模型的不同，提供了分层解决方案：

最低价区间：用 Wan2.2 的快速推理版本，满足预算有限的用户；

中间层：用优化后的 Wan2.2 开源模型，平衡成本和质量；

高端层：用 Wan2.5 的快速版和普通版，服务追求高质量的用户；

在此基础上，WaveSpeedAI 还拓展了数字人业务，在对口型的基础上，实现了更丰富的肢体动作和表情控制。目前，WaveSpeedAI 借助 Wan2.5 生成的视频数已突破 1000 万条。

以上只是个例，据云栖大会官宣数据，通义万相家族已整合 10 多种视觉创作能力，累计生成 3.9 亿张图片和 7000 万个视频，成为国内主流的 AI 视觉创作工具。

04

尾声

AI 视频的故事远没到结尾。

技术侧，现在的模型依然有短板：内容生成时长不够长、细节不够细腻、长视频的一致性问题还没完全解决……

但不可否认的是，无论是 Sora 2 的 AI Tik Tok 野心，还是 Wan2.5-Preview 的行业侧深耕，都让 AI 视觉生成跨过了技术到产品的鸿沟。

在这个过程中，技术先进固然重要，但能把技术变成用户愿意用、愿意付费的产品，让行业真正尝到 SOP 缩短，效率增加，用户体验提升，才是真正的胜负手。

本文来自作者[厍子儒]投稿，不代表视听号立场，如若转载，请注明出处：https://stddy.com/zsfx/202511-54307.html

63 4

本文作者

厍子儒签约作者

376 文章

4684365 评论

1 粉丝

我是视听号的签约作者[厍子儒],本篇文章《从 SD 到 Wan2.5-Preview，AI 视频 2025 质变启示录》主要讲述了:作者｜ Cynthia 编辑｜郑玄全民玩梗的狂欢，再一次在 AI 视频领域上演。最大的时代红利，属于今年四季度发布的中美两大明星产品，OpenAI 的 Sora 2 与阿里的...

知识分享

玩家必备教程“最新麻将黑科技设备（专用辅牌神器免安装）

软件神器超燃!微乐双扣神器(怎么抓到好牌)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐双扣神器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加微下载使用。

凝芙
2025年09月05日
79
生活经验

实测教程“开心泉州麻将专用神器（助赢神器通用版）

软件神器超闪!微乐甘肃麻将究竟有猫腻吗(助赢软件有规律吗)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐甘肃麻将究竟有猫腻吗是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有

书生念露
2025年09月10日
77
作者专栏

胜率设置方法“财神十三张助赢神器（专用辅牌神器免安装）

软件神器揭秘!微乐安徽麻将能作假吗(怎么能调好牌)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐安徽麻将能作假吗是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可

礼秋香
2025年09月10日
82
综合

实测辅助“手机斗牛通用辅助器（助赢神器通用版）

软件神器称王!微乐河南麻将铺牌器(怎么才有好牌)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐河南麻将铺牌器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加

香天
2025年09月24日
65
综合

胜率设置方法“微乐麻将助赢神器可试用（助赢神器通用版）

软件神器爆赞!雀神麻将充会员胜率高(万能开挂器)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”雀神麻将充会员胜率高是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以

翠安
2025年09月24日
64
综合

玩家必看攻略“手机跑得快辅助软件（专用辅牌神器免安装）

软件神器无双!指尖跑得快透明辅助器脚本(怎么能调好牌)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”指尖跑得快透明辅助器脚本是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要

功光远
2025年09月24日
63
新闻资讯

野色庄园：高原花海间的原木疗愈秘境

在青海湖周边平均海拔基准线上，海晏县金滩乡海东新村的野色庄园以2800米的实测海拔，成为环青海湖地区海拔最低的民宿之一。这里没有都市酒店的规整刻板，唯有自然铺就的诗意：盛夏时节，金黄的油菜花如巨型绒毯般铺展至天际，微风拂过，花浪翻滚间夹杂着青稞田的清新气息；清晨与黄昏，农家的炊烟袅袅升起，带着柴火与

安白
2025年09月25日
62
常识科普

慢跑到底对身体好不好？医生给出答案，可以颠覆你的以往认知

老李倒下的姿势，像极了一只被拔掉电池的玩具狗——膝盖先着地，胳膊还保持着摆臂的弧度。那天早上气温17℃，他第127次绕小区花坛刷“5公里打卡”，手环却安静得吓人，没来得及亮一下红灯。十分钟后，救护车来了，邻居才想起：原来“坚持”也会咬人。这事儿过去仨月，小区跑团解散了一半。剩下的人不再聊

华发囚徒
2025年10月13日
58
作者专栏

孩子开始变自卑，往往是3个原因，父母的做法很关键

娃缩在角落不说话，家长急疯！2024.05北京，一年级小宇因手机里“人均学霸”彻底崩溃，导火索只是一段别家娃钢琴十级视频。别再只会说“你要自信”，新路子来了：40赫兹灯光配节拍小游戏，哈佛实测8周把社恐娃变成举手狂魔。家长在家下个APP，耳机闪灯，娃边打地鼠边补脑，安全无痛还亲子同乐。社

孤蝶
2025年11月09日
40
生活经验

日本签字了，高市选定中日主战场，对华开第二枪，解放军开始巡海，事情果然没有那么简单

最近日本的动作是一个比一个劲爆，刚在台海问题上跟中国叫完板，转头又签了新协议、选了新战场，对着中国开出“第二枪”，这一连串操作下来，明眼人都能看出来，事情根本没那么简单。先说高市早苗政府干的第一件大事——跟菲律宾偷偷签了合作，还要把日本航空自卫队现役的“03式地对空导弹”卖给菲律宾。这导弹可不是普通

章欢
2025年12月04日
28

发表回复

本站作者后才能评论

评论列表（4条）

厍子儒 2025年11月01日

我是视听号的签约作者“厍子儒”！

回复
厍子儒 2025年11月01日

希望本篇文章《从 SD 到 Wan2.5-Preview，AI 视频 2025 质变启示录》能对你有所帮助！

回复
厍子儒 2025年11月01日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
厍子儒 2025年11月01日

本文概览：作者｜ Cynthia 编辑｜郑玄全民玩梗的狂欢，再一次在 AI 视频领域上演。最大的时代红利，属于今年四季度发布的中美两大明星产品，OpenAI 的 Sora 2 与阿里的...

回复

从 SD 到 Wan2.5-Preview，AI 视频 2025 质变启示录

01

02

03

04

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们