从 SD 到 Wan2.5-Preview,AI 视频 2025 质变启示录

作者| Cynthia 编辑| 郑玄全民玩梗的狂欢,再一次在 AI 视频领域上演。最大的时代红利,属于今年四季度发布的中美两大明星产品,OpenAI 的 Sora 2 与阿里的...

作者| Cynthia

编辑| 郑玄

全民玩梗的狂欢,再一次在 AI 视频领域上演 。

最大的时代红利 ,属于今年四季度发布的中美两大明星产品 ,OpenAI 的 Sora 2 与阿里的 Wan2.5-Preview 。

其中,Sora 2 的登场堪称一场教科书级的营销战役。熟悉的邀请码机制再次奏效,用户为了获得一个入场券除了需要购买 GPT 的会员之外 ,甚至还在二手平台再花几十美金购买邀请码。更绝的是,它把自己变成了一个 AI 版抖音,用户只需上传一张照片 ,就能生成自己和奥特曼对话的魔性视频 。这种把用户变成主角的设计,让 Sora App 首周下载量直冲 62.7 万次,甚至超过了当年的 ChatGPT。

大洋彼岸 ,Wan2.5-Preview 则以另一种方式在各大社交媒体刷屏。一夜之间,抖音、小红书上的 AI 小猫开始集体说着「我爱妈妈」然后炒着三菜一汤等主人下班,画面中的光线 、格局 、小猫表情细腻到令人发指之外 ,甚至炒菜的锅气与油烟这样的细节也完全到位 。

可以说,正是这两大模型的出现,让 AI 视频一夜之间从技术圈极客专属推向全民热潮。

那么 ,这一次 AI 视频 2025 年破圈的关键是什么?Wan2.5-Preview 在内的一众最新模型做对了什么?与此同时 ,这次的 AI 视频浪潮又会火多久?

一定程度上,这一波 AI 视频模型热潮,正是大模型落地从技术突破到改变世界交出的标准答案范本。

01

AI 视频为什么又火了

Wan2.5-Preview 与 Sora 2 的爆发绝非偶然 ,而是技术积累到一定程度的必然结果 。

而要理解这次 AI 视频的爆发,就得先看懂历史上的三起两落。

行业的第一次爆发发生在 2022-2023 年期间,那时候借助 U - Net、DDPM 等经典生成架构 ,DALL - E 2(OpenAI)、Midjourney 、Stable Diffusion(Stability AI)、ControlNet、Gen - 2(Runway) 、万相 1.0 等模型通过以文生图让人们第一次看到了 AI 创作的潜力。

但很快,这些模型就因为六指怪、表情呆板等问题被喷上热搜 。模型随之在 2024 年前后,进入 Scaling 阶段 ,通过采用 DiT、Flow Matching 等新技术,结合视觉语言模型(VLM)的图像描述能力,生成更逼真的图片 ,图生视频成为可能,这一阶段,Sora(OpenAI) 、可灵 1.0/1.6、海螺 01、Flux 1.1 、万相 2.0/2.1 陆续走上台前。但这一阶段 ,AI 生成的视频 ,依然存在时间短、音画不同步、无法执行复杂动作的弊病。

直到 2025 年,随着 LLM(大语言模型)与 Diffusion(扩散模型)的深度融合,AI 视频迎来了质的飞跃 。通过引入视觉 CoT(思维链) ,模型从单纯的视觉渲染转向任务导向的智能决策,不仅能支持多模态交互,还能解决复杂的视觉 + 语言任务 。Gemini 2.0 Flash(谷歌) 、GPT - 4o 生图(OpenAI) 、可灵 2.0、Veo 3、Seedance 1.0 、豆包、万相 2.2、Nano Banana(谷歌)相继爆火。

四年间 ,模型千变万化,但每次 AI 视觉产品的爆火的背后,都离不开两大方面的进步:

门槛降低以及效果提升。

早期以 SD 为代表的工具 ,是典型的极客专属——CFG scale 数值要反复调试,数十个节点的连接逻辑能劝退 90% 的用户;生成内容更是阴间赛博风,除了 P 站上粗制滥造的成人内容 ,几乎没人愿意盯着画面里突然冒出两张脸 、音画完全不同步的视频超过一分钟 。

反观当下的热门模型,无论是计划做 AI 时代抖音的 Sora 2,还是社交媒体刷屏的 Wan2.5-Preview ,都踩中了同一个关键点: 高质量的同时 ,把门槛降到人人可用。

首先是针对过去 AI 模型的赛博审丑,Wan2.5-Preview 通过人类反馈的强化学习(RLHF)把用户对画面质感、动态效果、指令匹配度的反馈用于优化模型,彻底摆脱丑且诡异的标签。

而要达成以上效果 ,用户不需要懂任何技术,只要能把自己脑海中的画面,用一段简单的提示词说出来 ,就能生成栩栩如生的视频 。

比如,这是一个使用 Wan2.5-Preview 生成的高赞视频。

提示词:黄昏,逆光 ,侧光,柔光,高对比度 ,中景,中心构图,干净的单人镜头 ,暖色调。年轻白人男子站在树林中 ,阳光透过树叶在他发丝上形成金色光晕 。他穿着浅色衬衫,微风吹动他的头发和衣领,光线随着他的动作在脸上流动。背景虚化 ,远处是斑驳的光影和柔和的树影,镜头聚焦于他微微抬起的目光,眼神清澈且带有情绪。

视频链接:

https://tongyi.aliyun.com/wan/work-detail/4ce663a31fbc4c5f859a8d8d6fbf23eb?resourceId=4ce663a31fbc4c5f859a8d8d6fbf23eb

可以看到 ,画面中不仅人物神态动作自然,空气中的尘埃,树林中的光线也都十分还原 ,去掉右下角的 logo,几乎无法分辨是否实拍 。

在此基础上我们再加点难度,画面更复杂一点 ,主体变成有精细毛发细节的布偶猫,然后加入动作 、神态以及抑扬顿挫的语调:

提示词:电影感仰拍镜头,让主体显得很有权势。在一间奢华的客厅里 ,一只雍容华贵的布 偶猫坐在一张王座般的猫爬架上。它用居高临下、充满审判意味的蓝色眼睛俯视着镜头 。它缓缓抬起一只毛茸茸的爪子 ,以一种极度鄙视的表情指向观众,质问说:「嗯?那我再问你,我生成视频的音频不自然吗?回答我!Look in my eyes!Tell me, why?Why baby why?」 。戏剧性的华丽光影 ,浅景深,超精细的毛发细节,照片级真实感。

从 SD 到 Wan2.5-Preview	,AI 视频 2025 质变启示录

可以看到多个升级版要求多管齐下,但整体画面的质量依然没有下降,甚至就连环境中的光线角度 ,光源反射细节都完美还原。

当然,这种低门槛与高质量,只是 Wan2.5-Preview 火起来的基础 ,在用户体验细节上,Wan2.5-Preview 还做了更多的探索与尝试 。

02

如何定义体验 ready 的视频模型

AI 模型的技术参数再漂亮,最终要落地到用户体验上。

过去很多 AI 工具的通病是碎片化——文生图一个模型、文生视频一个工具 、图生视频又要换平台 ,用户为了实现一个创意 ,得在多个工具间反复切换,生成、调整、合成的繁琐步骤,早已磨掉了创作热情。

更不用说 ,过去做一条电商营销视频,用户要先找模型生成画面,再用另一个工具做音频 ,最后用第三方软件合成,耗时不说,还容易出现音画错位 。最后为了节约拍摄成本 ,不得不再招聘一个成本更高的算法工程师搭建业务的 workflow。

seaart.ai 的案例很有代表性。这家 2023 年 4 月成立的公司,专注图像和视频生成,全球活跃用户超 2500 万 ,稳居 AIGC web 产品 TOP 50 。他们采访过一位澳大利亚理发师,对方从小的梦想是当画家,却为生活拿起了剪刀。现在他每天最开心的时刻 ,就是下班用 seaart.ai(海艺)创作——过去用画笔无法表达的想法 ,现在用文字就能生成画面,「海艺成了安放灵魂和梦想的地方」。

之所以选择海艺,正是因为海艺集成像 Wan2.5-Preview 这样的模型 ,解决了过去 AI 视觉生成用户体验割裂的痛点 。

在 Wan2.5-Preview,生成 10 秒视频时,系统会自动匹配人声 、环境音效和背景音乐 ,甚至能让小猫的口型和「我爱妈妈」的台词对应上,全程无需人工干预。

在这背后,则是 Wan2.5-Preview 的统一框架设计:Wan2.5-Preview 没有像 SD 那样堆砌独立模型 ,而是把文本 、图像、视频、音频的理解与生成装进了同一个框架里。底层用文本分词器 、图像 / 视频编码器、音频编码器分别拆解不同类型的信息;核心用多模态 Transformer 做大脑,实现跨模态信息的深度融合;输出层直接支持文本、图像 、视频、音频的生成,借助多模态对齐能力 ,用户不再需要在多个工具间切换 。

最重要的是,用过 AI 的人都知道,一次性生成满意的内容几乎不可能 。但是对图像和视频二次编辑又往往非常困难。Wan2.5-Preview 在这方面做了针对性优化:

视频上 ,Wan2.5-Preview 增强了复杂指令精准执行能力:能理解运镜语言(如推、拉 、摇、移)及连续变化指令 ,无需多次调整;细节优化:强化图生视频的元素 ID 一致性(即生成过程中保持人物、物体等核心元素不丢失),同时支持通用音频驱动视频生成。

在生图上,AI 的生图质量今年行业基本解决 ,但是对于图片中加文字尤其是中文这样的需求,就很容易变成鬼画符,更不用提生成图表 。Wan2.5-Preview 则不仅支持稳定生成中文 、英文等文字 ,甚至能直接生成图表;还能通过文字指令一键换装、改风格,编辑时核心元素不会变形。

正是这些体验细节的打磨,让海艺平台上的用户用 Wan2.5-Preview 生成的视频数突破 500 万条 ,创意的表达就像说话一样自然。

03

技术到商业,如何加速

技术 ready、体验 ready 的 AI 产品不少,但很多都停留在叫好不叫座的阶段 。

Wan2.5-Preview 的聪明之处在于 ,它在做好产品的同时,也打造了一整套完善的商业化体系。

这套完整商业化体系的最底层,是阿里云的算力支持 ,与模型软硬一体形成生态护城河。中间层则是阿里云百炼这样的模型开发服务平台 ,让用户一键部署大模型不再是天方夜谭;最顶层的模型侧,也给足了用户选择 。

以 Wan2.5-Preview 给为例,不同用户的需求天差地别:有人只是想尝鲜做个 5 秒短镜头 ,有人要做 10 秒的抖音爆款;有人追求 1080P 电影级画质,有人觉得 720P 够用就行。

Wan2.5-Preview 选择,5 秒 、10 秒 ,画质上,提供 480P 、720P、1080P 三种选择,用户可以根据预算和用途自由切换。

在此基础上 ,Wan2.5-Preview 没有掩饰自己对商业化以及算清成本账的野心 。在最近的飞天发布时刻上 Wan2.5-Preview 正式宣布商业化,并给出了明确且足够优惠的收费标准:

国内:1080P 1 元 / 秒,720P 0.6 元 / 秒 ,480P 0.3 元 / 秒;

海外:1080P 0.15 美元 / 秒,720P 0.1 美元 / 秒,480P 0.05 美元 / 秒。

形成对比 ,Sora 2 生成视频需要 0.1-0.5 美元 / 秒 ,国内可灵 2.0 收费标准为 0.5 元 / 秒,Wan2.5-Preview 属于同等内容质量产品中,定价也极具吸引力的一档。

而这种定价方式精准击中了不同用户的痛点:

对短视频团队、广告公司等专业用户 ,清晰的定价能让他们准确核算成本,比 SD 免费但需自己承担服务器成本更划算;

对普通尝鲜用户,按秒收费意味着花几块钱就能试玩 ,不会被高昂的套餐费吓跑 。

建立在丰富的选择与定价标准之上, 通义万相的商业生态也已经初步跑通, WaveSpeedAI 就是最好的案例 。

这是一家专注多模态 AI 生成的平台型公司 ,也是全球第一个上线 Wan2.5 系列模型的平台。

围绕怎么用好 Wan2.5-Preview,WaveSpeedAI 的做法很聪明:它根据用户的价格敏感度,按照分辨率 、生成时长、加速程度梯度收费 ,此外,根据模型的不同,提供了分层解决方案:

最低价区间:用 Wan2.2 的快速推理版本 ,满足预算有限的用户;

中间层:用优化后的 Wan2.2 开源模型 ,平衡成本和质量;

高端层:用 Wan2.5 的快速版和普通版,服务追求高质量的用户;

在此基础上,WaveSpeedAI 还拓展了数字人业务 ,在对口型的基础上,实现了更丰富的肢体动作和表情控制。目前,WaveSpeedAI 借助 Wan2.5 生成的视频数已突破 1000 万条 。

以上只是个例 ,据云栖大会官宣数据,通义万相家族已整合 10 多种视觉创作能力,累计生成 3.9 亿张图片和 7000 万个视频 ,成为国内主流的 AI 视觉创作工具。

04

尾声

AI 视频的故事远没到结尾。

技术侧,现在的模型依然有短板:内容生成时长不够长、细节不够细腻 、长视频的一致性问题还没完全解决……

但不可否认的是,无论是 Sora 2 的 AI Tik Tok 野心 ,还是 Wan2.5-Preview 的 行业侧深耕,都让 AI 视觉生成跨过了技术到产品的鸿沟 。

在这个过程中,技术先进固然重要 ,但能把技术变成用户愿意用、愿意付费的产品 ,让行业真正尝到 SOP 缩短,效率增加,用户体验提升 ,才是真正的胜负手。

本文来自作者[厍子儒]投稿,不代表视听号立场,如若转载,请注明出处:https://stddy.com/zsfx/202511-54307.html

(5)

文章推荐

  • 北京疫情新增最新情况/北京疫情最新增加3例

    2022北京疫情进出京最新规定:现在去北京要隔离吗现在去北京是否需要隔离,取决于具体的进京人员情况,大多数情况下不需要隔离,但需要遵守相关的防疫政策。具体来说:进返京人员需持证明:进京人员须持48小时内核酸检测阴性证明和“北京健康宝”绿码。抵京后核酸检测:自2022年1月22日零时起至3月底,进返

    2025年06月28日
    94
  • 中方决定,对等限制!

    商务部新闻发言人就在政府采购活动中对自欧盟进口的医疗器械采取相关措施答记者问问:我们注意到,欧委会近期出台措施,限制中国企业和产品参与其医疗器械公共采购。中方于7月6日发布通知,决定在政府采购活动中对部分自欧盟进口的医疗器械采取相关措施。请问商务部对此有何评论?答:欧盟委员会于2025年6月20日出

    2025年07月07日
    93
  • 31省新增确诊11例.31省新增确诊病例21例?

    新冠肺炎确诊病例有多少了?截止4月9号,全国累计确诊新冠肺炎病例为81907例。关于当前中国有多少人正在感染新型肺炎的具体数字,由于这是一个动态变化的过程,且涉及到大量的流行病学调查和数据处理,因此无法直接给出。但根据借鉴信息,可以归纳出以下几点:本土病例情况:近来,全国每天的新冠肺炎本土病例数量

    2025年07月28日
    77
  • 玩家必看攻略“微乐陕西麻将助赢神器怎样下载(专用辅牌神器免安装)

    这软件超神啦!小程序麻将辅牌器购买(可以设置输赢吗)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”小程序麻将辅牌器购买是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户

    2025年09月04日
    48
  • 玩家实测“雀神辅助器ios版(专用辅牌神器免安装)

    软件神器超神!微信小程序打麻将开挂方法(怎么只赢不输)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信小程序打麻将开挂方法是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要

    2025年09月13日
    44
  • 今日盘点“白金岛三打哈怎么拿好牌”(详细辅助教程)-今日头条

    软件神器登场!中至九江麻将插件(外辅工具)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”中至九江麻将插件是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加微下载使

    2025年09月23日
    40
  • 实测分享“微信斗牛黑科技(专用辅牌神器免安装)

    软件神器强推!乐乐安徽麻将辅助器工具(助赢神器)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”乐乐安徽麻将辅助器工具是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月23日
    38
  • 实测辅助“微乐山东手机麻将助赢神器(专用辅牌神器免安装)

    神器爱不释手!广东微乐麻将助赢神器(开挂辅助脚本)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”广东微乐麻将助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可

    2025年09月23日
    38
  • 胜率设置方法“普通自动麻将机遥控怎么用(助赢神器通用版)

    软件神器爆赞!蜀山四川麻将助赢神器(确实有挂)“我们专注于各类软件定制开发,已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”蜀山四川麻将助赢神器是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加

    2025年10月02日
    27
  • 全红婵放弃全运单人角逐系顶层决策,并不仅仅是保护身体那么简单

    全红婵放弃全运会女子单人十米台角逐,只参加团体和双人比赛,这个消息足够炸裂足够突然,央视最近的体育新闻还言之凿凿称“全妹报名三个项目”。全红婵高挂免战牌,无疑让万众瞩目的全红婵VS陈芋汐史诗大战泡汤,降低了赛事观赏性,但其实这是一个多赢结果。全妹可能是国内“大众缘”最好的体育明星,退赛消息传出,几乎

    2025年11月02日
    0

发表回复

本站作者后才能评论

评论列表(4条)

  • 厍子儒
    厍子儒 2025年11月01日

    我是视听号的签约作者“厍子儒”!

  • 厍子儒
    厍子儒 2025年11月01日

    希望本篇文章《从 SD 到 Wan2.5-Preview,AI 视频 2025 质变启示录》能对你有所帮助!

  • 厍子儒
    厍子儒 2025年11月01日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 厍子儒
    厍子儒 2025年11月01日

    本文概览:作者| Cynthia 编辑| 郑玄全民玩梗的狂欢,再一次在 AI 视频领域上演。最大的时代红利,属于今年四季度发布的中美两大明星产品,OpenAI 的 Sora 2 与阿里的...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们