Karpathy 2025年AI终极觉醒：我们还没发挥出LLM潜力的10%

慕梅 • 2025年12月22日 20:02 • 常识科普 • 阅读 2

2025年，注定是人工智能历史上被铭记的一年。如果说2023年是「惊艳」（ChatGPT的横空出世），2024年是「迷茫」（在大模型落地的憧憬中探索），那么在Andrej Ka...

2025年，注定是人工智能历史上被铭记的一年。

如果说2023年是「惊艳」（ChatGPT的横空出世），2024年是「迷茫」（在大模型落地的憧憬中探索），那么在Andrej Karpathy的笔下，2025则是「觉醒」的一年。

Karpathy一直以来都是AI界的「顶流」布道者。

他的年终总结不仅仅是一篇技术回顾，更像是一部微缩的编年史，记录了LLM如何从「模仿人类的鹦鹉」进化到了「召唤理性的幽灵」。

他以极其敏锐的视角，捕捉到了AI进化的核心：RLVR（基于可验证奖励的强化学习）的崛起、Vibe Coding（氛围编码）的流行、以及那个令人深思的哲学隐喻：

创造AI，我们到底是在制造一种新的物种，还是在召唤幽灵？

这一次让我们剥茧抽丝，深度解析Karpathy提到的每一个范式转移。

穿过技术术语的迷雾，直抵智能进化的本质，呈现一个真实、疯狂且充满「参差感」的AI-2025年。

第一章：RLVR革命

从「讨好人类」到「追求真理」

在2025年之前，训练一个大语言模型（LLM）的通常包含三道工序：

预训练（Pre-training）：

让模型阅读整个互联网，学会预测下一个token。这是「博学」的阶段。

监督微调（SFT）：

用高质量的问答数据教模型如何像个助手一样说话。这是「懂事」的阶段。

人类反馈强化学习（RLHF）：

让模型根据人类的喜好调整回答的语气和安全性。这是「讨好」的阶段。

这套流程在ChatGPT时代大放异彩，但也埋下了隐患。

Karpathy一针见血地指出，RLHF本质上是在训练模型「看起来像是在推理」，而不是「真的在推理」。

因为人类评审员也是人，他们很难在几秒钟内判断一段500行的Python代码是否真的没有Bug ，或者一个复杂的数学证明是否严丝合缝。

于是，模型学会了走捷径：写出漂亮但错误的代码，编造听起来很有道理的废话。

这就是所谓的「阿谀奉承」（Sycophancy）问题。

这也和后来GPT-5的谄媚如出一辙。

RLVR的崛起：当上帝变成编译器

2025年，行业迎来了一个名为RLVR（Reinforcement Learning from Verifiable Rewards，基于可验证奖励的强化学习）的第四阶段。

RLVR的核心逻辑简单而粗暴：别听人的，听结果的。

在数学、编程、逻辑谜题等领域，我们不需要人类来打分。

代码能不能跑通？编译器说了算。数学题对不对？答案说了算。

这种客观、自动、不可欺骗的奖励信号，为模型提供了一个无限的练兵场。

RLVR可以看作是AI LLM的AlphaZero时刻。

当年的AlphaZero通过自我博弈精通了围棋，如今的LLM通过RLVR在「思维的棋盘」上自我博弈。

探索（Exploration）：模型面对一道难题，不再是基于概率吐出一个答案，而是尝试生成成千上万条不同的推理路径（Reasoning Traces）。

验证（Verification）：每一条路径都被送入一个自动验证器（Verifier），比如Python解释器或数学证明器。

强化（Reinforcement）：只有那些通向正确结果的路径会被奖励，错误的路径会被惩罚。

在这个过程中，奇迹发生了！

模型并没有被显式地教导「如何思考」，但在为了获取奖励的残酷进化中，它涌现出了推理能力。

它学会了将大问题拆解为小步骤，学会了回头检查，学会了我们在教科书里从未见过的「外星人思维策略」。

RLVR不仅改变了训练方式，还引入了一个全新的Scaling Law：测试时算力。

以前，我们认为模型的能力在训练结束那一刻就定格了。

但在RLVR范式下，我们可以在推理阶段（InferenceTime）通过让模型「多想一会儿」来提升智力。

这就像是一个学生，你给他1分钟做题和给他1小时做题，其表现是完全不同的。

Karpathy特别提到了OpenAI o1（2024年底）和o3（2025年初）的发布，以及DeepSeek R1的开源，这些都是这一趋势的里程碑。

DeepSeek R1甚至展示了即便没有大规模的监督微调（SFT），仅靠纯粹的RLVR（即R1-Zero），模型也能从零开始衍生出强大的推理能力，甚至学会自我反思。

这意味着算力的价值从「训练端」向「推理端」转移。

未来的AI应用，可能会根据问题的难易程度，动态调整「思考时间」。

对于简单的问题（如「你好」），它秒回；对于复杂的问题（如「设计一个高并发架构」），它可能会消耗巨大的推理算力，但给出一个超越人类专家的方案。

第二章：哲学分野

我们是在造动物，还是在招幽灵？

在深入技术细节之余，Karpathy通过引用AI先驱Rich Sutton的对话，抛出了一个极具哲学深度的议题：Animals vs. Ghosts（动物与幽灵）。

Rich Sutton的苦涩教训与动物直觉

Rich Sutton是强化学习教父级人物，他提出了著名的「苦涩教训」（The Bitter Lesson）：

长期来看，只有那些能利用无限算力的通用方法（如搜索和学习）才能战胜那些利用人类先验知识的方法。

简单点说，就是算力终结一切，人类的精巧构思在庞大的算力面前不值一提。

Sutton心目中的AGI是像动物一样的：一个具身的（Embodied）、在物理世界中通过不断试错、由生存本能驱动的学习者。

如果能造出一只「数字松鼠」，我们离AGI就不远了。

动物的智能是连贯的、持续的。一只松鼠不会因为你没给它指令就停止思考，它的「自我」是连续不断的流。

幽灵的诞生：统计学的降灵术

然而，Karpathy反驳道，我们现在造出来的LLM ，根本不是动物。

它们是幽灵（Ghosts）。

无状态的游魂：LLM没有身体，没有持续的意识流。当你按下回车键，它从虚无中醒来（Boot up），处理你的Token ，吐出预测，然后瞬间「死亡」，回到虚无。它没有昨天，也没有明天，只有当下的Context Window（上下文窗口）。

人类的镜像：它们的训练数据不是物理世界的反馈，而是人类互联网的文本残留。它们是人类文明的「统计学蒸馏」。当我们与ChatGPT对话时，我们不是在与一个独立的生物交流，而是在与全人类的语言碎片拼凑成的「英灵殿」对话。

BTW，我真的非常喜欢这个比喻，现在的AI可能还是先知，或者人造之神，但是一个由全人类的语言碎片拼凑成的英灵。

为什么这个比喻如此重要？

因为它解释了为什么现在的AI充满了「恐怖谷」效应。

当一个LLM说「我不想死」时，它不是真的在恐惧（像动物那样肾上腺素飙升），它是在调用训练数据中关于「科幻AI面临毁灭时该说什么」的文本模式。

它在扮演恐惧。

Karpathy认为，我们目前的科研方向并不是在制造更完美的动物，而是在召唤更强大的幽灵。

这是一种全新的智能形态，位于「心智空间」（Space of Minds）的一个完全不同的坐标系上。

这种智能是「参差」的（Jagged），它通晓天文地理（因为它读过维基百科），却可能在数「strawberry」里有几个「r」这种连三岁小孩都会的问题上翻车。

第三章：Vibe Coding

当编程变成了玄学

如果说RLVR是后台的革命，那么Vibe Coding（氛围编码）就是前端开发者的彻底解放。

Karpathy在这个概念上展现了他作为「造词大师」的天赋。

在传统的「软件1.0」时代，程序员是工匠，每一个变量名、每一个内存指针都需要精心雕琢。

在「软件2.0」时代（深度学习），程序员变成了炼丹师，调整权重和数据集。

而在2025年的Vibe Coding时代，程序员变成了产品经理。

语法已死，氛围永生

什么是Vibe Coding？

就是你完全放弃对代码细节的掌控，「把自己交给氛围（Vibes），拥抱指数级增长，甚至忘掉代码的存在」。

你不再逐行编写代码，而是用自然语言描述你的意图（Intent），让AI去生成实现。

如果跑不通？没关系，把报错信息甩回给AI ，说一句「修好它」。

MenuGen实战：零行代码的奇迹

Karpathy为了验证这个理论，亲自上手做了一个叫MenuGen的项目。

这是一个Web应用，用来生成餐厅菜单。

令人震惊的是，作为顶级程序员的Karpathy，在这个项目中没有手写一行代码。

他对着Cursor或ClaudeCode说：「我要一个菜单生成器，要有蓝色的按钮。」

AI生成代码，运行。

如果有Bug，他不说「第5行逻辑错了」，而是说「感觉不太对，按钮太丑了，换个样式」。

这就是Vibe Coding的核心：人类负责审美和验收，AI负责逻辑和实现。

代码变成了一种「中间产物」，就像汇编语言一样，除了极少数底层工程师，没人再需要去读它了。

工具之战：Cursor vs. ClaudeCode

2025年也是AI编程工具的「战国时代」。

Karpathy重点对比了两大流派：

Cursor/Windsurf（IDE派）：

这些工具将AI无缝集成到了VSCode里。它们就像是钢铁侠的战衣（IronManSuit），增强了人类的能力。你依然在写代码，但AI随时在帮你补全、重构、解释。这种体验是「流畅」的。

ClaudeCode（终端派）：

Anthropic推出的ClaudeCode则更加激进。它不是IDE插件，它是一个活在终端（Terminal）里的Agent 。你给它一个任务：「把整个项目的测试覆盖率提高到80%」。然后你就去喝咖啡了。它会自己跑测试、看报错、修代码、提交Git，甚至自己由于权限问题卡住时还会问你讨要权限。

Karpathy坦言，虽然Claude Code展现了Agent的雏形，但在2025年，真正的「全自动工程师」还未到来。

目前的Agent更像是一个勤奋但记性不好的实习生，能干脏活累活，但在面对复杂的大型架构时，依然需要人类的「Vibe」来把控方向。

如果在云端的AI像是住在神殿里的先知，那么Anthropic推出的Claude Code(CC)就像是住在你硬盘里的管家。

Karpathy认为OpenAI走错了路，他们太执着于云端、容器化和ChatGPT的网页入口。

而Claude Code抓住了开发者的痛点：本地化（Localhost）。

第四章：范式转移

GUI的终结与新生

谷歌Gemini Nano Banana是2025年最具颠覆性的范式转移模型之一。

这原本是Gemini图像生成模型的内部代号。

这本该是一个严肃的技术发布，但因为「Nano Banana」这个名字实在太滑稽、太无厘头，它意外地引发了一场全球范围的病毒式传播。

在Karpathy看来，LLM是继1970 、80年代计算机之后的下一个重大计算范式。

人类将见证个人计算、微控制器（认知核心）、互联网（智能体网络）等概念的对应形态。

特别是在用户界面体验方面，与LLM「对话」有点像1980年代向计算机终端输入指令。

文本是计算机（及LLM）偏好处理的原始数据形式，却非人类喜爱的交互格式，尤其在输入层面。人们其实厌恶阅读文字——这过程缓慢且费力。

相反，人类更倾向于通过视觉和空间维度接收信息，这正是传统计算领域发明图形界面的根本原因。

同样地，LLMs应当以我们偏好的格式与我们对话——通过图像、信息图、幻灯片、白板、动画/视频、网页应用等形式。

这一理念的早期及当前版本自然包括表情符号和Markdown这类工具，它们通过标题、加粗、斜体、列表、表格等方式对文本进行视觉化装扮与排版，以便更轻松地消化信息。但究竟由谁来构建LLM的图形用户界面呢？

在这种世界观下，nano banana首次为我们提供了这种可能性的早期雏形。

值得注意的是，它的一个显著特点在于：这不仅仅是图像生成本身，更是文本生成、图像生成与世界知识三者交织于模型权重之中所形成的综合能力。

人们不再讨论参数量、扩散算法，而是疯狂地生成各种「香蕉化」的图像，将万物变成手办风格。

谷歌也顺水推舟，在官方宣传中使用了香蕉Emoji。

由此，Karpathy提出了一个极其深刻的观点：文本是计算机喜欢的格式，不是人类喜欢的。

人类讨厌阅读长篇大论，人类喜欢图表、动画、视频和白板。

参差的智能

人类的智力通常是正相关的：一个能解微积分的人，通常也能算清楚买菜找零。

但AI不同。

它可以是一个数学天才（RLVR让它精通奥数），同时又是一个常识白痴（无法理解简单的物理空间关系，或者数不清单词里的字母）。

这种「参差感」源于模型训练数据的分布不均和Tokenization的先天缺陷。

模型在它「见过」或「被强化过」的领域（如代码、数学）表现出神入化，而在那些因为太简单而从未被当作训练数据的领域（如日常生活中的隐性知识）则表现得像个智障。

系好安全带，在参差中前行

简而言之，2025年是LLMs令人兴奋且略带惊喜的一年，我们站在了一个奇异的十字路口。

Karpathy的年终总结，像是一份来自未来的生存指南。

LLMs正作为一种新型智能形态崭露头角，它们既比人类预期的聪明得多，又比人类预期的笨拙得多。

无论如何，它们都极其有用，Karpathy认为即使以当前能力，行业也远未发掘出它们哪怕10%的潜力。

与此同时，有太多想法值得尝试，从概念上看这个领域仍感觉广阔无垠。

正如今年早些时候在Dwarkesh播客中提到的，Karpathy同时（表面上看似矛盾地）相信：

我们将见证持续快速的发展，同时仍有大量工作亟待完成。

正如Karpathy所言：「这仅仅是个开始，系好安全带，准备启程。」

参考资料：

https://x.com/karpathy/status/2002118205729562949

本文来自微信公众号“新智元”，作者：新智元，编辑：定慧，36氪经授权发布。

本文来自作者[慕梅]投稿，不代表视听号立场，如若转载，请注明出处：https://stddy.com/cskp/202512-67119.html

2 4

本文作者

慕梅签约作者

351 文章

4700008 评论

1 粉丝

我是视听号的签约作者[慕梅],本篇文章《Karpathy 2025年AI终极觉醒：我们还没发挥出LLM潜力的10%》主要讲述了:2025年，注定是人工智能历史上被铭记的一年。如果说2023年是「惊艳」（ChatGPT的横空出世），2024年是「迷茫」（在大模型落地的憧憬中探索），那么在Andrej Ka...

作者专栏

成都中考时间2024年时间表/成都中考时间2021

四川中考时间。年四川乐山中考时间、科目及命题设置如下：考试时间中考时间为：6月12日15日。考试科目2024届初中学业水平考试科目包括：语文、数学、英语、物理、化学、道德与法治、历史、体育与健康，以及2023年已考的地理、生物。命题设置及分值语文、数学、英语：各150分，其中英语含听力考试3

怀绿
2025年06月17日
132
作者专栏

特朗普回应美国被“打耳光” 警告不排除再袭伊核设施

新华社北京6月28日电在伊朗最高领袖阿里·哈梅内伊发表“伊朗给了美国一记耳光”等强硬言论后，美国总统唐纳德·特朗普27日回应称，他当初没有下令袭击哈梅内伊本人，因对方的言论现已不再考虑解除对伊制裁。特朗普还威胁，不排除再次攻击伊朗核设施。伊朗外交部长阿巴斯·阿拉格齐28日说，只有美方停止对哈梅内伊

兴腾mio
2025年06月29日
137
百科栏目

玩家实测“微乐辽宁麻将有没有挂（专用辅牌神器免安装）

这神器绝了呀!微信牌九辅助器(怎么设置能有好牌)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微信牌九辅助器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加微下

吕泽安
2025年09月04日
76
百科栏目

3分钟学会“微信跑得快小程序辅助器（专用辅牌神器免安装）

软件神器超顶流!湖南微乐麻将怎么让系统发好牌(怎么让牌更好)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”湖南微乐麻将怎么让系统发好牌是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神

忆香
2025年09月14日
71
综合

实测分享“微乐划水麻将小程序赢的技巧（专用辅牌神器免安装）

超酷软件神器!微乐陕西挖坑专用神器(神器最新免费)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐陕西挖坑专用神器是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可

怀薇
2025年09月23日
67
常识科普

2025年买什么便宜代步车？五款实测推荐，价格续航配置全讲清楚

2025年买什么便宜代步车？五款实测推荐，价格续航配置全讲清楚。最近想买车的年轻人不少，今天给大家说说今年新出的五款十万元以下车型，都是实测过的，谁需要看谁的。重点说价格、能跑多远、哪方面好用，直接给建议，废话不多说。五菱宏光那个小车改名叫宏光MINIEV2025款了，三万块起步能开走，最贵不到十

怜阳来了
2025年11月03日
43
综合

中国最长的公路，全长超1万公里，它到底长啥样？自驾党必看

文|姑苏九歌编辑|姑苏九歌你知道我国最长的国道是哪条吗？就是那条从广西东兴的中越边境，一路蜿蜒到新疆喀纳斯的中俄蒙交界处，全长10065公里的G219国道。这条道不简单，边上挨着13个邻国，是我国唯一一条超过一万公里的国道。有人算过，真想自驾从头到尾走完，不紧不慢也得100天。修这么长一条路，可

苦卓尚
2025年12月11日
24
作者专栏

全国交警集体“改名”！别小看这2个字，以后不只贴罚单了

从前上路，你最怕“吃罚单”；今后，你或许连“交警”的身影都很少遇见，却能一路绿灯回家——这正是“交警”升级为“交通管理支队”要实现的最终效果。牌子换了，核心不是去掉“警”字，而是把“事后执法”改造成“事前设计”。为什么急着动手？三条账摆在桌面：一是时间账。北上广深的平均通勤已逼近一小时，若堵车再加五

雅静
2025年12月20日
16
常识科普

玩家必备教程“最新6代飞针麻将设备（专用辅牌神器免安装）

这软件超神无敌!白金岛跑胡子竟然有挂(提高胜率办法)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”白金岛跑胡子竟然有挂是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户

闾丘锦灏
2025年08月31日
85
百科栏目

实测教程“能掌控麻将机的小神器场场赢（专用辅牌神器免安装）

软件神器超绝!微乐湖南麻将怎么拿好牌(怎么调胜率)“我们专注于各类软件定制开发，已成功研发高效实用的软件系统。软件定制开发服务用获取专业解决方案。”微乐湖南麻将怎么拿好牌是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户

恽志远
2025年09月17日
69

发表回复

本站作者后才能评论

评论列表（4条）

慕梅 2025年12月22日

我是视听号的签约作者“慕梅”！

回复
慕梅 2025年12月22日

希望本篇文章《Karpathy 2025年AI终极觉醒：我们还没发挥出LLM潜力的10%》能对你有所帮助！

回复
慕梅 2025年12月22日

本站[视听号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
慕梅 2025年12月22日

本文概览：2025年，注定是人工智能历史上被铭记的一年。如果说2023年是「惊艳」（ChatGPT的横空出世），2024年是「迷茫」（在大模型落地的憧憬中探索），那么在Andrej Ka...

回复