AI大神Andrej Karpathy 40分钟YC演讲|软件进入3.0时代、2025年开启智能体十年甚至更长
作者:微信文章这两天我被AI大神卡帕西的演讲包围了。
有很多公众号整理并翻译了大佬的精彩发言,乍一看只记住了“自然语言即编程”、“LLM类似软件 3.0 时代的操作系统(LLM OS)”。最近把我学习AI方式又升级了一下,分享在用的方法:AI巨头大佬演讲、采访;新兴AI-founder的播客、blog都值得沉下心,边做笔记边思考,和AI搭子“共学”。
完整看完英文原版视频,连插图都仔细看了,收获非常大,趁热打铁,码字分享。
视频介绍:2025年6月18日,前OpenAI联合创始人、深度学习专家安德烈·卡帕西(Andrej Karpathy) 在YC AI startup school 上发表名为《Software in the era of AI 》的演讲,面向本科生、研究生、博士生等。
视频地址:https://www.youtube.com/watch?v=LCEmiRjPEtQ
一、引言
Software 从 1.0 到 3.0
AK 认为,此刻是一个非常独特且有趣的时间点进入 AI 领域。(an extremely unique and very interesting)根本原因是:software is changing again. it's changing quite fundamentally. 近70 年来,软件本质上没有什么变化。但在过去的几年里,software发生了两次大的变化。
1.0 是代码编程(code)
2.0 是带参数的神经网络(weights),不再是直接编写代码,而是tuning the data sets(调优数据集),and then you're running an optimizer(运行优化器),to create the parameters of this neural net (创建神经网络参数)。神经网络是另一种分类器,like a decision tree(决策树)。
3.0 是自然语言编程。basically your prompts are now programs,and remarkably these prompts are written in english.提示词就是程序。so not only is it a new programming paradigm, it's also remarkable to me that it's in our native language of english.不仅是一种新的编程范式,而且使用英语写的。当年在特斯拉的时候,就见证了代码被吞噬。
总结:1.0 和 2.0 都是「固定功能计算机」3.0 时代的根本性变化是:神经网络变得可编程。i think is a quite fundamental change is that neural networks became programmable with large language models.
提示词(prompt)就是最新的自然语言编程手段。
二、讲讲 LLM 和 Agent
1,How to think about LLMs
与以往的技术革命有什么相同?
类比半导体行业晶圆厂:大语言模型(LLMs)需要巨额资金、技术研发、算力集群支持。“so we're in a world where we have sort of deep tech trees, research and development”(高度集中,烧钱如流水)
从计算机领域出发,相同点和不同点?
从时间节点来看,现在的LLM类似1960年的大型电脑:1960年的电脑都是又贵又大的“笨重铁疙瘩”,从大型电脑-->人手一台笔记本电脑-->人人一部移动手机,现在LLM的“个人电脑”时代还没到呢。类比计算机操作系统(OS):LLM is a new kind of a computer. 不仅关乎到 LLM,还包括所有工具、多模态、以及这一切如何协同。1)LLM≈CPU;2)上下文窗口≈内存。(LLM是地基,上面能跑各种应用。)
从社会资源再造和分配方式来看:
类比公共基础设施:大语言模型(LLMs)像“新时代电力”。OpenAI、谷歌、Anthropic训练的模型≈建设电网系统,我们对模型要求「低延迟、稳定在线可用、输出质量稳定」类似要求电网提供稳定电压。(强调低延迟、长时间稳定可用,GPT 一歇菜,全球瘫痪。)分时系统:有一个很强的体感是,同时请求人数多,就要排队。
从技术普及方式来看,和以往相反:
以往技术先从政府(军事、电力...)和企业开始应用,然后扩散到消费者。LLM最先服务了普通人,例如直接和 ChatGPT 对话:“如何煮鸡蛋?”
2,LLM's Psychology
大语言模型是对人类思维和语言的概率化模拟。产生了类似人的心理,姑且算一种「emergent “psychology”」模拟器的底层原理,依赖自回归 Transformer 架构,根据上一个词,预测下一个词。LLM 的几大硬伤:
1、幻觉。例如 9.11>9.92、锯齿状智能。LLM is kind of a lossy simulation of a savant with cognitive issues(大语言模型是对患有认知障碍的天才的有损模拟)。某些方面是天才,某些方面是白痴。3、只有临时记忆,没有永久记忆。没有真正的学习和记忆能力。
因此,可以把 AI 理解为一个「有缺陷的天才」,我们要同时考虑大语言模型的能力和缺陷,围绕「superhuman」 和「deficits」来设计系统。
3,LLM's opportunities
机会一,partially autonomous(半自动应用)
"I feel like a lot of software will become partially autonomous."(半自动应用)
AK 提到,LLM 的半自动化应用,要思考的几个核心问题(可以当做一个思考清单):
① LLM 能看到人类所有能看到的事物吗?
(Can an LLM "see" all the things the human can?)
② LLM能像人类一样采取所有行动吗?
(Can an LLM "act" all the ways a human can?)
③ 人类如何有效监督这些不完美/会出错的AI系统,并持续参与其中?
(how can a human supervise and stay in the loop?)
④ 传统软件的交互设计如何适配大语言模型?(用 cursor 和 perpelexity 举例子)
AK 还反复强调,要思考如何控制人工智能?(how we keep ai on the leash?)
思路:「AI生成--人工校验--再反馈给 AI 优化」
关键策略:
1)Make this EASY, FAST to win. 验证环节设计简单,快速跑通流程。(比如一键确认、快速标注修改点,先让人能轻松参与进来,证明模式可行。)2)Keep AI “on a tight leash” to increase the probability of successful verification.把 AI “拴紧牵引绳”,提升成功概率。(交给 AI 干的活儿,更加可控,减少修改,提升协同效率)
AK 在特斯拉时期,关于 【the autonomy slider 自主性滑块】的经验教训:
2013 年卡帕西还在特斯拉的时候,首次体验了完全的自动驾驶,曾经他们认为技术已经成熟。当时他用谷歌的眼镜记录下来了这一幕,但12年后的今天,即便能看到很多无人驾驶骑车,背后依然有大量的远程操作和人工介入,这说明操作系统的复杂性远远超过预期。
现阶段的 AI 更适合做“增强人类能力的工具,而不是完全自主的智能体。”Agent 的发展注定是一个长期的过程。this is the decade of agents 我们得谨慎且认真(carefully and be serious here). So 别太焦虑啊!
原文说到:
And so this is the autonomy slider is we can build augmentations or we can build agents. And we kind of want to do a bit of both. 我们既可以打造增强工具,也可以构建agent代理,而理想的状态是两者兼备。
But at this stage, I would say working with falliable LLMs and so on. I would say, you know, it's less iron man robots and more iron man suits that you want to build. 但现阶段,对于尚不完善的大模型技术,我认为,与其追求完全自主的“钢铁侠机器人”,不如专注于构建能够增强人类能力的“钢铁侠战衣”。
It's less like building flashy demos of autonomous agents and more building partial autonomy products. And these products have custom gueies and UIUX. And we're trying to um and this is done so that the generation verification loop of the human is very very fast. 与其说去做那些炫酷的全自动智能体演示,不如说打造“部分自主”的产品。这些产品拥有定制化的图形界面和用户体验设计。我们这样做,是为了让人类的“生成—验证”回路变得极其高效、迅速。
But we are not losing the sight of the fact that it is in principle possible to automate this work. And there should be an autonomy slider in your product, and you should be thinking about how you can slide that autonomy slider and make your product uh sort of um more autonomous over time. 但我们也始终没有忽视这样一个事实:原则上,这些工作是有可能被完全自动化的。你的产品里应该有一个“自主性滑块”,你要思考如何让用户能够调节这个滑块,并且让你的产品随着时间推移,逐步变得更加自主。
But this is kind of how I think there's lots of opportunities in these kinds of products.
How to work with faillble LLM ? ⭐️⭐️⭐️
要避开的误区:
❌ 钢铁侠式机器人(完全自主、全能型 AI agent,极其难实现)
❌ 炫技式的自主智能体 demo(要避开只做表面炫酷、无实际价值的 AI 演示,不解决实际问题不行)
❌ 2027 年实现通用人工智能(不要盲目乐观,技术难度极高,2027 年不可能实现,不切实际的预期会误导开发方向和资源投入)
要聚焦的落地方向:
✅ 钢铁侠战袍盔甲 (人机合作过程中,增强型工具)
✅ 部分自动化产品(人机分工,AI 做AI该做的,人把握关键决策和判断)
✅ 定制化界面和交互体验 (定制界面(GUI)和体验(UI/UX))
✅ 快速生成-验证闭环 (设计 AI快速生成内容-->人类快速验证和调整 的闭环,这个循环的速度至关重要,而瓶颈在于人类验证。AI 生成那么多,我却看不过来。⭐️)
✅ 自主调节机制 (人能调整 AI 参与人物的深度和自动化程度)
Gemini 说:
Karpathy 的核心观点是,未来 AI 应用的竞争,很大程度上是“验证界面”的竞争。谁能设计出最好的 GUI,让用户能够以最快速度、最低认知负荷去“验证”AI 的生成物,谁就能打造出最高效、最受欢迎的人机协作产品。
“生成”正在变成一种廉价的商品化能力,而“高效地验证”,才是产品体验的灵魂。
机会二,Vibe coding(氛围感编程)
not only is there a new type of programming language that allows for autonomy in software ,but also as i mentioned it's programmed in english which is this natural interface and suddenly everyone is a programmer because everyone speaks natural language like english.
你不用懂计算机编程语言,只用“大白话”把想做的事情告诉大语言模型,就能快速做出一个应用。现在每个人都是程序员。
没想到,和 AK 大神有相似的感受,自然语言编码个人快速搭建 APP demo 是非常快的,反而是「不熟、测试、运维」这些和代码没关系的事情,变得复杂了。这些繁琐的工作,能不能让 Agent 来做?(后面接着聊)
Gemini 说:
“Vibe Coding”不仅是一种新的编程方式,更是一种新的创造哲学。它将软件开发的重心从“如何实现”的语法和逻辑,转移到了“创造什么”的创意和意图上。这预示着一个全民创造软件的时代的到来。
编程变得简单了,但其他事情还是很复杂。(AK 简直太聪明了!)
4,Build for agents
there's people spirits on the internet and they need to interact with our software infrastructure like can we build for them it's a new thing.
AK 列举了几种方便LLM 理解和执行命令的手段:
文档读取:提供 markdown 格式的文件,方便 LLM 理解。点击行为:click->curl命令MCP 协议GitHub 代码 转化
总结:一切的目的,都是为了让原来的操作系统更好地适应LLM,改造成 LLM 能理解的样子。
Gemini说:
1. 指令的“不可执行性”:从“给人看”到“给机器执行”
现状(对人不友好): 我们的教程和文档里充满了这样的指令:“请点击右上角的‘登录’按钮”,或者“拖拽文件到这个窗口上传”。AI 的困境: AI 代理没有眼睛,也没有鼠标。它无法理解“右上角”这个空间概念,更无法执行“点击”或“拖拽”这种物理动作。它能理解和执行的是代码。改造方向(对代理友好): 正如 Karpathy 演示的,要把“点击这里”的超链接,升级为旁边附带一个可以直接复制执行的 curl API 命令。文档应该从一本“说明书”变成一个“可执行脚本”。
2. 信息的“非结构化”:从“给人看懂”到“给机器读懂”
现状(对人不友好): 一个餐厅网站,为了美观,可能会把营业时间、地址、菜单用很漂亮的图片和艺术字体来展示。人类一眼就能看懂。AI 的困境: AI 代理看到的是一堆
标签和复杂的 CSS 样式。它很难从中准确、稳定地提取出“地址:XX路XX号”或“营业时间:9:00-22:00”这样的结构化数据。网站一改版,之前的爬虫规则就失效了。改造方向(对代理友好): 除了给人类看的漂亮网页,还应该提供一个给机器读的 API 接口或专门的 Markdown (.md) 页面。在这个页面里,所有信息都以清晰的键值对("address": "XX路XX号")或标准格式呈现。这样,AI 就能 100% 准确地获取信息。
“为代理而构建”的核心思想,就是把 AI 代理当作我们网站和服务的“一等公民”来看待,而不仅仅是一个爬虫或潜在的攻击者。这意味着,除了提供给人看的“前端”界面,我们还需要为 AI 设计和提供一个稳定、清晰、机器可读的“后端”接口。
三、学习检验
我把 YouTube视频链接发给Gemini2.5pro,让它给我出 10 个题目,检验我的理解程度和学习成果。这是 AI 给我出的考题,你别说,还真有一点考试的紧张感。
1. Andrej Karpathy 将软件发展划分为 Software 1.0、2.0 和 3.0。您认为,从 2.0(以数据和优化器为核心的神经网络)到 3.0(以自然语言编程的大模型为核心)的转变,最本质的区别是什么?这仅仅是编程工具的改变吗?2. Karpathy 将 LLM 类比为“操作系统”(Operating System)。这个类比的巧妙之处在哪里?如果 LLM 真的是下一代操作系统,那么运行在它之上的“应用程序”会是什么形态?3. Karpathy 花了不少时间讨论 LLM 的“认知缺陷”,比如幻觉 (Hallucination)、顺行性遗忘 (Amnesia) 等。他为什么特意强调这些“缺点”?这对于我们设计和使用 AI 应用有什么重要的启示?4. Karpathy 提出的“部分自主应用”(Partially Autonomous Applications)和“自主性滑动条”(autonomy slider)概念,正是为了解决我们刚才讨论的问题。您如何理解这个“滑动条”的设计?在什么场景下我们应该把它推向“高自主性”,在什么场景下又必须让它处于“低自主性”?5. Karpathy 强调,这个协作过程的核心是一个“生成-验证”循环(AI 生成,人来验证),并且这个循环的速度越快越好。您认为,要如何设计产品才能极致地加速这个“验证”环节?为什么一个好的 GUI(图形用户界面)在其中扮演了不可或缺的角色?6. Karpathy 创造了一个很有趣的词,叫“Vibe Coding”。您如何理解这个词?它描述的是一种怎样的编程体验?这种体验的普及,可能会对软件行业和开发者社区带来哪些深远的影响?7. 在视频的后半部分,Karpathy 提出了一个新颖的观点:“为代理而构建”(Building for Agents)。这具体指的是什么?为什么我们现有的网站、API 和数字基础设施,对于 AI 代理来说是“不友好”的?8. Karpathy 在视频中将 LLM 的发展类比为“芯片制造”(fabs)。您认为这个类比想要揭示 AI 领域的什么深层趋势?9. 既然基础大模型(LLM)的发展如此依赖资本和资源,看起来像是巨头的游戏。那么对于创业公司或后来的开发者来说,竞争和创新的机会在哪里?我们该如何与这些“AI 操作系统”或“AI 芯片厂”共存甚至超越它们?10. 在您看来,未来 5-10 年,我们今天讨论的这些变革(软件3.0、Vibe Coding、AI 代理等),将最先在哪些行业或领域掀起最彻底的颠覆?为什么?
四、学习工具
1. YouTube 视频,打开「沉浸式翻译」插件,接入【gemini-2.5-flash-lite-preview-06-17】模型来翻译;2. ListenHub(国产NotbookLM-AI播客),复制 YouTube 链接,一键生成播客,16 分钟快速捋一遍重点信息。卡帕西:LLM驱动软件3.0,编程范式巨变 (点击可以听,16 分钟)3. Dia浏览器(AI原生浏览器),上下文交互做的很好,可以针对整个视频进行追问。例如:1)我会让 Dia 帮我找出来 AK 对“自主滑块”的原文解释。
2)如果 Dia 说的我不太可信,需要自主判断,我一般会质疑它,和它battle 几轮,比如,我问它,有一些观点是AK在视频中的思想还是它自己的想法呢?4. Gemini 2.5pro(多模态理解能力强的可怕),今天把它当学习搭子了。Gemini 出题,我回答。这是我们的对话内容
我想彻底搞懂这个视频中最有价值的观点和分析 AI 领域进展的思路,你给我出 10 个题目,我们一个一个讨论
第一次这么认真学完一支 YouTube 视频,
很开心!而且对AI Agent 不焦虑了,
这是一项至少值得投入 10 年的事情,
尽管 10 年内可能风云变化,潮起潮落。
作为一名AI产品经理,要持续关注:
模型能力进化趋势、外溢程度、“天才的缺陷”、新的交互形态、前后端系统设计...
加油加油加油!
以上,如果你看到这里,觉得有用,随手点个赞、在看、转发一键三连吧,如果想第一时间看到最近有价值的 AI 认知和心得分享,欢迎关注我!并🌟标,你的支持就是我创作的最大动力~
下期再会!
页:
[1]