谢赛宁 7 小时访谈总结

核心判断

先读这里，再按时间戳跳回原音频。

这期的主线不是“谢赛宁为什么反 OpenAI”，而是他为什么不想把 AI 的下一阶段交给单一公司、单一榜单、单一产品周期来定义。他对 LLM 的态度也不是否定，而是重新定位：LLM 是强大的工具和接口，但不是通往 human-level intelligence 的完整道路。

他心中的世界模型，是能从真实世界连续信号中学习状态、因果、动作后果和规划能力的底座。AMI Labs 的组织想象则是为这条路线找一种新的制度容器：既保留学术式问题定义，又能承接真实世界的数据、算力、伙伴和执行力。

章节学习地图

左侧点击章节，中间展开细化解释；右侧工具箱补充术语、论文、人物和学术系统背景。

关键概念

每张卡都绑定了回听入口，便于把观点放回上下文里理解。

有限游戏

这不是一场“反 OpenAI”的情绪表达

更准确地说，他反对的是 OpenAI 式产品周期、榜单竞争和资源分配逻辑逐渐吞没问题定义能力。OpenAI 早期定义了很多重要问题，但当竞争变成有限游戏，研究就容易被迫追赶而非重新定义方向。

World Model

世界模型不是“能生成视频的模型”

在这期里，世界模型更像一个目标：学习能支持预测、规划、推理和行动的底层状态表征。视频生成模型比纯语言模型向前一步，但若只追求好看的像素，它仍不是终局。

Vision

视觉不是给 LLM 加一个传感器

他把视觉理解为一种通往真实世界的 perspective。语言善于交流，却会压缩掉动力学、空间、因果和动作信息；真正的多模态不能只是让语言模型看图答题。

组织

AMI Labs 要做“World model needs the world”

如果世界模型需要真实世界的数据和参与者，就不能靠一家闭门公司下载互联网来解决。AMI 的组织想象更接近联盟：吸引全球伙伴、真实场景和不同模态的数据一起进入训练回路。

选择

为什么对 Ilya 两次说 no，却对 Yann LeCun 说 yes

第一次是因为 FAIR 更符合他当时的视觉研究路线；第二次是因为他刚开始 NYU 阶段，也还没有现在这些关于生活、世界和 AI 的理解。而 LeCun 给出的世界模型路线与他长期的研究直觉高度重合。

Research Taste

研究品味来自脚手架、探索期和代表作意识

何凯明对他的影响贯穿整期：读文献要抓重点，实验要有脚手架，ablation 要最大化信息量，研究优化的不是平均值，而是代表作的上限。

优先回听

如果只想抓重点，可以从这 8 段开始。

第一次拒绝 Ilya / OpenAI：对研究方向的选择比 offer 更重要。
“LLM 不会死，但终将凋零”：不是否定 LLM，而是把它从终点改回工具。
纽约街头视频与多模态：为什么 paper 的形式也应该服务于问题。
世界模型定义：状态、动作、预测、规划如何连接。
逃出硅谷叙事：有限游戏如何让公司失去定义问题的能力。
Mastercard 反 Visa 比喻：AMI 想象中的全球联盟结构。
为什么对 Yann LeCun 说 yes：科学家的 integrity 和共同路线。
42 与费曼句子的批评：警惕名言变成论文开场的装饰。

人物与术语

ASR 对英文名噪声较大，这里统一成便于阅读的写法。

谢赛宁

受访者。计算机视觉研究者，访谈中强调自己是“普通的那一个”，关注表征学习、视觉、多模态和世界模型。

Yann LeCun / 杨立昆 / 乐昆

被逐字稿多处识别成“央/样/杨丽坤”。在这里是 AMI Labs 的共同创业核心人物，世界模型路线的重要推动者。

Ilya / 伊利娅

两次邀请谢赛宁：一次 OpenAI offer，一次 SSI 成立后邮件邀请。两次都被谢赛宁拒绝。

李飞飞

访谈中称“菲菲老师”。她的自传、个人经历和定义问题的能力，对谢赛宁构成安慰和北极星式影响。

何凯明

贯穿 FAIR/ResNeXt/ConvNeXt/DiT 叙事的关键人物，代表研究品味、实验脚手架和问题抽象能力。

AMI Labs

新实验室/公司。逐字稿称团队约 25 人，刚完成大规模融资，目标不是短期产品榜单，而是建设世界模型路线。

JEPA

逐字稿中常被识别成 JAPA。谢赛宁说自己经历了从质疑、理解到成为 JEPA 的过程。

42

结尾关于宇宙计算机与命运预测的梗，呼应《银河系漫游指南》式的答案。

注意事项

这些限制会影响精确引用和名字识别。

时间戳来自 180 秒左右的音频切片，适合回听定位，但不是逐字级精确时间。
ASR 对英文名和术语有明显噪声：Yann LeCun 被识别为“央/样/杨丽坤/乐昆”，OpenAI 被识别为 openI/open eye，JEPA 被识别为 JAPA。
播客里有大量中英夹杂、口语重复和笑声符号；总结已按语义归并，原始逐字稿保留在折叠区。
“反 OpenAI”在总结中按语义处理为反对某种产品竞争和有限游戏叙事，不等同于简单敌意。

语音识别完整重磅解构 (6.7 小时全覆盖)

支持实时关键词检索过滤。点击展开可查阅各分段详细文字。