Podcast SummaryBV1tew5zVEDfTimestamped

谢赛宁访谈:世界模型之外,也是在寻找一种研究生活

这场 6 小时 44 分钟的马拉松访谈,表面上谈 OpenAI、世界模型、AMI Labs 和 Yann LeCun,深处其实在问:当 AI 研究被产品周期和榜单推着跑时,一个研究者还能怎样重新定义问题、组织人、理解世界。

核心判断

先读这里,再按时间戳跳回原音频。

这期的主线不是“谢赛宁为什么反 OpenAI”,而是他为什么不想把 AI 的下一阶段交给单一公司、单一榜单、单一产品周期来定义。他对 LLM 的态度也不是否定,而是重新定位:LLM 是强大的工具和接口,但不是通往 human-level intelligence 的完整道路。

他心中的世界模型,是能从真实世界连续信号中学习状态、因果、动作后果和规划能力的底座。AMI Labs 的组织想象则是为这条路线找一种新的制度容器:既保留学术式问题定义,又能承接真实世界的数据、算力、伙伴和执行力。

章节学习地图

左侧点击章节,中间展开细化解释;右侧工具箱补充术语、论文、人物和学术系统背景。

关键概念

每张卡都绑定了回听入口,便于把观点放回上下文里理解。

有限游戏

这不是一场“反 OpenAI”的情绪表达

更准确地说,他反对的是 OpenAI 式产品周期、榜单竞争和资源分配逻辑逐渐吞没问题定义能力。OpenAI 早期定义了很多重要问题,但当竞争变成有限游戏,研究就容易被迫追赶而非重新定义方向。

World Model

世界模型不是“能生成视频的模型”

在这期里,世界模型更像一个目标:学习能支持预测、规划、推理和行动的底层状态表征。视频生成模型比纯语言模型向前一步,但若只追求好看的像素,它仍不是终局。

Vision

视觉不是给 LLM 加一个传感器

他把视觉理解为一种通往真实世界的 perspective。语言善于交流,却会压缩掉动力学、空间、因果和动作信息;真正的多模态不能只是让语言模型看图答题。

组织

AMI Labs 要做“World model needs the world”

如果世界模型需要真实世界的数据和参与者,就不能靠一家闭门公司下载互联网来解决。AMI 的组织想象更接近联盟:吸引全球伙伴、真实场景和不同模态的数据一起进入训练回路。

选择

为什么对 Ilya 两次说 no,却对 Yann LeCun 说 yes

第一次是因为 FAIR 更符合他当时的视觉研究路线;第二次是因为他刚开始 NYU 阶段,也还没有现在这些关于生活、世界和 AI 的理解。而 LeCun 给出的世界模型路线与他长期的研究直觉高度重合。

Research Taste

研究品味来自脚手架、探索期和代表作意识

何凯明对他的影响贯穿整期:读文献要抓重点,实验要有脚手架,ablation 要最大化信息量,研究优化的不是平均值,而是代表作的上限。

优先回听

如果只想抓重点,可以从这 8 段开始。

  1. 第一次拒绝 Ilya / OpenAI:对研究方向的选择比 offer 更重要。
  2. “LLM 不会死,但终将凋零”:不是否定 LLM,而是把它从终点改回工具。
  3. 纽约街头视频与多模态:为什么 paper 的形式也应该服务于问题。
  4. 世界模型定义:状态、动作、预测、规划如何连接。
  5. 逃出硅谷叙事:有限游戏如何让公司失去定义问题的能力。
  6. Mastercard 反 Visa 比喻:AMI 想象中的全球联盟结构。
  7. 为什么对 Yann LeCun 说 yes:科学家的 integrity 和共同路线。
  8. 42 与费曼句子的批评:警惕名言变成论文开场的装饰。

人物与术语

ASR 对英文名噪声较大,这里统一成便于阅读的写法。

谢赛宁

受访者。计算机视觉研究者,访谈中强调自己是“普通的那一个”,关注表征学习、视觉、多模态和世界模型。

Yann LeCun / 杨立昆 / 乐昆

被逐字稿多处识别成“央/样/杨丽坤”。在这里是 AMI Labs 的共同创业核心人物,世界模型路线的重要推动者。

Ilya / 伊利娅

两次邀请谢赛宁:一次 OpenAI offer,一次 SSI 成立后邮件邀请。两次都被谢赛宁拒绝。

李飞飞

访谈中称“菲菲老师”。她的自传、个人经历和定义问题的能力,对谢赛宁构成安慰和北极星式影响。

何凯明

贯穿 FAIR/ResNeXt/ConvNeXt/DiT 叙事的关键人物,代表研究品味、实验脚手架和问题抽象能力。

AMI Labs

新实验室/公司。逐字稿称团队约 25 人,刚完成大规模融资,目标不是短期产品榜单,而是建设世界模型路线。

JEPA

逐字稿中常被识别成 JAPA。谢赛宁说自己经历了从质疑、理解到成为 JEPA 的过程。

42

结尾关于宇宙计算机与命运预测的梗,呼应《银河系漫游指南》式的答案。

注意事项

这些限制会影响精确引用和名字识别。

  • 时间戳来自 180 秒左右的音频切片,适合回听定位,但不是逐字级精确时间。
  • ASR 对英文名和术语有明显噪声:Yann LeCun 被识别为“央/样/杨丽坤/乐昆”,OpenAI 被识别为 openI/open eye,JEPA 被识别为 JAPA。
  • 播客里有大量中英夹杂、口语重复和笑声符号;总结已按语义归并,原始逐字稿保留在折叠区。
  • “反 OpenAI”在总结中按语义处理为反对某种产品竞争和有限游戏叙事,不等同于简单敌意。

语音识别完整重磅解构 (6.7 小时全覆盖)

支持实时关键词检索过滤。点击展开可查阅各分段详细文字。