9/30/2025, 5:40:28 PM
AI 基础设施专家 Tri Dao 深度剖析 AI 硬件竞争格局、模型架构创新、推理成本下降百倍秘诀,并展望 AI 达到专家水平的未来挑战与机遇。
本期播客邀请到 Flash Attention 和 Mamba 的主要作者、Together 首席科学家 Tri Dao,深入探讨了 AI 领域的最新进展与未来趋势。他首先揭示了过去三年 AI 推理成本暴降百倍的深层原因,指出 Flash Attention 等算法优化和 4-bit 量化技术在解决数据移动瓶颈方面的关键作用。Tri Dao 分享了 AI 编程助手(如 Claude Code 和 GPT-4o)如何将他的编程效率提升 1.5 倍的亲身经验,强调了 AI 在底层 GPU 内核编写和宏观优化中的巨大潜力。在模型架构方面,他认为未来将重点探索专家混合模型(MOE)的极致稀疏化和 Mamba 等状态空间模型,以在更低成本下实现更高的智能。播客还讨论了 AI 硬件市场的竞争格局,预测推理市场将走向多样化,并强调智能体(Agent)工作负载将成为下一波杀手级应用,对系统级连接外部工具提出新挑战。Tri Dao 认为,如何让 AI 掌握专业工具和深度知识,达到人类专家水平,是未来 AI 发展最具经济价值的挑战。此外,他还探讨了学术界与工业界在 AI 探索与应用中的不同角色,以及开源模型与闭源模型差距缩小的趋势。