【第565期】语言统计对称性塑造模型表示几何

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你想要解读自己的论文，获得更多曝光度。请联系小助手微信：seventy3_podcast 加群。合作邮箱：zhiwudazhanjiangshi#gmail.com

今天的主题是：

Symmetry in language statistics shapes the geometry of model representations

Summary

语言模型所学习到的内部表示始终展现出令人惊叹的几何结构：日历月份排列成一个圆环，历史年份形成一条光滑的一维流形，而城市的经纬度则可以通过线性探测（linear probe）解码出来。

为了解释这种神经编码，我们首先展示了语言统计学表现出的平移对称性（例如，任意两个月份在文本中共同出现的频率，仅取决于它们之间的时间间隔）。我们证明了这种对称性主导了高维词嵌入模型中的几何结构，并解析地推导出了词表示的流形几何。

这些预测在经验上与大规模文本嵌入模型和大型语言模型相吻合。此外，即使在相关统计数据受到干扰（例如，删除所有两个月份共同出现的句子）的情况下，这种表示几何在适中的嵌入维度下依然存在。我们证明，当共现统计受底层隐变量控制时，这种鲁棒性会自然产生。这些结果表明，表示流形具有一个普遍的起源：即自然数据统计中的对称性。

原文链接：https://arxiv.org/abs/2602.15029

【第565期】语言统计对称性塑造模型表示几何

About this Episode

今天的主题是：

Hosts & Guests

More from Seventy3

【第564期】Trace-Free+：课程学习驱动的LLM智能体工具接口优化归纳

【第563期】贝叶斯教学：提升大语言模型的概率推理能力

【第562期】ActionEngine：状态机驱动的程序化GUI智能体

【第561期】AgentConductor：强化学习驱动的多智能体代码生成拓扑演化