【第523期】推理模型的思想社会：CoT中的社交与协作行为研究

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

如果你有自己的论文要解读，或者推荐论文，请留言。

今天的主题是：

Reasoning Models Generate Societies of Thought

Summary

大型语言模型已经在多个领域展现出卓越能力，但复杂推理能力背后的机制仍然难以完全解释。近期的一些推理模型在复杂认知任务上明显优于规模相当的指令微调模型，这通常被归因于通过更长的思维链（chain of thought）进行更多计算。

然而，我们的研究表明，推理能力的提升并不仅仅来自更长的计算过程，而是源于一种类似多智能体交互的模拟机制——“思想社会”（society of thought）。这种机制使模型能够在内部产生多种认知视角，并在这些视角之间进行多样化和辩论。这些视角通常表现为具有不同人格特征和领域专长的内部角色。

通过对推理轨迹进行定量分析以及使用机制可解释性（mechanistic interpretability）方法，我们发现像 DeepSeek-R1 和 QwQ-32B 这样的推理模型相比普通指令微调模型，表现出更高的视角多样性。在推理过程中，它们会激活更广泛的冲突信号，这些信号来自具有不同人格特征和专业知识相关特征的内部表示。

这种多智能体结构具体表现为多种对话式行为，例如：

提问与回答（question–answering）
视角转换（perspective shifts）
对冲突观点的协调与整合（reconciliation of conflicting views）

同时还表现出带有社会情绪角色的互动，例如尖锐的来回讨论。这些行为共同构成了一种类似对话的推理过程，从而带来了在推理任务上的准确率优势。

进一步的受控强化学习实验表明：
当基础模型仅仅因为推理准确率而获得奖励时，它们会自然增加这种对话式行为。此外，在微调过程中加入对话式结构（conversational scaffolding），能够使模型的推理能力提升速度快于未加入该结构的基础模型。

这些结果表明，思想的社会化组织有助于更有效地探索解空间。我们认为，推理模型在计算层面上形成了一种与人类群体中的集体智能（collective intelligence）相对应的机制：当多样性被系统性地组织起来时，它能够带来更强的问题解决能力。这也为未来通过多智能体组织结构来利用“群体智慧（wisdom of crowds）”提供了新的研究机会。

原文链接：https://arxiv.org/abs/2601.10825

【第523期】推理模型的思想社会：CoT中的社交与协作行为研究

About this Episode

今天的主题是：

Hosts & Guests

More from Seventy3

【第551期】AgentSkiller：面向通用智能体的全自动大规模合成数据框架

【第550期】AdaptEvolve：基于置信度自适应选择的进化智能体系统

【第549期】EchoJEPA：超声心动图潜在预测基础模型

【第548期】Agyn：基于多智能体协作的自主软件工程系统