【第472期】LLM-JEPA：大语言模型联结嵌入预测架构

Seventy3：借助NotebookLM的能力进行论文解读，专注人工智能、大模型、机器人算法、crypto方向，让大家跟着AI一起进步。

今天的主题是：

LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures

Summary

大型语言模型（LLM）的预训练、微调与评测依赖于输入空间的重建与生成能力。然而，在计算机视觉领域已有观察表明，基于嵌入空间的训练目标（例如联合嵌入预测架构，Joint Embedding Predictive Architectures, JEPAs）远优于基于输入空间的方法。语言与视觉在训练方式上的这种差异引出了一个自然的问题：语言模型的训练方法是否能够从视觉模型中借鉴一些技巧？缺乏 JEPA 风格的 LLM 本身证明了为语言设计此类目标的困难。

在本研究中，我们朝这一方向迈出了第一步，提出了 LLM-JEPA，一种基于 JEPA 的解决方案，可应用于 LLM 的微调与预训练。到目前为止，LLM-JEPA 在多个模型上显著优于标准的 LLM 训练目标，并且对过拟合表现出稳健性。这些结果已在多个数据集（NL-RX、GSM8K、Spider、RottenTomatoes）以及来自 Llama3、OpenELM、Gemma2 和 Olmo 系列的多种模型上得到验证。代码：this https URL。

原文链接：https://arxiv.org/abs/2509.14252

【第472期】LLM-JEPA：大语言模型联结嵌入预测架构

About this Episode

今天的主题是：

Hosts & Guests

More from Seventy3

【第551期】AgentSkiller：面向通用智能体的全自动大规模合成数据框架

【第550期】AdaptEvolve：基于置信度自适应选择的进化智能体系统

【第549期】EchoJEPA：超声心动图潜在预测基础模型

【第548期】Agyn：基于多智能体协作的自主软件工程系统