Loading...
Loading...

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures
Summary
大型语言模型(LLM)的预训练、微调与评测依赖于输入空间的重建与生成能力。然而,在计算机视觉领域已有观察表明,基于嵌入空间的训练目标(例如联合嵌入预测架构,Joint Embedding Predictive Architectures, JEPAs)远优于基于输入空间的方法。语言与视觉在训练方式上的这种差异引出了一个自然的问题:语言模型的训练方法是否能够从视觉模型中借鉴一些技巧?缺乏 JEPA 风格的 LLM 本身证明了为语言设计此类目标的困难。
在本研究中,我们朝这一方向迈出了第一步,提出了 LLM-JEPA,一种基于 JEPA 的解决方案,可应用于 LLM 的微调与预训练。到目前为止,LLM-JEPA 在多个模型上显著优于标准的 LLM 训练目标,并且对过拟合表现出稳健性。这些结果已在多个数据集(NL-RX、GSM8K、Spider、RottenTomatoes)以及来自 Llama3、OpenELM、Gemma2 和 Olmo 系列的多种模型上得到验证。代码:this https URL。
原文链接:https://arxiv.org/abs/2509.14252
No transcript available for this episode.

Seventy3