Loading...
Loading...

Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。合作邮箱:zhiwudazhanjiangshi#gmail.com
SKILL-INJECT: Measuring Agent Vulnerability to Skill File Attacks
Summary
LLM 代理正凭借代码执行、工具调用以及近期推出的“代理技能”(agent skills)功能迅速演进。技能插件允许用户通过特定的第三方代码、知识和指令来扩展 LLM 应用。尽管这能将代理能力延伸至新领域,但也导致代理供应链日益复杂,为提示词注入攻击(prompt injection attacks)提供了新的攻击面。
我们认定基于技能的提示词注入是一项重大威胁,并推出了 SkillInject:一个用于评估常用 LLM 代理对通过技能文件实施注入的敏感程度的基准测试。SkillInject 包含 202 个“注入-任务”对,攻击类型涵盖了从显而易见的恶意注入,到隐藏在合法指令中、与上下文相关的隐蔽攻击。
我们在 SkillInject 上对前沿 LLM 进行了评估,同时衡量了其安全性(对有害指令的规避能力)和效用性(对合法指令的遵循能力)。结果显示:
稳健的代理安全将需要上下文感知的授权框架。
原文链接:https://arxiv.org/abs/2602.20156
No transcript available for this episode.

Seventy3