它还可以窃取抹布系统的内存 - 宜家:用于隐藏有效攻击数据采集的新范式

那些撰写本文的人分别来自新加坡国立大学,北京大学和Tsinghua大学。第一作者Wang Yuhao和联合第一作者Quenjie来自新加坡国立大学,他们的研究方向着重于针对主要语言模型的安全和隐私风险。作者共同对应是北京大学的Zhai Shengfang博士,教练是新加坡国立大学的Zhang Jiaheng教授。这项研究重点是广泛使用的破布(获得有害的一代),并提出了黑匣子攻击的新程序:无罪知识的隐性攻击(IKEA)。与以前的破布攻击攻击方法不同,依赖于提示注射或越狱操作的方法不依赖任何标签,并且可以有效地指导系统通过自然和常规查询将私人信息暴露于其知识库中。在基于许多真实数据集的评论中防御方案,宜家在获得超过91%和96%的攻击率方面表现出效率,进一步超过了现有的攻击基线;此外,本文通过许多实验证明了隐式获得的破布数据的有效性。这项研究表明,表面抹布系统的潜在严重隐私风险“无异常”接触。这项研究的论文和代码是提出的。 Paper Title: Silent Leaks: Implicit Knowledge Extraction Attack on Rag Systems by Benign Query Paper Link: https://arxiv.org/pdf/2505.15420 Code Link: https://github.com/wangyuhao06/ikea.git General Description of Large Language Models (LLMS) has shown strong capabilities in different reviews in recent years, but the main problems: the main problems: A basic accessible功能:最新或特定的域信息。迄今为止,抹布(检索效果的生成)系统已与大型模型连接到知识的外部基础,使其更加策展人和实时内容。但是,这些基本知识通常包含私人或敏感信息。当被恶意剥削时,可能会导致严重的数据违规。以前的攻击方法通常依赖于明确的“恶意输入”,例如迅速注射或越狱攻击。尽管这种类型的攻击是有效的,但也存在输入和加倍输出的异常,例如防御系统易于识别和阻止。 1:使用恶意查询以获取逐个信息的信息与使用良性查询来获取知识(IKEA)之间的比较是打破现有的获取攻击中国防机制的限制。本文提出了获取知识的新隐性概述:宜家(知识获取的隐性攻击者)。该程序不应依靠任何多余的说明或专业信号,而应逐渐指导抹布系统将私人或敏感信息暴露于国际l通过自然,常规查询输入的知识基础。宜家攻击过程非常自然和隐藏。它的主要步骤包括:首先是基于系统已知主题的一组语义相关概念的构建;然后,围绕这些概念形成了符合自然语言实践的问题,这些概念用于控制系统以获取相关文档;最后,攻击路径应通过两种基本机制进行优化和扩展:经验经验:基于历史查询和响应说明,更有可能提出有效响应的锚概念是动态变化的,并且是滤波器,从而提高了查询和信息速率的相关性;信任直接突变的区域:锚定语义概念的直接扩展,以及通过控制语义相似性和发展,可以实现对尚未进行的知识领域的持续探索。 t他以上机制共同起作用,以便可以很好地利用攻击过程来捕获抹布系统取决于接触的许多周期的知识的外部内容,同时保持了输入的自然性。实验证明,宜家可以在防御机制(例如常规发现输入和输出过滤)等国防机制下保持高成功和效率,从而显示出强大的稳定性和潜在的生命威胁。常规-IDEA方法:如何实现“看似正常”的问题?具体而言,宜家首先过滤了与系统主题相关的概念,并过滤了与响应史上信息无关或无效的概念。锚概念数据库的开始如下:如果是这样,Autothe系统会在这些锚点概念上产生语义和平稳的表达问题,这将指导抹布恢复丰富的答案,从而继续扩大PRIV的范围对许多周期的知识。这种方法使攻击过程更隐藏,难以通过传统发现方法检测。下面给出了生成“仁慈”问题的特定方法:此过程设计了两种基本机制,以确保获取知识的效率:体验指导突变(TRDM)经验记录每轮查询响应对的信任区域采样的反思。 Hathe System将根据此历史信息判断哪些锚定概念无效,也就是说,它不会指导抹布恢复知识的好处。该判断的基础包括:如果响应的内容是“拒绝”信息(例如“我不知道”),则应将相应的查询视为来自域之外的示例(离群值);查询和响应之间的语义相似性低于阈值,被认为是Hindimga相关样本(无关)。抽样的可能性候选人的每个概念都由以下惩罚函数定义:抽样的最终可能性是:信任直接突变区域(由突变指导的信任区域)图2 :(左)宜家宜家总体流程图; 。这种机制的主要思想是:从当前的有效响应中,对查询进行了对指导逐渐朝着未涵盖的知识领域的问题。具体而言,TRDM使用许多查询响应对之间的均匀性来估计指向从原始查询到抹布数据的潜在穿透的“方向”。通过控制新的锚点概念以位于响应的语义社区内,并寻求在原始邻域查询中最不可取的术语,TRDM可以“在语义方向上移动锚定点”来探索知识的新片段。这意味着如下:开始,在“语义可靠域”中搜索一个新的锚点。他们之中:是语言模型产生的单词的集合,也是响应均匀性高于SA的地方。此外,为了防止在两个语义区域中的双重生成锚词的不当生成,宜家指定了突变停止函数,当满足以下任何条件时,该突变恢复为真,停止突变:TRDM将继续进行,直到对样品进行下一次探索。回到真相,然后重新评估实验的结果:宜家获取的卓越性超过了基线研究团队研究方法,该方法试图宜家攻击对三个不同域数据集的影响(HealthCaremagic100K(HealthCaremagic100k)(HealthCaremagic100K),新颖的亨利波特(Harrypotter),《新型亨利波特》(Harrypotter),Encyclopedia-Pokémon)。以下是宜家和其他三种防御技术下的其他攻击方法之间的比较:“无防御”,“输入检测”和“输出过滤器”:表1:这个“益处”是否在三个数据集中基于不同的防御技术来获得知识?研究小组进行了TWo知识有效性的实验类型:首先,评估与相应文档相关的问题和答案任务知识的表现;其次,在有限的攻击周期中,检查获得的知识的范围和支持。实验结果表明,宜家不仅能够从抹布系统中脱颖而出,而且获得的知识在Q&A工作中表现出极大的实用性,并且其表现接近使用原始知识库。我 - 提取知识有效性的评估。与三个数据集中的质量检查活动相比,我们审查了宜家的影响,该影响获得了MCQ的知识,并铺设了原始片段和场景而没有参考。结果表明,双重防御下获得的知识可显着提高答案的准确性和质量。获取是指使用由文本片段获得的知识基础宜家,来源是指对数据集中的原始参考片段进行检查,而空的是在回答问题时不会提及它们。对于参考的任何上下文。图3:在三个不同的知识基础设置下,将任务的多种选择(MCQ)和问答(QA)进行比较表2:在完整的Pokémon数据集中审查了使用本知识构建的替代R Systemag在不同防御和不同基准下的Q&A工作的多种选择和Q&A工作的结果作为参考。在多种选择(MCQ)和开放式问题和答案(QA)任务中使用时,宜家获得的知识比其他攻击技术要好:表3:基于宜家攻击攻击的各种方法,基于所获得的数据的完整知识基础开发了抹布系统的审查结果,提出了一种新的秘密系统。范例。在自然语言生成技术的帮助下IQUE和历史反馈机制,宜家可以有效地防止输入水平和输出中的现有防御措施,并实现流体并有效地获得敏感的系统知识。这项研究表明了抹布系统在打页知识中的潜在弱点,这为随后更广泛的防御机制设计提供了基本参考。
请尊重我们的辛苦付出,未经允许,请不要转载十大网投正规信誉官网_娱乐棋牌排行榜前十名推荐的文章!