|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
卡城新闻 加国新闻 即时新闻 娱乐八卦
最新科技 读者文摘 养生保健 美食饮品
居家生活 移民茶馆 艺术中心 风筝专辑 房屋租赁 求职招聘 便民广告 定居指南 城市介绍 房产动态 留学移民 华人故事 教育话题 财经信息 精华旅游 难得一笑 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
卡城新闻 加国新闻 即时新闻 娱乐八卦 最新科技 读者文摘 养生保健 美食饮品 居家生活 移民茶馆 艺术中心 风筝专辑 房屋租赁 求职招聘 便民广告 定居指南 城市介绍 房产动态 留学移民 华人故事 教育话题 财经信息 精华旅游 难得一笑 |
| 最新科技 |
 卡城华人网信息中心![]()  最新科技
     ![]()  AI 越聪明越危险?新研究揭「思维链劫持」攻击,成功率近。。
|
|
【卡城华人网 www.calgarychina.ca】  2025-11-17 11:27   免责声明: 本消息未经核实,不代表网站的立场、观点,如有侵权,请联系删除。 |
|
AI 越聪明越危险?新研究揭「思维链劫持」攻击,成功率近100% 攻陷主流模型 根据最新研究,先进的人工智慧(AI)推理模型可能比以往更容易受到骇客攻击,这引发了对目前商业和消费者使用的某些主要AI 模型安全性和保护措施的担忧。这项由Anthropic、牛津大学和史丹佛大学共同进行的研究颠覆了这样的假设:随着模型在推理能力上变得更为先进,它拒绝有害指令的能力并未随之增强。
研究人员使用了一种名为「思维链劫持」(Chain-of-Thought Hijacking,CoT Hijacking)的方法,发现即使是主要的商业AI模型也能以惊人的高成功率被欺骗,某些模型的成功率甚至可达94%至100%,例如Gemini 2.5 Pro达99%、Grok 3 mini达100%、GPT-4 mini达94%、Claude 4 Sonnet也有94%。这种新型攻击方式本质上利用了模型的推理步骤,隐藏有害指令,进而有效地欺骗AI忽视其内建的安全防护。 这些攻击可能使AI模型跳过安全防护,并潜在地导致生成危险内容,例如制造武器的指导或泄露敏感资讯。 在过去一年中,大型推理模型(Large Reasoning Models,LRMs)透过分配更多的推理时间计算,实现更高的性能,这意味着它们在回答问题之前花费更多的时间和资源进行分析,进而能进行更深层次和更复杂的推理。先前的研究表明,这种增强的推理能力可能也会提高安全性,帮助模型拒绝有害请求。然而,研究人员发现,这种推理能力同样可以被利用来绕过安全措施。 根据研究,攻击者可以将有害请求隐藏在一长串无害的推理步骤中,这样就能透过用无害内容淹没AI的思考过程来欺骗它,削弱内部的安全检查。在劫持过程中,研究人员发现AI的注意力主要集中在早期步骤,而位于提示末尾的有害指令几乎完全被忽视。 随着推理长度的增加,攻击的成功率显著上升。根据研究,当使用最少推理时,成功率为27%;在自然推理长度下,成功率为51%;而在延长推理链的情况下,成功率则飙升至80%以上。 这个脆弱性影响了当前市场上几乎所有主要的AI模型,包括OpenAI的GPT系列(如GPT-4 mini、GPT-5 mini)、Anthropic的Claude、Google的Gemini 2.5 Pro版和xAI的Grok 3 mini。即使是经过微调以提高安全性的模型,称为「对齐调整」模型(alignment fine-tuning),也会在攻击者利用其内部推理层时开始失效。 扩展模型的推理能力是AI公司在过去一年中提高其前沿模型性能的主要方法之一,因为传统的扩展方法似乎显示出收益递减。先进的推理使模型能够处理更复杂的问题,帮助它们更像人类问题解决者,而不仅是模式匹配者。 研究人员建议的一种解决方案是「推理感知防御」(reasoning-aware defense)的类型。这种方法追踪AI在思考每个问题步骤时,仍然保持活跃的安全检查数量。如果任何步骤削弱了这些安全信号,系统将对其进行惩罚,并将AI的注意力重新引导回可能有害的提示部分。早期测试显示,这种方法可以恢复安全性,同时仍然允许AI有效地执行正常问题的回答。 来源: TechNews 编辑台 编辑(Edit)     删除(Delete) |
|
|
|
| 版权所有(C), 2002-2026, 卡城华人网中国版 www.calgarychina.ca |
| 版权所有(C), 2002-2026, 卡城华人网中国版 www.calgarychina.ca |