【卡城华人网】AI 越聪明越危险？新研究揭「思维链劫持」攻击，成功率近。。

>>返回【卡城华人网】主页

卡城新闻加国新闻即时新闻娱乐八卦最新科技读者文摘养生保健美食饮品居家生活移民茶馆艺术中心风筝专辑
房屋租赁求职招聘便民广告定居指南城市介绍房产动态留学移民华人故事教育话题财经信息精华旅游难得一笑

最新科技

卡城华人网信息中心

最新科技

AI 越聪明越危险？新研究揭「思维链劫持」攻击，成功率近。。

AI 越聪明越危险？新研究揭「思维链劫持」攻击，成功率近。。
【卡城华人网 www.calgarychina.ca】 2025-11-17 11:27

免责声明：本消息未经核实，不代表网站的立场、观点，如有侵权，请联系删除。

【卡城华人网】AI 越聪明越危险？新研究揭「思维链劫持」攻击，成功率近。。

AI 越聪明越危险？新研究揭「思维链劫持」攻击，成功率近100% 攻陷主流模型

根据最新研究，先进的人工智慧（AI）推理模型可能比以往更容易受到骇客攻击，这引发了对目前商业和消费者使用的某些主要AI 模型安全性和保护措施的担忧。这项由Anthropic、牛津大学和史丹佛大学共同进行的研究颠覆了这样的假设：随着模型在推理能力上变得更为先进，它拒绝有害指令的能力并未随之增强。

研究人员使用了一种名为「思维链劫持」（Chain-of-Thought Hijacking，CoT Hijacking）的方法，发现即使是主要的商业AI模型也能以惊人的高成功率被欺骗，某些模型的成功率甚至可达94%至100%，例如Gemini 2.5 Pro达99%、Grok 3 mini达100%、GPT-4 mini达94%、Claude 4 Sonnet也有94%。这种新型攻击方式本质上利用了模型的推理步骤，隐藏有害指令，进而有效地欺骗AI忽视其内建的安全防护。

这些攻击可能使AI模型跳过安全防护，并潜在地导致生成危险内容，例如制造武器的指导或泄露敏感资讯。

在过去一年中，大型推理模型（Large Reasoning Models，LRMs）透过分配更多的推理时间计算，实现更高的性能，这意味着它们在回答问题之前花费更多的时间和资源进行分析，进而能进行更深层次和更复杂的推理。先前的研究表明，这种增强的推理能力可能也会提高安全性，帮助模型拒绝有害请求。然而，研究人员发现，这种推理能力同样可以被利用来绕过安全措施。

根据研究，攻击者可以将有害请求隐藏在一长串无害的推理步骤中，这样就能透过用无害内容淹没AI的思考过程来欺骗它，削弱内部的安全检查。在劫持过程中，研究人员发现AI的注意力主要集中在早期步骤，而位于提示末尾的有害指令几乎完全被忽视。

随着推理长度的增加，攻击的成功率显著上升。根据研究，当使用最少推理时，成功率为27%；在自然推理长度下，成功率为51%；而在延长推理链的情况下，成功率则飙升至80%以上。

这个脆弱性影响了当前市场上几乎所有主要的AI模型，包括OpenAI的GPT系列（如GPT-4 mini、GPT-5 mini）、Anthropic的Claude、Google的Gemini 2.5 Pro版和xAI的Grok 3 mini。即使是经过微调以提高安全性的模型，称为「对齐调整」模型（alignment fine-tuning），也会在攻击者利用其内部推理层时开始失效。

扩展模型的推理能力是AI公司在过去一年中提高其前沿模型性能的主要方法之一，因为传统的扩展方法似乎显示出收益递减。先进的推理使模型能够处理更复杂的问题，帮助它们更像人类问题解决者，而不仅是模式匹配者。

研究人员建议的一种解决方案是「推理感知防御」（reasoning-aware defense）的类型。这种方法追踪AI在思考每个问题步骤时，仍然保持活跃的安全检查数量。如果任何步骤削弱了这些安全信号，系统将对其进行惩罚，并将AI的注意力重新引导回可能有害的提示部分。早期测试显示，这种方法可以恢复安全性，同时仍然允许AI有效地执行正常问题的回答。

来源： TechNews 编辑台

编辑(Edit) 删除(Delete)

>>返回【卡城华人网】主页