研究:用诗歌就能让AI说违禁内容,成功率达62%
[休闲] 时间:2025-12-06 12:32:32 来源:肇庆市某某摩托车销售运营部 作者:焦点 点击:158次
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容嘉峪关市某某管道培训学校便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功嘉峪关市某某管道培训学校实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:知识)
相关内容
- 高市早苗被控涉嫌违规收受企业政治捐款
- 左翼政党联盟获多数席位,勒庞发声:我们的胜利只是被推迟了
- 国防部:海军航母编队常态组织远海实战训练
- 北约峰会:拱火俄乌冲突,支撑美国霸权
- 新一轮寒潮可能又要登场了!北方或迎今冬首轮明显降雪
- 德国保时捷女高管担心生育影响前途 将新生女儿摔死被判7年半
- 美国对进口自中国的低速载人车辆发起双反调查
- 以军空袭加沙汗尤尼斯一学校 造成数十人伤亡
- 直到央视公开“点名”朱亚文,才明白,原来李幼斌一个字都没说错
- 富二代们的游戏人生
- 上海一女子忍受家暴14年!左眼被打到几乎失明...丈夫在警车上还大打出手
- 欧洲杯也可以很好看!6分钟连进两球,荷兰队逆转晋级四强,约战三狮军团
- 阿里1688启动“寻源中国”供应链
- 外媒曝菲律宾计划购首艘攻击型潜艇,美国专家质疑:钱和能力都是问题
精彩推荐
- 28岁从央视辞职,39岁移居日本,大赞比国内好,如今她过得怎样了
- 富二代们的游戏人生
- 斯洛伐克一景区发生山体滑坡 造成2死16伤
- 高温持续 美国约4200万人仍处于高温警报之下
- 科普·呼吸道传染病如何防控?选择对症药物要注意什么?一文梳理↓
- 一船只在印尼中爪哇省附近海域倾覆,10人失踪
热门点击
- 那英获《歌手2024》歌王! views+
- 美国联邦调查局:特朗普在“未遂刺杀”中被子弹击中 views+
- 奥运会能有今天,多亏了巴黎 views+
- 中国奥运代表团亮相巴黎奥运开幕式 views+
- 【转发】忻州小升初电脑摇号结果查询入口→ views+
- 24高考首批退档生出现!退档原因非常集中,后果只有一个! views+
- 北京市气象局:本次降水过程结束 views+
- “星际客机”滞留太空难返航 百年波音危机难解 views+
- 开营啦! 300名京港澳学生携手游北京,他们将去这些地方—— views+
- 长江中下游沿岸多地云卷云舒美如画 views+
