坠落视频实为造假诱导模型危险作答 AI时代须防范技术滥用

2025-09-13 09:19:07• bianchengjichu • 阅读 887

高空栈桥坠落其实是AI造假

模型“越狱”数字主播学猫叫

大语言模型、数字人等应用还显露出被“越狱”攻破、被操控等安全隐患。

不久前，Anthropic公司顶尖的大型语言模型（LLM）Claude4Opus被爆出安全漏洞：研究机构的研究者仅用六小时便成功“越狱”该模型，诱导其生成了一份长达15页的化学武器制造指南。业内人士分析，所谓模型越狱，是指通过特殊手段突破AI系统的安全限制，让本该拒绝回答一些内容的AI“破防”输出危险内容，诱导模型输出危险、违规的内容。

网络安全专家分析，这种主播失控事件看似无伤大雅，一旦操控者发出的指令涉及违法违规、违反公序良俗，AI主播就会做出很多跨越红线的事情来。

构建全生命周期防范机制

从滥用技术进行AI造假，到通过技术手段进行模型“越狱”，或是操控智能体使其做出不当言行……这些事件背后，都隐藏着AI时代下不容忽视的安全隐患——“AI投毒”。蚂蚁集团大模型安全专家毛宏亮说，就像给食物下毒会让人生病一样，所谓“AI投毒”，是指有人可能会故意给大模型“喂”错误信息，破坏它正常学习能力，让它学坏或做出错误判断。

除了这种在学习数据中添加误导信息的“语料投毒”方式外，“AI投毒”还有另一种方式，名为“权重文件投毒”。毛宏亮解释道，“权重文件投毒”则是在模型训练完成后，秘密地修改这些重要的数字，导致模型规则改变。带来有偏差结果的同时，这样举动可能造成严重后果，比如在自动驾驶中识别错交通标识、自动生成虚假新闻等。

奇安信集团董事长齐向东建议，应构建贯穿大模型全生命周期的内容安全治理机制，包括对使用过程中的不良内容和异常行为进行监测、审计、拦截与预警，并通过AI安全技术对大模型攻击与异常行为进行实时监测与高效拦截，“用AI对抗AI”。

坠落视频实为造假 诱导模型危险作答 AI时代须防范技术滥用

相关推荐

友情链接

坠落视频实为造假诱导模型危险作答 AI时代须防范技术滥用