高空栈桥坠落其实是AI造假
模型“越狱”数字主播学猫叫
大语言模型、数字人等应用还显露出被“越狱”攻破、被操控等安全隐患。
不久前,Anthropic公司顶尖的大型语言模型(LLM)Claude4Opus被爆出安全漏洞:研究机构的研究者仅用六小时便成功“越狱”该模型,诱导其生成了一份长达15页的化学武器制造指南。业内人士分析,所谓模型越狱,是指通过特殊手段突破AI系统的安全限制,让本该拒绝回答一些内容的AI“破防”输出危险内容,诱导模型输出危险、违规的内容。
网络安全专家分析,这种主播失控事件看似无伤大雅,一旦操控者发出的指令涉及违法违规、违反公序良俗,AI主播就会做出很多跨越红线的事情来。
构建全生命周期防范机制
从滥用技术进行AI造假,到通过技术手段进行模型“越狱”,或是操控智能体使其做出不当言行……这些事件背后,都隐藏着AI时代下不容忽视的安全隐患——“AI投毒”。蚂蚁集团大模型安全专家毛宏亮说,就像给食物下毒会让人生病一样,所谓“AI投毒”,是指有人可能会故意给大模型“喂”错误信息,破坏它正常学习能力,让它学坏或做出错误判断。
除了这种在学习数据中添加误导信息的“语料投毒”方式外,“AI投毒”还有另一种方式,名为“权重文件投毒”。毛宏亮解释道,“权重文件投毒”则是在模型训练完成后,秘密地修改这些重要的数字,导致模型规则改变。带来有偏差结果的同时,这样举动可能造成严重后果,比如在自动驾驶中识别错交通标识、自动生成虚假新闻等。
奇安信集团董事长齐向东建议,应构建贯穿大模型全生命周期的内容安全治理机制,包括对使用过程中的不良内容和异常行为进行监测、审计、拦截与预警,并通过AI安全技术对大模型攻击与异常行为进行实时监测与高效拦截,“用AI对抗AI”。
版权声明:本站所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,不声明或保证其内容的正确性,如发现本站有涉嫌抄袭侵权/违法违规的内容。请举报,一经查实,本站将立刻删除。