强化学习成帮凶,抗争舛误LLM有了新要领
2025-03-07剪辑:Panda 事物齐有多面性,正如水,既能载舟,亦能覆舟,还能煮粥。强化学习亦然如斯。它既能匡助 AlphaGo 打败顶级围棋棋手,还能匡助 DeepSeek-R1 得回刚劲的推贤慧商,但它也可能被坏心使用,成为舛误 AI 模子的过劲火器。 近日,威斯康星大学麦迪逊分校的一个接头团队发现,不错通过强化学习对模子抓行有用的黑盒灭绝舛误(Black-Box Evasion Attacks)。接头团队暗示:「从安全角度来看,这项使命展示了一种刚劲的新舛误序论,即使用强化学习来有用且大界限地舛误机