君可知,咱们每天在网上的见闻,有几许是出自AI之手?
除了「小心看!这个男东说念主叫小帅」让东说念主头皮发麻,
信得过的问题是,咱们无法折柳哪些内容是AI生成的。
养大了这些擅长一册肃肃瞎掰八说念的AI,东说念主类靠近的阻碍也随之而来。
(LLM:东说念主与AI之间若何连最基本的信任齐莫得了?)
子曰,解铃还须系铃东说念主。近日,谷歌DeepMind团队发表的一项护士登上了Nature期刊的封面:
护士东说念主员开采了一种名为SynthID-Text的水印决策,可应用于分娩级别的LLM,追踪AI生成的文本内容,使其无所遁形。
论文地址:https://www.nature.com/articles/s41586-024-08025-4
一般来说,文本水印跟咱们平时看到的图片水印是不通常的。
图片不错接管显著的防盗水印,或者为了不影响内容不雅感而只是修改一些像素,东说念主眼发现不了。
但本文添加的水印念念要隐容貌似不太容易。
为了不影响LLM生成文本的质料,SynthID-Text使用了一种新颖的采样算法(Tournament sampling)。
与现存方法比拟,检测率更高,而且大要通过成就来均衡文本色量与水印的可检测性。
若何阐述文本色量不受影响?平直放到自家的Gemini和Gemini Advanced上实战。
护士东说念主员评估了及时交互的近2000万个反应,用户反馈畴前。
SynthID-Text的达成只是修改了采样行动,不影响LLM的锻真金不怕火,同期在推理时的延伸也不错忽略不计。
另外,为了市欢LLM的试验使用场景,护士者还将水印与估量采样集成在所有这个词,使之信得过应用于分娩系统。
大模子的指纹
底下跟小编所有这个词来看下DeepMind的水印有何私有之处。
识别AI生成的内容,现在有三种方法。
第一种方法是在LLM生成的技艺留个底,这在资本和隐秘方面齐存在问题;
第二种方法是过后检测,计较文本的统计特征或者锻真金不怕火AI分类器,运转资本很高,且甘休在我方的数据域内;
而第三种即是加水印了,不错在文本生成前(锻真金不怕火阶段,数据驱动水印)、生成经由中、和生成后(基于裁剪的水印)添加。
数据驱动水印需要使用特定短语触发,基于裁剪的水印一般是同义词替换或插入特殊Unicode字符。这两种方法齐会在文本中留住显著的伪影。
SynthID-Text 生成水印
本文的方规定是在生成经由中添加水印。
下图是圭表的LLM生成经由:根据之前的token计较现时技艺token的概率散播,然后采样输出next token。
在此基础之上,生成水印决策由三个新加入的组件构成(下图蓝色框):当场种子生成器、采样算法和评分函数。
当场种子生成器在每个生澄净象(t)上提供当场种子 r(t)(基于之前的文本token以及水印key),采样算法使用 r(t) 从LLM生成的散播中采样下一个token。
通过这种模式,采样算法把水印引入了next token中(即r(t)和x(t)的联系性),在检测水印的技艺,就使用Scoring函数来筹商这种联系性。
底下给出一个具体的例子:浅近来说即是拿水印key和前几个token(这里是4个),过一个哈希函数,生成了m个向量,向量中的每个值对应一个可选的next token。
然后呢,通过打比赛的模式,从这些token中选出一个,也即是SynthID-Text使用的Tournament采样算法。
如下图所示,拿2^m个token参加m轮比赛(这里为8个token3轮比赛,token可类似),
每轮中的token根据现时轮次对应的向量两两pk,胜者参加下一轮,若是打平,则当场选一个胜者。
以下是算法的伪代码:
水印检测
根据上头的赛制,最终胜出的token更有可能在所有这个词的当场水印函数(g1,g2,...,gm)中取值更高,优配最新消息
是以不错使用底下的Scoring函数来检测文本:
把所有这个词的token扔进所有这个词的水印函数中,终末计较平均值,则带水印的文本频繁应该得分高于无水印的文本。
由此可知,水印检测是一个进程的问题。影响评分函数检测性能的主要要素有两个。
率先是文本的长度:较长的文本包含更多的水印把柄,不错让检测有更多的统计细目性。
第二个要素是LLM本人的情况。若是LLM输出散播的熵异常低(意味着对谈判的教唆险些老是复返透顶谈判的反应),那么锦标赛采样(Tournament)无法遴选在g函数下得分更高的token。
此时,与其他生成水印的决策类似,关于熵较小的LLM,水印的成果会较差。
LLM本人的熵取决于以下几个要素:
模子(更大或更高等的模子频频更细目,因此熵更低);
来自东说念主类反馈的强化学习会减少熵(也称为模式崩溃);
LLM的教唆、温度和其他解码建造(比如top-k采样建造)。
一般来说,加多比赛的轮数(m),不错进步方法的检测性能,并缩短Scoring函数的方差。
然而,可检测性不会跟着层数的加多而无尽加多。比赛的每一层齐使用一些可用的熵来镶嵌水印,水印强度会跟着层数的加深而逐步削弱。本文通过实验细目m=30。
文本色量
作家为非失真给出了由弱到强的明确界说:
最弱的版块是单token非失真,暗示水印采样算法生成的token的平均散播等于LLM原始输出的散播;
更强的版块将此界说彭胀到一个或多个文本序列,确保平均而言,水印决策生成特定文本或文本序列的概率与原始输出的散播谈判。
当Tournament采样为每场比赛成就恰巧两个参赛者时,即是单token非失真实。而若是应用类似的崎岖文掩码,则不错使一个或多个序列的决策不失真。
在本文的实验中,作家将SynthID-Text成就为单序列非失真,这么不错保抓文本色量并提供直快的可检测性,同期在一定进程上减少反应间的千般性。
计较可彭胀性
生成水印决策的计较资本频繁较低,因为文本生成经由仅触及对采样层的修改。
关于Tournament采样,在某些情况下,还不错使用矢量化来达成更高效力,在奉行中,SynthID-Text引起的特殊延伸不错忽略不计。
在大畛域家具化系统中,文本生成经由频繁比之前形色的浅近轮回更复杂。
家具化系统频繁使用speculative sampling来加快大模子的文本生成。
小编曾在将Llama锻真金不怕火成Mamba的著作中,先容过大模子的估量解码经由。
浅近来说即是用原本的大模子蒸馏出一个小模子,小模子跑得快,先生成出一个序列,大模子再对这个序列进行考据,由于kv cache的特点,发现不合适条款的token,不错精确回滚。
这么的作念法既保证了输出的质料,又充分欺诈了显卡的计较能力,固然主要的策画是为了加快。
是以在奉行中,生成水印的决策需要与估量采样相纠合,能力信得过应用于分娩系统。
对此,护士东说念主员建议了两种带有估量采样算法的生成水印。
一是高可检测性水印估量采样,保留了水印的可检测性,但可能会缩短估量采样的效力(从而加多合座延伸)。
二是快速水印估量采样,(当水印是单token非失真时)保留了估量采样的效力,但可能会缩短水印的可检测性。
作家还建议了一个可学习的贝叶斯评分函数,以进步后一种方法的可检测性。当速率在分娩环境中很进攻时,快速带水印的估量采样最灵验。
上图标明,在非失真类别中,关于谈判长度的文本,非失真SynthID-Text提供比Gumbel采样更好的可检测性。在较低熵的建造(如较低的温度)下,SynthID-Text对Gumbel采样的篡改更大。