现有的零样本检测器,尽管性能卓越,但计算成本高。我们引入了条件概率曲率的概念,以解释LLMs和人类在给定上下文中词汇选择上的差异。
利用这种曲率作为基本度量,这是一种优化的零样本检测器,取代了扰动步骤,采用了更高效的采样步骤。
一、人类和机器在给定上下文中选择词汇的方式不同。
二、条件概率曲率作为检测机器生成文本的新特征,将检测成本降低了两个数量级。
,零样本检测器通常在较短段落上的表现较差,因为这些方法具有统计性质。
由于在处理90个单词以上的段落时表现最佳,而在较短段落上仍能保持较高的检测准确性,但可能不如较长段落那么突出。
例如:AI detection criterion is 2.2392, suggesting that the text has a probability of 90% to be machine-generated.
我们的算法计算出的条件概率曲率值(d值)。这个值表明文本在给定上下文中的词汇选择与人类和机器的选择方式之间的差异。 d值越高,表示文本更可能是机器生成的。反之,d值越低,表示文本更可能是人类撰写的。在此情况下,2.23对应于一个很高的概率,具体为90%的可能性表明该文本是机器生成的。
这意味着AI Detection算法非常确定这个文本不是人类撰写的,而是由AI生成的。
跨领域和语言的鲁棒性,检测器应该能够泛化到不同的领域和语言。