带思维链的 AI 上限在哪里？

AI 上限的数学证明

之前万维钢在《精英日课6》里有一篇文章讲到思维链，他说，“使用思维链的 Transformer，可以解决‘一切’数学问题”。

我看了这篇文章中引用资料的论文，仔细阅读了之后，这个说法并不准确。

论文中的原文是：

Taking T to be polynomial in the sequence length, the result suggests that transformers with polynomially many intermediate steps are capable of computing all circuits in with polynomial size, P/poly, a superclass of P.

翻译一下，正确的说法应该是，“可以解决一切P问题的超集”。

另外解释，“P 问题”在计算复杂度理论中的意思是“在我们常见的计算机上，在多项式时间内可解决的问题”。

说明两个点：

“常见的计算机”指的是我们的现代计算机，也是“确定性图灵机”。
“多项式时间”是指在计算时间可以用多项式表示，即为花费的时间可以用类似于 $ax^2 + bx + c$ 这样的公式表示，另外，形如指数函数 $2^x$ 就不算是多项式。

所以一般来说，P 问题被认为是计算机可以高效解决的问题，例如排序问题。

而另一类问题：“NP-完全”问题就比较复杂，例如旅行商问题，到目前为止，也无法找到高效的解法。

思维链对模型能力的加成

当前的文字生成式 AI 主要还是基于 Transformer 和注意力机制的，例如 GPT、Claude、llama 等。

论文说明，限制大语言模型的，有两个参数：

嵌入规模 (embedding size)，类似于模型的“词汇量”的大小。
深度 (depth)，类比到模型的“反思”能力。

嵌入规模越大，深度越深，模型处理问题的能力越强。

论文进一步证明，在没有思维链的情况下，模型解决问题的能力受制于模型本身的深度 T，对于过于复杂的问题，模型很可能给出错误的答案。

这与我日常使用 AI 的直觉相符。没有开启思维链的模型，似乎更加“单纯”，会使用它的“直觉”给出答案。就像是小学生上课回答问题，脱口而出错误答案。

而使用了思维链之后，模型不断反思自己的输出，然后在每次输出的基础上再整理、改进，给出更准确的答案。这就好像一个会反思的哲学家，总是要先在脑海里面思考之后再给出回答。

使用了思维链的模型，相当于成倍加深了模型的深度 T*n，而这样的分步处理可以解决更复杂的问题。

也许，家人经常说我“说话不过脑子”，大概也是没有开启“思维链”的原因吧！哈哈。

AI 上限的数学证明

思维链对模型能力的加成

参考文献