Logo
Published on

带思维链的 AI 上限在哪里?

Authors
  • avatar
    Name
    浩森 Hansen
    Twitter

AI 上限的数学证明

之前万维钢在《精英日课6》里有一篇文章讲到思维链,他说,“使用思维链Transformer,可以解决‘一切’数学问题”。

我看了这篇文章中引用资料的论文,仔细阅读了之后,这个说法并不准确。

论文中的原文是:

Taking T to be polynomial in the sequence length, the result suggests that transformers with polynomially many intermediate steps are capable of computing all circuits in with polynomial size, P/poly, a superclass of P.

翻译一下,正确的说法应该是,“可以解决一切P问题的超集”。

另外解释,“P 问题”在计算复杂度理论中的意思是“在我们常见的计算机上,在多项式时间内可解决的问题”。

说明两个点:

  • “常见的计算机”指的是我们的现代计算机,也是“确定性图灵机”。
  • “多项式时间”是指在计算时间可以用多项式表示,即为花费的时间可以用类似于 ax2+bx+cax^2 + bx + c 这样的公式表示,另外,形如指数函数 2x2^x 就不算是多项式。

所以一般来说,P 问题被认为是计算机可以高效解决的问题,例如排序问题。

而另一类问题:“NP-完全”问题就比较复杂,例如旅行商问题,到目前为止,也无法找到高效的解法。

思维链对模型能力的加成

当前的文字生成式 AI 主要还是基于 Transformer 和注意力机制的,例如 GPT、Claude、llama 等。

论文说明,限制大语言模型的,有两个参数:

  • 嵌入规模 (embedding size),类似于模型的“词汇量”的大小。
  • 深度 (depth),类比到模型的“反思”能力。

嵌入规模越大,深度越深,模型处理问题的能力越强。

论文进一步证明,在没有思维链的情况下,模型解决问题的能力受制于模型本身的深度 T,对于过于复杂的问题,模型很可能给出错误的答案。

这与我日常使用 AI 的直觉相符。没有开启思维链的模型,似乎更加“单纯”,会使用它的“直觉”给出答案。就像是小学生上课回答问题,脱口而出错误答案。

而使用了思维链之后,模型不断反思自己的输出,然后在每次输出的基础上再整理、改进,给出更准确的答案。这就好像一个会反思的哲学家,总是要先在脑海里面思考之后再给出回答。

使用了思维链的模型,相当于成倍加深了模型的深度 T*n,而这样的分步处理可以解决更复杂的问题。

也许,家人经常说我“说话不过脑子”,大概也是没有开启“思维链”的原因吧!哈哈。

参考文献