人工智能在真理和正确性方面有很大的问题,而人类的思维似乎是这个问题的很大一部分。新一代人工智能现在开始采用更具实验性的方法,这可能会使机器学习远远超过人类。
还记得Deepmind的AlphaGo吗?它代表了人工智能发展的一个根本性突破,因为它是第一批不接受人类指令、不阅读规则的可玩游戏的人工智能之一。
相反,它使用了一种叫做“自我游戏强化学习”的技术来建立自己对游戏的理解。在数百万甚至数十亿的虚拟游戏中进行纯粹的试验和错误,开始时或多或少随机地使用任何可用的杠杆,并试图从结果中学习。
在2014年该项目启动的两年内,AlphaGo以5比0击败了欧洲围棋冠军,到2017年,它击败了世界排名第一的人类棋手。
此时,Deepmind在国际象棋领域推出了一个类似的AlphaZero模型,在那里,深蓝(Deep Blue)等模型接受了人类思维、知识和规则集的训练,自上世纪90年代以来一直在击败人类大师。AlphaZero与人工智能卫冕冠军Stockfish进行了100场比赛,赢了28场,其余比赛打成平手。
人类的思维给人工智能踩了刹车
Deepmind开始主导这些游戏 —— 以及shoji、Dota 2、星际争霸II和许多其他游戏 —— 当它放弃了模仿人类是获得好结果的最佳方式的想法时。
与我们不同,这些电子大脑受到不同的限制,拥有不同的天赋,它们被赋予了自由,以自己的方式与事物互动,发挥自己的认知优势,并建立自己对什么有效、什么无效的基本理解。
AlphaZero不像Magnus Carlssen那样懂象棋。它从来没有听说过女王的Gambit,也没有研究过伟大的大师。它只是下了一大堆的国际象棋,并建立了自己的理解,以一种不人道和不可思议的语言,它创造了自己的胜利和失败的冷酷硬逻辑。
因此,它比任何人类训练的模型都要好得多,这是绝对肯定的:如果另一方有一个高级强化学习代理,那么没有一个人类,没有一个用人类思维训练的模型在国际象棋比赛中有机会。
据比地球上任何人都更了解真相的人说,类似的事情是最新、最伟大的ChatGPT版本刚刚开始发生的事情。
OpenAI的新o1模型开始偏离人类思维
ChatGPT和其他大型语言模型(LLM)人工智能,就像那些早期的国际象棋人工智能一样,已经接受了尽可能多的人类知识的训练:我们物种的全部书面输出,或多或少。
他们已经变得非常非常好了。所有这些关于他们是否会实现人工智能的废话 … 天哪,你能想象一个人类在能力上能与GPT-4o竞争吗?
但LLM专攻的是语言,而不是对或错的事实。这就是为什么他们会“产生幻觉” —— 或者胡扯 —— 用措辞优美的句子给你错误的信息,听起来像新闻主播一样自信。
语言是一个奇怪的灰色地带的集合,很少有一个答案是100%正确或错误的,所以LLM通常使用强化学习和人类反馈来训练。也就是说,人类会选择听起来更接近他们想要的答案。但事实、考试和编码 —— 这些东西确实有明确的成功/失败条件;要么你猜对了,要么你猜错了。
这就是新的o1模型开始脱离人类思维的地方,并开始引入AlphaGo那种极其有效的方法,即纯粹的试错法,以追求正确的结果。
o1在强化学习方面迈出的小步
在很多方面,o1和它的前辈差不多 —— 除了OpenAI在开始回答提示之前建立了一些“思考时间”。在这段思考时间里,o1产生了一个“思维链”,在这个思维链中,它考虑并推理出解决问题的方法。
这就是强化学习方法的作用所在 —— 与之前的模型不同,前者更像是世界上最先进的自动补全系统,它真的“关心”事情是对是错。通过部分训练,这个模型被赋予了在其思维推理链中以随机试错方法解决问题的自由。
它仍然只有人类生成的推理步骤可供借鉴,但它可以自由地随机应用这些步骤,并得出自己的结论,以何种顺序,哪些步骤最有可能让它得到正确答案。
从这个意义上说,这是第一个真正开始创造奇怪但超级有效的AlphaGo式问题空间“理解”的LLM。在它现在超越博士水平的能力和知识的领域,它基本上是通过尝试和错误,通过数百万次自我生成的尝试偶然找到正确的答案,并通过建立自己的理论来判断哪些是有用的推理步骤,哪些不是。
因此,在有明确的正确和错误答案的话题中,我们现在开始看到这种“外星智慧生物”用自己的双脚迈出了第一步。如果游戏世界是现实生活的一个很好的类比,那么朋友们,我们知道事情的发展方向。只要有足够的能量,它就能永远加速。
但o1的主要训练对象仍然是人类语言。这与真理非常不同 —— 语言是对现实的粗糙和低分辨率的表现。这么说吧:你可以整天向我描述一种饼干,但我不会尝它的味道。
那么,当你停止描述物理世界的真相,让人工智能去吃点饼干时,会发生什么呢?我们很快就会找到答案,因为嵌入机器人身体的人工智能现在开始建立自己对物理世界如何运作的基本理解。
人工智能通往终极真理的途径
从牛顿、爱因斯坦和霍金粗陋的人类思维中解脱出来,具身的人工智能将采取一种奇特的AlphaGo风格的方法来理解世界。他们会戳戳现实,观察结果,用自己的语言建立自己的理论,解释什么有效,什么无效,以及为什么有效。
它们不会像人类或动物那样接近现实。它们不会使用像我们这样的科学方法,也不会把事物分成像物理和化学这样的学科,也不会进行同样的实验,这些实验帮助人类掌握了周围的材料、力量和能源,并统治了世界。
被赋予这种学习自由的具身人工智能将会非常怪异。它们会做你能想到的最奇怪的事情,原因只有它们自己知道,在这样做的过程中,它们会创造和发现人类永远无法拼凑在一起的新知识。
从我们的语言和思维中解脱出来,它们甚至不会注意到它们突破了我们知识的界限,发现了宇宙的真相和新技术,这些是人类在10亿年内都不会偶然发现的。
我们在这里得到了一些缓刑;这不会在几天或几周内发生,不像LLM世界里发生的很多事情。
现实是我们所知道的最高分辨率的系统,也是真理的最终来源。但它的数量非常多,而且处理起来也非常缓慢;与模拟不同的是,现实要求你以每分钟一分钟的缓慢速度进行操作,而且你只能使用你实际建造的身体数量。
因此,试图从基本现实中学习的具身人工智能,最初不会像基于语言的前辈那样拥有惊人的速度优势。但它们仍将比进化速度快得多,因为它们有能力在群体学习中将自己的学习成果汇集到合作群体中。
特斯拉(Tesla)、图灵(Figure)和Sanctuary AI等公司正狂热地致力于打造具有商业价值和成本竞争力的类人机器人。一旦他们实现了这一点 —— 如果他们实现了这一点 —— 他们将能够制造出足够多的机器人,开始在对物理世界的基础上,在规模和速度上进行反复试验。
不过,他们需要支付自己的费用。想想都很有趣,但这些类人可能会在工作之余学会掌控宇宙。
OpenAI的o1模型可能看起来不像是一个巨大的飞跃,坐在GPT单调的文本服装中,看起来就像另一个隐形的终端打字员。但这确实是人工智能发展的一个步骤,也是这些外星机器最终将如何以各种可能的方式超越人类的短暂一瞥。