在韦氏智商测试的视角下,若O3的智商确实如传闻般高超,那么其表现堪称卓越。
OpenAI的O3智商水平真的达到了如此高度了吗?
近日,网络上盛传一则帖子,其中提及「OpenAI O3的智商估计值为157」,并附上了一张数据图。
这意味着什么呢?在人类社会中,仅有万分之七点五的人能拥有这样的智商水平。具体地说,大约每13,333个人中才有一个能达到此等高度。
相对而言,GPT-4o的智商为115,o1 preview为123,o1为135,o1 pro为139,而o3 mini则为141。这仿佛构成了一个从低到高的智商阶梯。
更具体地讲,在每六个人中就有一个拥有GPT-4o的智商水平,每十六个人中有一个拥有o1 preview的智商,而o1则每93人中才有一个达到。这些数据像是一个智力分布的统计图谱。
此前有资料整理了GPT-4o与o1 preview、o1、o3在2024年AIME数学竞赛测试中的表现。从最初的13.4到现在的96.7,短短七个月的时间里,它们的数学能力有了飞跃性的提升。
从上述数据来看,AI大模型的进步确实令人惊叹。关于O3的智商,仅仅依赖一张表格数据真的可信吗?
实际上,“Tracking AI”中的O1在门萨智商测试中的结果为133,与先前表格中估计的135相差无几,这在一定程度上验证了O3智商估计的可靠性。
期待未来O3正式发布后,其在门萨智商测试中的表现将更加引人注目。
网友的声音
关于O3的IQ高至如此的说法,引起了广泛的讨论和评论。
有网友质疑:“这张图是我所见过的最愚蠢的东西之一。这些数据根本无法代表智商。他们用编码表现的Z分数来代表智商。编码并非是衡量智商的测试。特别是对于经过训练的大型语言模型(LLM)来说,它们拥有对互联网上所有共享代码的完美记忆能力。O3甚至无法解答我6岁和8岁的孩子能解答的问题。”
也就是说,如果LLM是针对编码测试进行训练的,那么用编码表现分数来代表智商是没有意义的。
另一位网友则认为:“事情并非如此简单。这是一种基于相关性的转换方式。尽管相关性有所欠缺,并且对于这种转换后机器智能的实际效果尚不明确。但不可否认的是,某些人工智能模型可能在编码方面表现出色,而在其他领域则不尽然。”
其他网友指出:“IQ本来就是用来评估人类的指标。它关注的是与智力相关的特定技能。这张图试图通过考虑人工智能擅长的一个方面来假设其广义智能。更令人担忧的是,他们并没有使用真正的智商测试来得出这个结论,而是基于与智商相关的其他指标进行推断。”
总体而言,大多数人对于所谓的“O3智商高达157”的说法持怀疑态度。或许这又是一场无稽的炒作。