实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

zhiyongz 2年前 (2024-09-14) 阅读数 215 #人工智能

文章标签实测OpenAI

OpenAI传说中的“草莓”终于正式上线！

不仅可以胜任更复杂的推理任务，在数学、代码和其他科学领域也能解决更难的问题。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

OpenAI这次“无预警发布”震撼了科技圈，o1更是被CEO奥特曼称它为了一种新范式的开始。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

发布之后，各路大神和网友都纷纷用各种问题测试OpenAI o1的表现：

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

还有人进行了花式考验，结果被o1强大的推理能力秀到了。

Q：你的回复中有几个字？ A1：这句话有七个字 A2：一共五个字

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

量子位也进行了一番实测，下面就一起来了解。

推理能力大进化，但还是难敌弱智吧

该说不说，o1虽然在推理能力上取得了很大进步，但面对充满心机的弱智吧问题，还是掉进了人类挖的陷阱。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

当然了，对于正经问题，o1的表现还是很强的，首先看看逻辑推理能力。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

思考这道题时，preview和mini分别用时21秒和14秒，不过从文本上看mini思考得反而更多。

其中还出现了一些西里尔字母乱入，不过对整体影响不大。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

最终，二者也都给出了正确的答案——丙。

值得注意的是，mini（右）的解答当中还出现了修正的过程。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

接下来看下o1在大学数理化题目上的表现。

首先是这道考研数学真题，涉及的知识点是曲面积分、高斯定理等内容：

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

还是分别看下preview和mini的思考，可以看到mini的思考过程大概是preview的简略版，当然速度也快了不少。

不过preview给的思考过程当中再次出现乱入，这次是泰语。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

实际解答过程也是preview比mini更加详细，不过不知道为什么preview用了英文回答。

最后的计算结果化简方式也有所不同，但数值上是相等的，而且也做对了。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

对比4o这边，先偷懒后作弊（调用了代码解释器），结果最后答案还是错的。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

第二道数学题关于概率。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

这道题preview依然是用英语进行了作答，步骤比mini更加详细，当然都是对的。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

而4o的答案前面的过程倒是基本都对，但是最后一步的求解出现了问题，只给出了1这一个解，并且不是本题答案。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

物理方面，这里选择了一道大学物理中的光学题：

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

preview（左）和mini都给出了正确解答，内容也基本一致。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

化学的题目是一道物化题，主要涉及电化学等内容。

这里把AgCl/Ag的标准电极电势作为已知条件一同输入给模型。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

Preview（左）和mini大致的解题思路还是差不多，在计算步骤上有指对运算先后的差别，当然最后的结果还是对的。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

最后一项测试就不再做考试题了，而是看看模型编写代码的能力如何。

这里选择的题目难度非常高，真人的通过率只有14%。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

以下是preview（左）和mini的解题思路：

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

从代码上看，两者核心逻辑相似，但在具体操作上略有区别。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

两套代码均通过了测试，内存消耗也比较接近，而mini给出的代码运行时间更短（38毫秒）。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

o1的编程能力除了用来解题，也可以快速构建出实用的应用程序。

知名AI配音工具ElevenLabs设计部门负责人Ammaar Reshi，就利用o1搭配Cursor Composer，用了不到10分钟的时间制作了一款iOS天气应用。

小数比较还是不会？

测试发现，对于大模型难以答对的名场面——小数比大小，preview（左）和mini都答不对。

甚至preview在思考过程中明明已经提到过9.8比9.11大。

但同时preview在思考过程中表示，9.8和9.11有可能指的是日期，所以做不对也许另一原因。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

针对这个问题，大神谢赛宁也晒出了他的测试结果，发现o1在思考过程中将9.8当成了重力常数，而9.11是一个“意义不明的数字”。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

所以o1可能不是不会，而是把这个问题想复杂了。

为了进一步探究，我们把问题改得具体些，强调一下9.8和9.11都是数字，这下没有了歧义之后就能一次做对了。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

可以看出，提示词的影响还是不小的。

由于o1在内部采用了一些类思维链过程，因此prompt的设计和普通版本也有所区别，OpenAI官方发布了一则提示：

提示词应简单且直接

避免在提示词中使用思维链

使用分隔符让promot更清晰

控制RAG内容的长度

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

回到我们的测试，面对其他几个大模型败北名场面，o1也有不小的进步。

比如在数字母的任务上就有所进化，即使是一串乱打的字母也能数对。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

还有面对经典的“反转诅咒”（即知道A是B却不知道B是A）问题，也终于一次性答对了Mary Lee Pfeiffer（汤姆·克鲁斯的母亲）的儿子是谁。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

One More Thing

关于这次发布的o1，除了各个方面的成绩之外，还有一些其他的发现。

比如前特斯拉自动驾驶负责人、两度进入OpenAI又两度离职的大神Andrej Karpathy发现，o1-mini在被要求证明黎曼猜想的时候出现了拒绝回答的情况，表示大模型“犯懒”依然是一个大问题。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

还有网友说觉得mini的表现比preview好，想问下有没有人知道原因或者有啥看法。

这条消息也把奥特曼吸引了过来，回复了一句“Yes I have one”。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

根据OpenAI内部员工Kevin Lu发布的一则推文来看，mini的性价比确实比preview更高。

根据这张图显示，preview版本论性能比不上尚未公布的满血o1，论经济性又比不上mini。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

顺便提一句，preview版本存在消息数量限制，并且数量是按周进行重置的，几轮测试下来已经快要用尽了。

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解

版权声明

本站所有文章来源于本站原创或网络，如有侵权请联系删除。文章观点并不代表本站观点，请网友自行判断，如涉及投资、理财请谨慎应对！

上一篇：SpaceX再创历史人类完成首次商业太空行走下一篇：比5G快！上海联通宣布开启5G-A体验招募：下行最高3Gbps

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

实测OpenAI最强模型o1：会做大学数理化 但弱智吧依然难解

版权声明

作者文章

实测OpenAI最强模型o1：会做大学数理化但弱智吧依然难解