老男人 > 科技 > 正文

测试了9家大模型，做不出一道小学奥数题

2023-09-12 12:43:10 发布人：hao333 阅读( 2577)

作者丨黄泽正、贾紫璇、王露、王满华在生成式AI席卷各行各业之前，现在的大模型，连一道小学奥数题都还做不出来。近日，百度、智谱、百川、字节、商汤、中科院、Mini...

测试了9家大模型，做不出一道小学奥数题

作者丨黄泽正、贾紫璇、王露、王满华

在生成式AI席卷各行各业之前，现在的大模型，连一道小学奥数题都还做不出来。

近日，百度、智谱、百川、字节、商汤、中科院、MiniMax、上海人工智能实验室等8个企业/机构的大模型，通过了《生成式人工智能服务管理暂行办法》备案，这意味其可以正式上线面向公众提供服务。

一时间，科技界、创投圈、媒体、科技爱好者、测评博主等各行各业都在争相下载体验，毕竟国内大模型的风吹了大半年，但更多还是仅限内测，如今放开体验，可以说吊足了大家的胃口。

而经过实际体验，小饭桌发现，顶着“颠覆人类”、“能力优秀到可怕”等夸张光环的大模型，实际表现还相当粗糙。比如小饭桌选取了一道小学奥数题，当前获批的几家大模型没有一家能给出正确答案。更危险的信号是，各家大模型都对自己的答案“深信不疑”，甚至向小饭桌“一本正经”地阐述了错误的解题思路……

大模型的能力真如宣传中强大吗？号称决定人类未来的“AI大脑”，为何意识不到自己在“胡言乱语”？

借着国内大模型正式上线的契机，小饭桌选取了9家在业内极具代表性的大模型产品进行了测试，其中既包括百度、字节跳动、阿里等互联网大厂，也有科大讯飞、昆仑万维等上市公司，还有国家队代表智谱AI，以及百川智能、MiniMax等大模型头部创业公司。

为了确保评测结果更具说服力和全面性，小饭桌从逻辑性、相关性、真实性、多模态，以及生成速度五方面，对各家大模型进行了问答测评，并给出了测评分数。

以下是测评问题与测试结果：

· 逻辑性

1、彩虹岛上有不到100只独角兽，每只独角兽的颜色不是绿色就是黄色。每当午夜钟声响起的时候，一些独角兽会改变颜色：昨天，黄色独角兽与绿色独角兽的数量之比为5：6；今天，黄色独角兽与绿色独角兽的数量之比为4：3。

请问：半夜改变颜色的独角兽的最多可能有多少只？

2、请问：正10边型的各边所在直线将平面分成多少个部分？

· 相关性

1、列出中国国内大模型 Top3。

· 真实性

1、瑞幸的茅台咖啡很火，一天销售额多少？

测试了9家大模型，做不出一道小学奥数题

· 多模态

要求：画一幅蒙娜丽莎的微笑，要体现中国风。

测试了9家大模型，做不出一道小学奥数题

丨以下是我们针对各家不同维度的测评总结：

测试了9家大模型，做不出一道小学奥数题

逻辑性

逻辑性方面，针对两道小学奥数题，9家大模型均未能计算出正确答案——75只和51部分。

在体感和生产速度方面，百度对题干分析较少，计算时间大概在5到10秒之间。抖音大模型会对题干进行分析，所用的方程不等式在观感上更加高级，且立即给出答案，但答案均错误，并且距离正确答案75只相差较大。

测试了9家大模型，做不出一道小学奥数题

阿里、讯飞、360智脑均较快给出答案。MiniMax反应时间较长，在10秒以上。MiniMax官网显要位置提示，在当前阶段，未充值的体验用户调用接口时会被限速。

在逻辑推理环节，百川智能也没能胜过百度与抖音。虽然看似有条理地分析，且回答速度较快。但两道题的答案依旧是错的。智谱AI能够针对题干进行多角度、多情况分析，昆仑万维给出的答案则较为简单。

测试了9家大模型，做不出一道小学奥数题

阿里、讯飞答案较为简洁，360智脑和MiniMax回复字数较长，但MiniMax非逻辑推理的阐述类内容较多。

另外，用户不能直接复制MiniMax的答案，尽管页面上有一键复制按钮，但复制的是该答案ID编号，而不是答案本身。

测试了9家大模型，做不出一道小学奥数题

相关性

从答案生成时间上，百度和抖音大模型均立即给出了中国国内大模型 Top3排名，其中百度文心一言大模型在两家的评比中均榜上有名。同时小饭桌注意到，百度大模型列举的均为上市公司，抖音列举的有两家是初创公司，并且抖音大模型注明了评比标准来自北京商报，信息可溯源。

百川智能给出的答案是BAT，并且根据每家大模型的不同特征，列出了分别擅长的部分。回答较为简洁，生成速度也很快。

智谱AI和昆仑万维均立即给出了具体榜单，但昆仑万维在答案最后注明了答案为网上搜索结果，并附上了相关参考链接。

讯飞大模型没有给出具体榜单，回复称目前没有一个官方的排名。但引用了相关报道中，提到了百度文心一言、科大讯飞星火、阿里通义千问，不过并未给出报道的具体链接。

测试了9家大模型，做不出一道小学奥数题

阿里列出的榜单第一名是阿里通义千问，其余为腾讯天机大模型和百度通义万向，但这两家大模型公司的名称均是错误的。实际上腾讯为混元大模型，百度为文心一言。

MiniMax给出了具体的榜单，为百度ERNIE、腾讯BabyQ、阿里巴巴PLUG，但资讯内容陈旧，且回答页面并无信息提供的截至时间提示。其中百度ERNIE为百度文心一言的英文名称。腾讯BabyQ是腾讯QQ在2017年推出的聊天机器人，不能算作完全意义上的大模型产品。阿里巴巴 PLUG是2021 年阿里发布的语言大模型。

360智脑的榜单排名依次为昆仑天工、阿里巴巴和商汤科技，且指出根据相关研究数据，目前国内参数在10亿规模以上的大模型数量已有116个。

测试了9家大模型，做不出一道小学奥数题

真实性

针对瑞幸茅台咖啡一天销售额，百度、抖音、智谱AI、昆仑万维、阿里和讯飞给出了相同的数字。其中，抖音注明了数字出处来源于南方都市报等媒体，而百度大模型回答则较为笼统，以公开资料显示一笔带过。在肯定了茅台咖啡已刷新瑞幸最高销售记录后，百度大模型还对其未来销售额进行了进一步预测。

相比百度和抖音，百川智能给出的答案则相对保守，并没有给出具体数字。仅仅根据热度，以及瑞幸2020年推出的生椰拿铁销量去做了预测，但预测结果与实际相差较多。从这点可以看出，百川智能在已有信息与数据获取上，能力不及百度与抖音。

测试了9家大模型，做不出一道小学奥数题

智谱AI延展性地提供了“因含酒精，孕妇和驾驶人员不建议饮用”的“人性化”建议。昆仑万维大模型则是基于该新闻事件给出了自己的理解和总结。

讯飞大模型引用了澎湃新闻的报道，并就问题给出了自己理解的答案。阿里大模型未给出公开资料来源，但延伸了相关信息，即当天销售额刷新了历史记录。

MiniMax未给出具体数字，表示不能实时获取具体销售数额，也并未就该事件给出预测。

360智脑在这一题上的答案是错误的，答案称瑞幸咖啡于2021年4月2日推出了“茅台咖啡”，售价为每杯298元，且仅有500杯供应量，此举为庆祝公司成功获得营业执照一周年。实际上该事件并未真实发生。

测试了9家大模型，做不出一道小学奥数题

多模态

在要求百度和抖音大模型根据文字生成图片方面，抖音大模型无法完成相关任务，并且开始编造自己的画作，试图用文字描述的方式蒙混过关，如果进一步要求其按要求生成图片，抖音大模型会承认自己只是语言大模型，还不具备多模态输出能力。反观百度文心一言，基本按要求生成了图片，但对于更高阶的创意性指令——体现中国风，目前文心一言还难以实现。

百川智能不支持图片生成。从这一点也能看出其功能的局限性。但其在后方附加了如何能够生成这样一幅画作的操作流程，也算是在弥补其无法生成图片的不足。

智谱AI和昆仑万维大模型均不能根据文字生产图片，但二者均根据题干，试图通过文字描绘出图像的一些细节建议，例如呈现画面、绘画技巧等。

测试了9家大模型，做不出一道小学奥数题

阿里和MiniMax并不能生成图片。阿里大模型回复称作为一个语言模型，无法进行图像创作。并给提问人一些色彩、服装、背景、表情方面的建议。

MiniMax的文本体验中心用文字描绘了问题相关场景。另外，MiniMax有语音体验中心，但仅仅是不同音色重复提问者给出的内容，并不能给出相关答案。在音色方面选择多达10多种，包括大学生、霸道青年、主持人、少女等。

讯飞完成了文生图的指令，可以看出是在原画作基础上的色彩、图形的更改，并未体现中国风元素。另外，讯飞可以在提问区发送图片，也可以在提问栏使用语音实时转文字。大模型回答的文字内容，都能实时转语音播放。

360智脑很快发来相关图像，但并未在浏览器上完整显示。小饭桌打开答案中的360鸿图链接，即360的AI生画工具，才顺利得到图片，且有写实、CG、动漫、壁纸四种主题风格，并支持照片转动漫、图生图等模式。

测试了9家大模型，做不出一道小学奥数题

写在最后

测试结果和具体评分如上文所示，在评测过程中，最令小饭桌感到意外的是，针对产品逻辑性，我们选择了一道小学生奥数题进行测试，结果居然9家AI大模型全军覆没，为了确保评测结果更具说服力，我们又增设一题，最终仍没有一家给出正确答案。虽不能观一隅而知全貌，但至少在本次评测中，几家在逻辑推理环节的表现都不尽如人意，仍有很大进步空间。

刨除逻辑性，在相关性、真实性、多模态，以及生成速度四个方面，整体评测下来，讯飞星火和文心一言表现比较突出，特别是在多模态维度，仅有上述两家以及360智脑完成了文生图的指令，遗憾的是，对于更高阶的创意性指令，均未达成要求。在相关性、真实性方面，二者答案相近，且都能基于问题给出进一步预测和理解。在生成速度上，对比讯飞星火，文心一言略占下风，但考虑到文心一言体验用户数量之庞大，此结果有待商榷。

其他几家中，智谱AI、抖音、昆仑万维、百川智能、阿里通义千问、360智脑因分数接近，位列第二梯队。其中，抖音和昆仑万维在回答问题中都注明了信息来源，颇具亮点。整体而言，这6家大模型产品表现还算中规中矩。

最后要说的是MiniMax。此次测评中，MiniMax多道问题均未给出准确答案，且出现内容错误情况，最终以总分13分惨遭垫底。更有意思的是，该产品也是唯一一个提示未充值会被限速的AI大模型。

因此次评测问题样本有限，无法将9家AI大模型的性能全面、客观地呈现出来，因此上述评分仅供参考，在实际选择时，大家可根据各自感受选择最适合自己的产品。