当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
俄罗斯为什么这么菜,卫星侦查火力各个方面感觉都不像是现代化大国应该有的表现!?
女生真正的完美身材是什么样子?
性在婚姻生活中真的重要吗?
Firefox是如何一步一步衰落的?
你们在公司是怎么使用k8s和docker的?
为什么不用rust重写Nginx?
一名女子在杭州万象城遭挟持被捅 20 多刀,隆胸***体救了一命,这反映出哪些公安系统的问题?
怀集洪水后,赵一鸣零食店被哄抢,物资和收银机里面的几千块钱被哄抢一空,如何评价?
网传西藏六月发生三起藏马熊吃人***,藏马熊真的这么可怕吗?
以色列是如何从三天前的不可一世要灭了伊朗到今天的哭哭啼啼要“为生存而战”的?
NAS将来会被什么产品取代?
Linux 内核的系统有没有类似macOS 那样漂亮流畅的桌面环境的发行版本?
2025 年 6 月,Rust 在 GUI 方面有何大的进展? 你最看好哪个框架?
***如古代长城用的是C140混凝土,那千百年下来会完整的留存至今还是损坏的更加严重?
眼睛的飞蚊症,能够康复吗?
网传《碟中谍 8》亏损可能超 14 亿,是真的吗?这背后的原因是什么?
有哪些你去旅行后祛魅的城市?
为什么欧美影视喜欢露点?
如何看待《剑星》已登顶 Steam 全球热销榜?
马斯克宣布星舰将配备 42 台发动机,如何评价这一设计?
Flutter 为什么没有一款好用的UI框架?
如何评价《灵笼 2》第五集?
如何评价Cursor?
为什么开发一个 AI Agent 看似容易,但真正让它「好用」却如此困难?技术瓶颈主要在哪里?
DIY的NAS易用性如何?
自己拥有一台服务器可以做哪些很酷的事情?
Node.js是谁发明的?
Rust 使用 Result 的错误处理方式与 Golang 使用 error 的方式有什么本质区别?
为何中国反复升级轰六轰炸机群?