当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
为什么同样是输球,常州和国足的风评却差那么多呢?
脸与身材不符是种怎样的体验?
中国军事力量在亚洲能排第一吗?
请问一个判决进不进中国裁判文书网的标准是什么?
中国民间中小工厂能快速造出武器吗?
为什么 Windows 系统上的安装包有 exe 和 msi 两种格式,有什么区别?
电蚊香液对身体有害吗?
为什么很多人连代码都看不懂却一口咬定鸿蒙和安卓有联系?
5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何?
5挺马克沁机枪,能否击败50万重骑兵?
为什么学完了 C 语言觉得自己什么都干不了?
如何评价首个女性友好的编程语言HerCode?
海贼王为什么现在被全网黑?
为何觉得《绍宋》的权谋与军事宛如儿戏一样幼稚,是我个人历史水平不足还是其他问题导致的?
如何寻找到相对完整的真正的游戏的源码用来学习?
扫黑风暴为什么他们费老大劲杀这么多人不如直接把督导组干掉?
如何看待华人派遣赴日it彻底崩了?
为什么说中国是基建狂魔?
Vim 有什么奇技淫巧?
新手养鱼,养什么鱼好?
爱因斯坦“相对论”是否错了,我始终无法理解为什么物体达到光速时间就会停止?
大家猜猜伊朗的结局如何?
能分享一下你写过的rust项目吗?
你见过身边身材最好的女生是什么样子的?
CS:GO 为什么玩鸟狙的这么少?
慈禧为什么要反对戊戌变法?
你们听过领导最没水平的一句话是什么?