当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
为何中国反复升级轰六轰炸机群?
中国经营得最差的省级电视台是什么?
空输部队为全斗焕干了这么多脏活累活,士兵有没有什么优待?
如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
Gradle 是否已经对安卓的发展构成了阻碍?
为什么零知识证明(ZKP)领域的开源项目几乎都用Rust实现?
PHP现在真的已经过时了吗?
如何看待三峡集团总部搬迁至武汉?
空调现在抽真空15分钟真的还有意义吗?
为什么中国JK无法拍出日本JK的感觉?
做个web服务器,gin框架和go-zero怎么选?
如何看待《捞女游戏》(已改名为《情感反诈模拟器》)定档 6 月 19 日?
曼德拉是南非的罪人吗?
四十万车和十万的车有什么区别?
谁敢公开一下自己房贷月供,占你收入的多少?对你生活影响大吗?
为什么 Windows 没有比较成熟的第三方桌面环境(explorer.exe)?
大家都喜欢用什么浏览器?
洲际导弹能打到任何地方,为什么还需要轰炸机?
广东怀集遇历史最大洪水,约 30 万人受灾,积水最深处达 3 米,目前当地情况如何?
你见过身边身材最好的女生是什么样子的?
Node.js是谁发明的?
如何看待CCTV13批评“L2.999智驾”等误导性宣传,若导致事故车企可能需要担责?
如果我国收复了藏南地区,那该怎么处理藏南地区的百万印度人呢?
《凡人修仙传》里为什么韩立要对青龙上人赶尽杀绝?
为什么开发一个 AI Agent 看似容易,但真正让它「好用」却如此困难?技术瓶颈主要在哪里?
你最真实(很少吐露)的择偶标准是什么?
你觉得最毁三观的事是什么?
如何看待极客湾评测麒麟X90的性能与表现?
大家的NAS都是24小时不关机吗?
以色列为什么突然敢打伊朗了?不怕被报复?