两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
你见过身边身材最好的女生是什么样子的?
cloudflare的1.1.1.1和warp有什么区别?
如何设计出色的网站后台原型?
哪张照片让你觉得刘亦菲美得不可方物?
中国军队有多强,在世界能排第几?
各位都在用Docker跑些什么呢?
请问有人能估计一下 go 相比 php 在不同用户量下能省多少钱吗?
为什么在中国搞不出 Spark 和 Hadoop 这种东西?
如何评价华为鸿蒙电脑?
有哪些BI工具惊艳了你?
男朋友因为打游戏骗我去睡觉被我识破,然后我提了分手,他同意了,问问男孩子们他怎么想的?
为什么 Linux 软件安装包会有依赖关系,而 Windows 软件安装包不需要?
什么事情是你待在西安才知道的?
冬天也要穿胸罩吗?
switch2好用吗朋友们?
为什么长得漂亮却没什么用?
老板说我设计了一周的海报还是不行,我到底该怎么学啊?
凤凰传奇曾毅公开佩戴含有不雅元素的手表,这涉嫌违法吗?如何从法律角度解读?
鸿蒙电脑应用开发和鸿蒙手机是一样的吗?
如何部署Prometheus监控K8S?
为什么董明珠攻击小米空调,而公牛却没有攻击小米插座?
胸大的女孩会自卑 吗?
你们做过最龌龊的事情是什么?
有哪些是 DeepSeek 回答不了的问题?
UBI(Universal basic income,全民基本收入)可行吗?
新买了一台nas,第一个月下载20t+,上传5+,不会被网警盯上吧?
vue 框架开发的项目结构是如何搭建的?
2025年了,照相机为啥还这么难用?像素低还很贵?
为什么有的女生喜欢穿紧身牛仔裤?