前言声明
榜单只是罗盘,实战才是真理;一切还是要以实际操作为主,如果想找到所谓‘最好’的模型,最有效的办法就是:用你自己的真实需求去多测几次。以而且我始终觉得,学会‘混搭’才是王道。不同的大模型一定有各自的长短板,你需要做的就是把它们利用起来——分清楚哪个适合解决轻量级问题,哪个适合放进生产力环境处理复杂的任务。
站长个人使用
我自己目前使用主力是Gemini3 用于文章分析,调研资料,偶尔也会切换到 Claude 使用,因为速度比较快,以及在文字创作上会比 gemini强些。
手机上使用是豆包,更像是用来当成”百度“来使用,用来查一些生活小问题,我个人觉的体验感最好的是,给你出答案后,会推荐相关的抖音视频就很方便,这样答案多了一个维度的展示,当然也仅限于查下小问题,我个人是不会用其不到生产力上。
有时候我也会使用 Kimi,来横向对比 Gemini 和 Claude的答案,有时候真会提供不一样的质感的答案(因为我觉的 kimi 是一家会创造奇迹的大模型公司)。
像在写使用 Cursor 写代码上,主要使用的是 Claude 和 ChatGPT;对了还有在调研一些外网信息的时候,我会使用 Grok,毕竟背靠着X(推特)拥有着大量的活人数据,在了解一些最新信息和舆情讨论上有着天然的优势
还是那句话:没有完美的工具,只有明确的需求
通用大模型榜单
SuperCLUE (以中文为主)
优点
- 被业界广泛引用和认可,算是最权威的中文大模型综合测评平台,提供多维度、定期更新的模型排行榜
- 网站还提供了多种场景下的排行榜,并且会定期更新,实效强
缺点
- 因为其过于权威,也是大模型厂商的重点针对刷榜对象

Arena(参考价值高)
优点
- 提供多维度评测,并且是基于真实用户在竞技场模式投票的选出来的排行榜,参考价值高;并且榜单是实时更新排序的
- 有提供竞技场模式,可以体验免费体验,推荐
缺点
- 唯一的缺点:需要科学上网

Stats(适合开发者)
优点
- 数据全面性强,支持多模型横向对比,包含价格、速度、性能等多维度数据
- 适合让开发者和企业用于做选择和决策
缺点
- 信息密度过高,对普通用户不是很友好

图片生成模型榜单
Artificial Analysis
优点
- 提供独特的投票机制,让用户通过盲测方式比较不同AI图像模型的效果,也就是竞技场功能,大家可以亲自感觉下,同个指令下生成的差别
- 还提供详细的模型性能数据、API访问和专业报告等
缺点
- (待补充)


