全球最新排名：DeepSeek-V3夺开源模型第一！ - 资讯动态 - 捷迅贵德软件酒店之星酒管软件餐饮软件智能客房电子菜谱呼叫中心电开高速收费

全球最新排名：DeepSeek-V3夺开源模型第一！

2024年12月26日，深度求索（DeepSeek）发布了其最新人工智能（AI）大模型DeepSeek-V3，并同步开源，刷屏中外AI圈。DeepSeek在两年内就成功开发出一款性能比肩国际顶尖的AI模型，成本仅为557万美元，与OpenAI 7800万美元的GPT-4训练成本形成鲜明对比。

聊天机器人竞技场（Chatbot Arena）最新数据显示，DeepSeek-V3排名全模型第七，开源模型第一。竞技场官方表示，DeepSeek-V3是全球前十中性价比最高的模型。在风格控制下表现稳健，在复杂问题和代码领域表现均位列前三。

在长达55页的技术报告背后，DeepSeek将它的技术路线完整地展示给公众。有人称赞它是一次真正的技术突破，但也有人质疑它只是现有优化技术的集成而已，本质上是新瓶装旧酒。

对此，有业内人士告诉《每日经济新闻》记者，DeepSeek-V3是首个创新融合使用了FP8、MLA、MoE三项技术的大模型，可以看作是实质性的突破。

聊天机器人竞技场：DeepSeek-V3位列总排名第七、开源模型第一

最新的聊天机器人竞技场（Chatbot Arena）数据显示，DeepSeek-V3排名第七，成为前十名中唯一的开源国产模型。

图片来源：聊天机器人竞技场

DeepSeek-V3模型被评价为国产第一，并且也是全球前十中性价比最高的模型。DeepSeek-V3在风格控制下表现稳健，在复杂问题和代码领域冲进了前三名。

聊天机器人竞技场是目前最知名的大模型评比榜单，用户在平台上同时与两个匿名模型进行对话，提出相同问题，比较它们的回答。根据模型的回答质量，用户选择自己偏好的答案，或选择平局或都不满意。根据用户投票结果，平台使用Elo评分系统更新模型的分数。相比较于其他基准测试，这一评分标准更能反映出真人用户对于大模型的偏好。

AI智能体与大语言模型集成平台Composio也从推理、数学、编程和创意写作四个维度将DeepSeek-V3和目前最流行的两个大模型Claude 3.5 Sonnet和GPT-4o进行了比较。

在推理方面，DeepSeek-V3与Claude 3.5 Sonnet、GPT-4o平分秋色，在个别特定问题上还要表现得更好一点。

在数学方面，DeepSeek-V3比Claude 3.5 Sonnet和GPT-4o要好得多。测试者使用了Gilbert Strang的线性代数（MIT的线性代数入门教材）中的一道题作为测试问题。GPT-4o和Claude 3.5 Sonnet都只能找到一个可能的顶点，而DeepSeek-V3能找出三个顶点。

在编程方面，DeepSeek-V3非常接近GPT-4o的编码能力，但Claude 3.5 Sonnet是表现最好的模型。不过，DeepSeek-V3的定价却极具吸引力。考虑到性价比，如果只是一般使用的话，Composio认为DeepSeek-V3会是更好的选择。

在创意写作方面，Claude 3.5 Sonnet更佳，GPT-4o与DeepSeek-V3相差不大。

但是，DeepSeek现在API的输入价格仅为每百万Token0.1元人民币，而Claude3.5 Sonnet API输入价格为每百万Token 3美元。Composio站在使用者的角度判断，如果用户想要在大模型之上构建应用程序，那么Deepseek-V3是明智之选。DeepSeek-V3的性价比让它成为构建面向客户的AI应用程序的理想选择。

分类

推荐

聊天机器人竞技场：DeepSeek-V3位列总排名第七、开源模型第一