首页 » 资讯动态 » 行业动态 |
全球最新排名:DeepSeek-V3夺开源模型第一! |
2024年12月26日,深度求索(DeepSeek)发布了其最新人工智能(AI)大模型DeepSeek-V3,并同步开源,刷屏中外AI圈。DeepSeek在两年内就成功开发出一款性能比肩国际顶尖的AI模型,成本仅为557万美元,与OpenAI 7800万美元的GPT-4训练成本形成鲜明对比。 聊天机器人竞技场(Chatbot Arena)最新数据显示,DeepSeek-V3排名全模型第七,开源模型第一。竞技场官方表示,DeepSeek-V3是全球前十中性价比最高的模型。在风格控制下表现稳健,在复杂问题和代码领域表现均位列前三。 在长达55页的技术报告背后,DeepSeek将它的技术路线完整地展示给公众。有人称赞它是一次真正的技术突破,但也有人质疑它只是现有优化技术的集成而已,本质上是新瓶装旧酒。 对此,有业内人士告诉《每日经济新闻》记者,DeepSeek-V3是首个创新融合使用了FP8、MLA、MoE三项技术的大模型,可以看作是实质性的突破。 聊天机器人竞技场:DeepSeek-V3位列总排名第七、开源模型第一最新的聊天机器人竞技场(Chatbot Arena)数据显示,DeepSeek-V3排名第七,成为前十名中唯一的开源国产模型。
DeepSeek-V3模型被评价为国产第一,并且也是全球前十中性价比最高的模型。DeepSeek-V3在风格控制下表现稳健,在复杂问题和代码领域冲进了前三名。 聊天机器人竞技场是目前最知名的大模型评比榜单,用户在平台上同时与两个匿名模型进行对话,提出相同问题,比较它们的回答。根据模型的回答质量,用户选择自己偏好的答案,或选择平局或都不满意。根据用户投票结果,平台使用Elo评分系统更新模型的分数。相比较于其他基准测试,这一评分标准更能反映出真人用户对于大模型的偏好。 AI智能体与大语言模型集成平台Composio也从推理、数学、编程和创意写作四个维度将DeepSeek-V3和目前最流行的两个大模型Claude 3.5 Sonnet和GPT-4o进行了比较。 在推理方面,DeepSeek-V3与Claude 3.5 Sonnet、GPT-4o平分秋色,在个别特定问题上还要表现得更好一点。 在数学方面,DeepSeek-V3比Claude 3.5 Sonnet和GPT-4o要好得多。测试者使用了Gilbert Strang的线性代数(MIT的线性代数入门教材)中的一道题作为测试问题。GPT-4o和Claude 3.5 Sonnet都只能找到一个可能的顶点,而DeepSeek-V3能找出三个顶点。 在编程方面,DeepSeek-V3非常接近GPT-4o的编码能力,但Claude 3.5 Sonnet是表现最好的模型。不过,DeepSeek-V3的定价却极具吸引力。考虑到性价比,如果只是一般使用的话,Composio认为DeepSeek-V3会是更好的选择。 在创意写作方面,Claude 3.5 Sonnet更佳,GPT-4o与DeepSeek-V3相差不大。 但是,DeepSeek现在API的输入价格仅为每百万Token0.1元人民币,而Claude3.5 Sonnet API输入价格为每百万Token 3美元。Composio站在使用者的角度判断,如果用户想要在大模型之上构建应用程序,那么Deepseek-V3是明智之选。DeepSeek-V3的性价比让它成为构建面向客户的AI应用程序的理想选择。 |
销售热线:18601265588,18638553188
© 2004-2025 北京捷迅贵德软件有限公司 版权所有