Qwen
-
中国模型崛起!阿里Qwen2.5-Max数学及编程能力全球第一
2月4日凌晨,三方基准测试平台Chatbot Arena公布了最新的大模型盲测榜单,一周前刚发布的Qwen2.5-Max超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,也是非推理类的中国大模型冠军。同时,Qwen2.5-Max在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。 截图自 据了解,Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成...
-
中国AI阵营又一重要突破!阿里巴巴Qwen2.5-Max正式发布,性能超过DeepSeek V3
据通义千问Qwen微信公众号消息,1月29日凌晨,阿里云通义千问超大规模的MoE模型Qwen2.5-Max正式上线。 据悉,Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新成果,预训练数据超过20万亿tokens。Qwen2.5-Max在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出与DeepSeek V3、GPT-4和Claude-3.5-S...