模型
-
今夜,腾讯重磅!正式超越DeepSeek
3月3日晚间,腾讯元宝APP在中国区苹果应用商店免费App下载排行榜上升至第一,超越DeepSeek。 腾讯元宝从第二位升至第一位只用了不到10天时间。2月22日,腾讯元宝超越豆包,升至中国区苹果免费App下载排行榜第二,而DeepSeek位居榜首。 3月1日,腾讯AI助手“腾讯元宝”正式发布电脑版,支持Windows和macOS系统。此次发布的腾讯元宝电脑版面向工作和学习场景打造,旨在帮助用户减轻负担、提升效率。电脑版将推出划词搜索、翻译、截图提问等...
-
清华团队突破算力难题:4090显卡单枪匹马就能跑“满血版”DeepSeek-R1!有用户称整套方案成本不到7万元,直降95%以上
随着大规模语言模型(LLMs)的不断发展,模型规模和复杂性急剧提升,其部署和推理常常需要巨大的计算资源,这对个人研究者和小型团队带来了挑战。 2月10日,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:一块24G显存的4090D就可以在本地运行DeepSeek-R1、V3的671B“满血版”。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。 KTransformers通过优化本...
-
OpenAI发布最新论文:DeepSeek和Kimi发现了o1的秘密
凤凰网科技讯 2月12日,在中国AI公司的影响下,OpenAI不得不公开O系列强化学习的秘密。今天(2月12日),OpenAI发布了关于推理模型在竞技编程中应用的研究论文报告《Competitive Programming with Large Reasoning Models》,文中放出了OpenAI三个推理模型:o1、o1-ioi、o3在IOI(国际信息学奥林匹克竞赛)和CodeForces(全球知名在线编程竞赛)中的成绩。 论文显示,在IOI 2024中,o...
-
中国模型崛起!阿里Qwen2.5-Max数学及编程能力全球第一
2月4日凌晨,三方基准测试平台Chatbot Arena公布了最新的大模型盲测榜单,一周前刚发布的Qwen2.5-Max超越DeepSeek V3、o1-mini和Claude-3.5-Sonnet等模型,以1332分位列全球第七名,也是非推理类的中国大模型冠军。同时,Qwen2.5-Max在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。 截图自 据了解,Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成...
-
复旦大学副教授郑骁庆谈DeepSeek:AI行业不只有“规模法则”,开源将加速模型更新,芯片需求可能不降反增
每经记者:宋欣悦 每经编辑:高涵 图片来源:视觉中国 近日,中国AI初创公司深度求索(DeepSeek)在全球掀起波澜,硅谷巨头恐慌,华尔街焦虑。 短短一个月内,DeepSeek-V3和DeepSeek-R1两款大模型相继推出,其成本与动辄数亿甚至上百亿美元的国外大模型项目相比堪称低廉,而性能与国外顶尖模型相当。 作为“AI界的拼多多”,DeepSeek还动摇了英伟达的“算力信仰”,旗下模型DeepSeek-V3仅使用2048块英伟达H800 GPU,...
-
不止 DeepSeek,中国AI三叉戟打破硅谷神话
► 文 观察者网 张广凯 就在中国人欢度春节的同时,来自中国的“DeepSeek冲击波”却让大洋彼岸的美国科技界难以安眠。 去年12月以来,中国企业DeepSeek先后发布两款比肩OpenAI的大模型,历史性地力压ChatGPT,登上苹果App Store美国区下载榜首。其算力成本更是远低于OpenAI同类模型,导致1月27日英伟达市值蒸发5927亿美元(约合4.3万亿人民币),创下美股单日市值下跌纪录。 有人评价说,“DeepSeek可能是个国运级别的科技成果”。 随着...
-
中国AI阵营又一重要突破!阿里巴巴Qwen2.5-Max正式发布,性能超过DeepSeek V3
据通义千问Qwen微信公众号消息,1月29日凌晨,阿里云通义千问超大规模的MoE模型Qwen2.5-Max正式上线。 据悉,Qwen2.5-Max模型是阿里云通义团队对MoE模型的最新成果,预训练数据超过20万亿tokens。Qwen2.5-Max在知识(测试大学水平知识的MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出与DeepSeek V3、GPT-4和Claude-3.5-S...
-
腾讯混元大模型正式亮相,2023腾讯全球数字生态大会召开
9月7日,在2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。 据了解,腾讯混元大模型是腾讯自研的一款实用级通用大模型,目前已经接入腾讯50多个业务测试并取得初步效果,包括腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等业务和产品。腾讯将全面拥抱大模型。 面对全新的发展机遇,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生表示:“以大模型生成技术为核心,人工智能正在成为下一轮数字化发...