TMT_行业报告_DeepSeek_R1_发布_大模型格局预计发生重大变化_20250127_国证国际
文章目录
2025年1月27日行业报告
DeepSeek R1 发布,大模型格局预计发生重大变化
报告摘要
2025 年 1 月,国内人工智能初创公司 DeepSeek 正式发布最新开源模型DeepSeek-R1,在全球范围引发广泛关注与讨论。目前行业普遍认为 DeepSeek带来了两个里程碑性质的意义:1.算力成本投入表现出来的性能超出行业认知,用于训练的成本可能大大降低;2.开源路线对大公司闭源路线的底层颠覆。
技术性能卓越 DeepSeek-R1 采用 MIT 许可证开源,允许用户通过蒸馏技术训练其他模型。它的创新性体现在后训练阶段大规模应用强化学习技术,在标注数据极少的情况下,仍显著提升了模型推理能力。在数学、代码和自然语言推理等任务中,DeepSeek-R1 性能比肩 OpenAI o1 正式版 ,在一些第三方测试中表现优异,如在美国加州大学伯克利分校研究人员设立的聊天机器人竞技场(chatbotarena) 平台上,DeepSeek-R1 的性能表现位列前十。
成本优势显著,性价比极高 在成本方面,DeepSeek-R1 有着无可比拟的优势。此前发布的 DeepSeek-V3 仅使用 2048 颗英伟达 H800GPU,就完成了 6710 亿参数模型的训练,成本约为 560 万美元,远低于其他顶级模型的训练成本。而DeepSeek-R1 在运行成本上同样突出,输入费用仅为 0.55 美元/百万 tokens(缓存未命中),缓存命中时更是低至 0.14 美元/百万 tokens,输出费用仅为 2.19 美元/百万 tokens。相比之下仅为 OpenAIGPT-4o 输入费用同等情况下的,这使得DeepSeek-R1 未来可能成为预算敏感企业和团队的首选。
开源模式引领 DeepSeek-R1 的开源发布在国际 AI 社区激起千层浪。Meta 首席AI 科学家 Yann LeCun 表示,其成功证明了开源模型正超越闭源模型。与OpenAI 限制对其系统的访问以维护竞争优势不同,DeepSeek 允许全球企业和开发者共同开发和改进技术。这种开源策略为开发者提供了更多自由和灵活性,开发者能根据自身需求对模型进行调整和优化,极大地促进了技术社区的交流与创新。
突破外部限制,彰显创新力量 近年来,美国在芯片等领域对中国实施出口限制,试图打压中国 AI 发展。但 DeepSeek 依然构建出匹敌美国顶尖科技公司的 AI模型。OpenAI 前高管扎克・卡斯直言,美国的限制未能阻止 DeepSeek 的进步,资源限制反而激发了中国科研人员的创造力。DeepSeek-R1 的发布让怀疑论者重新评估中国的技术发展,也让美国决策者反思通过设置障碍确保领先地位的方法是否可行。
推荐标的逻辑:AI 部署成本降低 $\pmb{+}$ 运行成本降低,带动 AI 应用与云服务厂商需求落增加,建议关注:AI 应用落地:美图公司 1357.HK、汇量科技 1860.HK、第四范式 6682.HK;基础设施:金山云 3896.HK、万国数据 9698.HK
风险提示:地缘政治风险、技术迭代带来需求和供给变化风险等。
TMT 行业报告
证券研究报告
TMT 行业
关注股份 |
美图公司1357.HK |
汇量科技1860.HK |
第四范式6682.HK |
金山云3896.HK 万国数据9698.HK |
汪阳 TMT 行业首席分析师[email protected]
王婷 TMT 行业分析师[email protected]
杨怡然 TMT 与消费行业分析师[email protected]
免责申明:
- 本资料来源于网络公开渠道,版权归属版权方;
- 本资料仅限会员学习使用,如他用请联系版权方;
- 会员费用作为信息收集整理及运营之必须费用;
- 如侵犯您的合法权益,请联系客服微信将及时删除。
行业报告资源群
- 进群福利:进群即领万份行业研究、管理方案及其他
学习资源,直接打包下载 - 每日分享: $6+$ 份行研精选、3个行业主题
- 报告查找:群里直接咨询,免费协助查找
- 严禁广告:仅限行业报告交流,禁止一切无关信息
知识星球 行业与管理资源
微信扫码 行研无忧
专业知识社群:每月分享8000+份行业研究报告、商业计划、市场研究、企业运营及咨询管理方案等,涵盖科技、金融、教育、互联网、房地产、生物制药、医疗健康等;已成为投资、产业研究、企业运营、价值传播等工作助手。
1. DeepSeek 的核心特点
DeepSeek(深度求索)脱胎于幻方量化,后者作为中国顶尖的量化投资机构,早期储备了大量 GPU 算力资源(如 10,000 块英伟达 A100 芯片,消息来源“暗涌”公开资料),这为其大模型研发提供了硬件基础。
在 2024 年 12 月 26 日,Deepseek 就发布 V3 产品,其仅用 2.788M H800 GPU 小时、557 万美元的训练成本,就达到与 GPT-4o(训练成本 1 亿美元) 和 Claude Sonnet 3.5 等顶尖模型相当的性能,颠覆了人们对大模型训练需要巨额成本的认知。
2025 年 1 月 20 日仅仅不到一个月,Deepseek 发布 R1,性能与 OpenAI 的 o1 正式版持平并开源,在 Chatbot Arena 综合榜单上排名第三。公开信息显示,DeepSeek-R1 的性能可以与OpenAI 的最新模型相媲美,但其 API 服务的价格却仅为 Open AI 的三十分之一。这一极具竞争力的定价策略,可能会改变市场格局,迫使其他 AI 研发公司重新考虑其定价策略。DeepSeek 创造了两个里程碑性质的意义:1.算力成本投入表现出来的性能超出行业认知,用于训练的成本可能大大降低;2.开源路线对大公司闭源路线的底层颠覆。
图表 1:DeepSeek 业务里程碑
时间 | 重要事件 |
2023年7月1日 | DeepSeek成立,总部位于杭州 |
2023年11月2日 | 发布首个开源代码大模型DeepSeekCoder,支持多种编程语言的代码生成、调试和数据 分析任务 |
2023年11月29日 | 推出参数规模达670亿的通用大模型DeepSeekLLM,包括7B和67B的base及chat版 本 |
2024年3月1日 | 研发的MoE架构通过中国电子技术标准化研究院测评,在同等算力条件下推理效率达国 |
2024年5月7日 | 发布第二代开源混合专家(MoE)模型DeepSeek-V2,总参数达2360亿,推理成本降至 每百万token仅1元人民币,性能达GPT-4级别 |
2024年12月26日 | 发布DeepSeek-V3,总参数达6710亿,采用创新的MoE架构和FP8混合精度训练,训练 成本仅为557.6万美元,在聊天机器人竞技场(ChatbotArena)上排名第七,在开源 模型中排名第一 |
2025年1月20日 | 发布新一代推理模型DeepSeek-R1,性能与OpenAI的01正式版持平,并开源,在Chatbot Arena综合榜单上排名第三 |
2025年1月26日 | DeepSeek登顶美区AppStore免费榜第六,超越GoogleGemini和MicrosoftCopilot 等产品 |
2025年1月27日 | 在中美苹果应用商店的免费应用排行榜上超越OpenAI的ChatGPT,成为榜单第一 |
注:公开资料,国证国际研究整理
2. 为什么 Deepseek 的训练成本如此低
DeepSeek 的训练成本之所以如此低,主要得益于其在算法、工程优化和开源策略上的多项创新和高效实践。
技术创新与算法优化 DeepSeek 通过一系列技术创新显著降低了训练成本。例如,其多头潜在注意力机制(MLA)和自研 MoE(混合专家)算法,不仅提升了模型的推理效率,还大幅减少了显存占用和计算量。
工程化优化与高效架构设计 DeepSeek 采用了工程化优化策略,包括对模型架构的全方位创新,如提出新的 MLA 结构和独创的 DeepSeekMoESparse 结构。这些优化显著降低了显存占用和计算量,从而进一步降低了训练成本。
3. DeepSeek 鼓励开源,全球复刻狂潮反向验证
根据微信公众号信息平权的解读,DeepSeek R1 做到了以下几点突破:抛弃 PRM/ORM/MCTS,做完全无监督的 RL,免除大量标注过程数据;让模型自己探索,就能实现自发的长序列 CoT,和自我的反思(Aha Moment,某种 RL 能力的涌现)。在此之前,业内所有人(包括 Deepmind)都认为需要过程 reward 或标注才能做到这点。
图灵奖得主杨力昆(Yann Lecun)就 DeepSeekR1 的成功复刻在社交媒体 X 上表示“这一次,正是开源对闭源的胜利!”在没有顶级芯片的情况下,以极低成本芯片训出突破性模型的DeepSeek,或将威胁到美国的 AI 霸权,大模型比拼的不再是动辄千万亿美元的算力战。HuggingFace 团队官宣复刻 DeepSeek R1 所有 Pipeline,UC 伯克利的团队以 30 美元成本复刻 R1-Zero,港科大团队使用 8K 样本完成 7B 模型复刻,结果都十分出色。
图表 15:DeepSeek 开源模型逼近 o1 性能
AIME 2024 pass@1 | AIME 2024 cons@64 | MATH- 500 pass@1 | GPQA Diamond pass@1 | LiveCodeBench pass@1 | CodeForces rating | |
GPT-40-0513 | 9.3 | 13.4 | 74.6 | 49.9 | 32.9 | 759.0 |
Claude-3.5-Sonnet-1022 | 16.0 | 26.7 | 78.3 | 65.0 | 38.9 | 717.0 |
o1-mini | 63.6 | 80.0 | 90.0 | 60.0 | 53.8 | 1820.0 |
QwQ-32B | 44.0 | 60.0 | 90.6 | 54.5 | 41.9 | 1316.0 |
DeepSeek-R1-Distill-Qwen-1.5B | 28.9 | 52.7 | 83.9 | 33.8 | 16.9 | 954.0 |
DeepSeek-R1-Distill-Qwen-7B | 55.5 | 83.3 | 92.8 | 49.1 | 37.6 | 1189.0 |
DeepSeek-R1-Distill-Qwen-14B | 69.7 | 80.0 | 93.9 | 59.1 | 53.1 | 1481.0 |
DeepSeek-R1-Distill-Qwen-32B | 72.6 | 83.3 | 94.3 | 62.1 | 57.2 | 1691.0 |
DeepSeek-R1-Distill-Llama-8B | 50.4 | 80.0 | 89.1 | 49.0 | 39.6 | 1205.0 |
DeepSeek-R1-Distill-Llama-70B | 70.0 | 86.7 | 94.5 | 65.2 | 公众号·量子 |
资料来源:公众号量子位,国证国际研究
图表 16:图灵奖得主杨立昆评价
资料来源:公众号量子位,国证国际研究
免责申明:
- 本资料来源于网络公开渠道,版权归属版权方;
- 本资料仅限会员学习使用,如他用请联系版权方;
- 会员费用作为信息收集整理及运营之必须费用;
- 如侵犯您的合法权益,请联系客服微信将及时删除。
行业报告资源群
- 进群福利:进群即领万份行业研究、管理方案及其他
学习资源,直接打包下载 - 每日分享: $6+$ 份行研精选、3个行业主题
- 报告查找:群里直接咨询,免费协助查找
- 严禁广告:仅限行业报告交流,禁止一切无关信息
知识星球 行业与管理资源
微信扫码 行研无忧
专业知识社群:每月分享8000+份行业研究报告、商业计划、市场研究、企业运营及咨询管理方案等,涵盖科技、金融、教育、互联网、房地产、生物制药、医疗健康等;已成为投资、产业研究、企业运营、价值传播等工作助手。
客户服务热线
香港:2213 1888
国内:40086 95517
免责声明
此报告只提供给阁下作参考用途,并非作为或被视为出售或购买或认购证券的邀请或向任何特定人士作出邀请。此报告内所提到的证券可能在某些地区不能出售。此报告所载的资料由国证国际证券(香港)有限公司(国证国际)编写。此报告所载资料的来源皆被国证国际认为可靠。此报告所载的见解,分析,预测,推断和期望都是以这些可靠数据为基础,只是代表观点的表达。国证国际,其母公司和/或附属公司或任何个人不能担保其准确性或完整性。此报告所载的资料、意见及推测反映国证国际于最初发此报告日期当日的判断,可随时更改而毋须另行通知。国证国际,其母公司或任何其附属公司不会对因使用此报告内之材料而引致任何人士的直接或间接或相关之损失负上任何责任。
此报告内所提到的任何投资都可能涉及相当大的风险,若干投资可能不易变卖,而且也可能不适合所有的投资者。此报告中所提到的投资价值或从中获得的收入可能会受汇率影响而波动。过去的表现不能代表未来的业绩。此报告没有把任何投资者的投资目标,财务状况或特殊需求考虑进去。投资者不应仅依靠此报告,而应按照自己的判断作出投资决定。投资者依据此报告的建议而作出任何投资行动前,应咨询专业意见。
国证国际及其高级职员、董事、员工,可能不时地,在相关的法律、规则或规定的许可下 (1)持有或买卖此报告中所提到的公司的证券,(2)进行与此报告内容相异的仓盘买卖,(3)与此报告所提到的任何公司存在顾问,投资银行,或其他金融服务业务关系,(4)又或可能已经向此报告所提到的公司提供了大量的建议或投资服务。投资银行或资产管理可能作出与此报告相反投资决定或持有与此报告不同或相反意见。 此报告的意见亦可能与销售人员、交易员或其他集团成员专业人员的意见不同或相反。国证国际,其母公司和/或附属公司的一位或多位董事,高级职员和/或员工可能是此报告提到的证券发行人的董事或高级人员。(5)可能涉及此报告所提到的公司的证券进行自营或庄家活动。
此报告对于收件人来说是完全机密的文件。此报告的全部或任何部分均严禁以任何方式再分发予任何人士,尤其(但不限于)此报告及其任何副本均不可被带往或传送至日本、加拿大或美国,或直接或间接分发至美国或任何美国人士(根据 1933 年美国证券法 S 规则的解释),国证国际也没有任何意图派发此报告给那些居住在法律或政策不允许派发或发布此报告的地方的人。
收件人应注意国证国际可能会与本报告所提及的股票发行人进行业务往来或不时自行及/或代表其客户持有该等股票的权益。因此,投资者应注意国证国际可能存在影响本报告客观性的利益冲突,而国证国际将不会因此而负上任何责任。此报告受到版权和资料全面保护。除非获得国证国际的授权,任何人不得以任何目的复制,派发或出版此报告。国证国际保留一切权利。
规范性披露
本研究报告的分析员或其有联系者(参照证监会持牌人守则中的定义)并未担任此报告提到的上市公司的董事或高级职员。
本研究报告的分析员或其有联系者(参照证监会持牌人守则中的定义)并未拥有此报告提到的上市公司有关的任何财务权益。
国证国际拥有此报告提到的上市公司的财务权益少于 $1%$ 或完全不拥有该上市公司的财务权益。
公司评级体系
收益评级:
买入 — 预期未来 6 个月的投资收益率为 $15%$ 以上;
增持 — 预期未来 6 个月的投资收益率为 $5%$ 至 $15%$ ;
中性 — 预期未来 6 个月的投资收益率为 $-5%$ 至 $5%$ ;
减持 — 预期未来 6 个月的投资收益率为 - $-5%$ 至- $-15%$ ;
卖出 — 预期未来 6 个月的投资收益率为 - $15%$ 以下。
国证国际证券(香港)有限公司地址:香港中环交易广场第一座三十九楼 电话:+852-2213 1000 传真:+852-2213 1010
文章作者 大模型
上次更新 2025-03-09