Skip to content

从 DeepSeek 说起,大模型技术的未来:引领智能革命

今天我分享的主题是大模型技术的未来:引领智能革命 —-从 Deepseek 说起

我会从这四个方面为大家介绍

  • DeepSeek的爆火:大模型技术新的里程碑
  • DeepSeek的技术创新
  • 中美技术之争现状
  • 未来趋势

从 DeepSeek 说起

1、Deepseek 是目前最火的国产大模型,背后是一家叫 深度求索 的公司,成立于 2023 年 5 月。而大家熟悉的 ChatGPT 是 2022 年 11 月发布的,所以 DeepSeek 其实并不是一夜之间就出现的。公司目前大概有 138 名研发人员,采取的是扁平化管理,所有的开发人员都可以直接向 CEO 汇报工作。

2、那这家公司背后还有个更强的背景,它的母公司是 幻方量化,一家成立于 2015 年的量化对冲基金公司。到了 2021 年,幻方量化投入了大约 10 亿人民币,建立了一个名为 "萤火二号" 的训练平台,搭载了上万张英伟达的 A100 显卡。那时候幻方量化就已经管理了上千亿的资金,做量化交易,资金实力非常雄厚。

3、DeepSeek 的 CEO 叫 梁文峰,他是 1985 年出生的。最近大家可能还听说过他,1月20号他参加了一个重要的座谈会,向国务院总理李强做了汇报。从那时起,DeepSeek 就开始在国内广受关注,而在国外爆火则要更早一些。

4、Deepseek 的产品线, Deepseek V3和Deepseek R1。

那么DeepSeek 爆火的原因是什么呢,我总结了几个原因:

1、高性能与低成本

训练成本的大幅降低,训练和 GPT-4o 同等水平的模型,只用了 不到 600 万美元的成本,而 GPT-4o 据传用了大概 1 0亿美元训练。这种低成本、高性能的特性极大地吸引了企业和开发者,因为它在不牺牲性能的前提下大幅降低了使用门槛。

2、开源策略

DeepSeek采用了MIT 的开源协议,也就是完全开源的策略,不仅公开了训练方法,还开源了模型的权重。这意味着个人开发者和中小企业可以免费部署和使用这一世界最先进的AI大模型。开源策略打破了大型科技公司对AI技术的垄断,使得更多人能够参与到AI技术的创新和应用中,极大地推动了AI技术的普及和民主化。反观 ChatGPT 的公司 openai,则始终没有公开过技术细节,也被全世界的网民嘲讽为 "close AI"。

技术创新

DeepSeek在模型训练和架构上进行了多项创新。这个我稍后会讲。

除了技术上的实力,DeepSeek 还有一个让它快速走红的原因,就是它的 API定价。很多人把 DeepSeek 称为大模型界的"拼多多",因为它的定价非常有竞争力,甚至推动了其他大厂降低了大模型的 API 定价,让更多企业能够用得起这些技术。

那么具体 Deepseek 有哪些技术创新

我来为大家介绍一下,可能会涉及到一些专业名词,我尽量用通俗易懂的方式为大家讲解

DeepSeek的技术创新主要体现在数据集准备、模型架构、算力调度和底层硬件调用四大关键环节,这些创新使其在有限的算力和资金投入下,训练出了与国际顶尖大模型相当甚至更具优势的模型。

1. 数据集准备创新

  • 小样本人工标注与基础对齐:DeepSeek通过少量人工标注数据完成模型的基本对齐,例如在对话场景和特定领域(如数学、编程)提供高质量问答示例和精细解决方案,帮助模型在早期具备正确的思路和格式。
  • 自动判分与机器自学习:对于可验证任务(如数学题、编程题),DeepSeek通过脚本或工具验证模型生成的答案,并给予正向奖励或惩罚,大幅降低了人工批改的需求。对于开放性任务,训练奖励模型(RM)用于打分,并采用群体相对策略优化(GRPO),减少对人工干预的依赖。
  • "AI教AI"的循环自增强:DeepSeek通过调用自家先前或其他版本模型生成初步解答,再由新模型进行对比学习或判分,快速扩展数据规模和多样性,强化学习过程中"有错误的样本"也成为宝贵素材,帮助模型持续纠错与收敛。

2. 模型训练架构创新

  • 多头潜在注意力(MLA,Multi-Head Latent Attention):MLA通过将Key/Value投影到更低维的潜在空间,减少存储与计算量,显著降低了显存占用和运算成本,同时保持了与传统多头注意力相当的性能。
  • 混合专家(MoE, Mixture of Experts):DeepSeek的MoE架构采用大量细粒度专家,并通过无辅助损失的负载均衡策略动态调整专家路由偏差,确保负载平衡,提高了训练稳定性和模型在多GPU上的扩展能力。
  • 多Token并行预测(MTP,Multi-Token Parallelism):MTP允许模型在一次前向传播中并行预测多个后续Token,加速了模型收敛,增强了生成文本的连贯性,并减少了重复计算。

3. 算力调度系统创新

  • 分布式并行框架:DeepSeek自研的HAI-LLM框架结合了DualPipe流水线并行、专家并行和ZeRO数据并行,减少了传统流水线的空泡期,提高了GPU集群的利用率。
  • 通信优化与负载均衡:通过自定义CUDA/PTX内核和路由局部化策略,DeepSeek显著降低了跨节点通信开销,提高了通信效率,防止局部过载或闲置。
  • FP8混合精度与内存管理:采用FP16+FP8或BF16+FP8混合精度方案,结合激活重计算技术,进一步提升了运算速度,减少了显存占用。

4. 底层硬件调用创新

  • PTX指令级编程:DeepSeek直接使用PTX指令进行底层硬件调用,跳过了CUDA通用库的限制,优化了MoE路由和FP8矩阵运算内核,提升了GPU的寄存器和共享内存利用率,实现了极致性能。

协同效应

DeepSeek通过数据集、模型架构、算力调度和底层硬件调用四大层面的创新,形成了低成本、高效率、可持续演进的大模型研发路径。这些创新使得DeepSeek在与国际顶尖模型的竞争中,依靠技术创新而非单纯的高算力投入,赢得了市场和用户的认可。

中美之争现状

现在全世界只有中国和美国在 AI 领域有能力发展和竞争,其他国家和地区已经远远被落在了后面,而且有句话戏称 AI 之争是在中国的中国人和在美国的中国人之间的竞争,当然这句话是有些夸张的。

那么美国都有哪些大模型的玩家呢,这里我只说第一梯队

1、OpenAI (CloseAI) 代表 GPT-4o o1 和最新发布的 o3-mini (因为 Deepseek 而发布的)

2、Anthropic 代表模型 claude-3.5-sonnet (目前编程最强模型)

3、Meta 代表模型 Llama 系列 现在最先进的是 llama3

中国有哪些团队属于第一梯队呢

1、Deepseek 之前我们已经介绍过了

2、阿里 代表模型 qwen 千问系列 我们厅公共法律服务大模型 就是基于 qwen 微调而成的

3、智谱 代表模型是GLM系列 国内最早的大模型玩家 也是全面对标 openai 的产品线

4、kimi 也是一个特别年轻的团队 技术也很出众

5、字节团队 代表模型 豆包 在应用落地上做的是最出色的

那么实际的水平到底怎么样,实话说,咱们的模型还有一定差距,但是咱们在被美国芯片等技术封锁情况下还是通过技术创新努力追赶并取得了相当的成绩,是值得肯定的,但是作为技术人,我们必须冷静,不要盲目的吹捧,要有信心也要有耐心。

未来趋势

这里我先介绍一个悖论叫做杰文斯悖论

杰文斯悖论(Jevons Paradox)是由英国经济学家 威廉·斯坦利·杰文斯(William Stanley Jevons)于 1865 年提出的一个悖论,指出 技术进步 可能会导致资源消耗的增加,而不是减少。这一悖论挑战了传统的经济学观念,认为技术提升效率并不一定会减少资源的使用,反而可能会因为使用更多而导致总消耗量的增加。

悖论的核心

杰文斯悖论的基本内容是:当某种资源的使用效率提升时,往往会导致这种资源的总需求和消耗量反而增加,而不是减少。这看似与直觉相违背,因为技术进步通常意味着单位产出使用的资源变少,但杰文斯指出,在实际情况下,效率提升可能会引发需求的增加,最终导致总的资源使用量上升。

举个例子

杰文斯最早是在讨论 煤炭 的使用时提出这个悖论的。他指出,当蒸汽机的效率提高(即每单位煤炭能产生更多的动力)时,人们并不会因此减少对煤炭的需求。相反,由于效率提升,煤炭变得更便宜且更广泛使用,导致对煤炭的需求反而增加。例如,更多的工厂使用蒸汽机,运输行业的成本降低,煤炭的总消耗量反而上升了。

把这个悖论放到AI 发展依然有用,

这里我再介绍一个名词叫 Scaling law

Scaling Law(缩放定律)是指在机器学习和人工智能领域,随着模型规模、数据量、计算能力等因素的增大,模型性能的提升呈现出一定的规律性。

通俗一点来说 更大算力 + 更大数据 +更大尺寸 = 更大智能 ,而且目前还没有到头撞墙的迹象,所以根据杰文斯悖论, Deepseek 的发布会导致 以后的算力需求会越来越大,这里也驳斥了 Deepseek 击碎英伟达护城河的论调,以后英伟达还会继续是全世界算力的霸主,但是华为、寒武纪等国产芯片玩家也是值得我们期待的。