资料内容:
一、DeepSeek 是什么
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司 ,是一家成立于 2023 年 7 月 17 日的
创新型科技公司。虽然它诞生的时间不长,但其发展速度和取得的成果却令人瞩目。由知名量化资管
巨头幻方量化创立,幻方量化为其提供了强大的技术研发支持,包括储备了万张 A100 芯片,助力
DeepSeek 在 AI 领域的发展。公司自成立以来,便专注于开发先进的大语言模型 (LLM) 和相关技术,
在人工智能领域不断探索前行。
在大语言模型的研发上,DeepSeek 成绩斐然。2024 年 1 月 5 日,发布了首个大模型 DeepSeek LLM
,该模型包含 670 亿参数,在 2 万亿 token 的丰富数据集上进行训练,数据涵盖中英文,使其具备了
处理多种语言任务的能力,在推理、编码、数学和中文理解等关键能力上超越了 Llama2 70B Base。2
024 年 5 月,开源了第二代 MoE 大模型 DeepSeek - V2,总参数达 2360 亿,采用创新的模型架构和
训练方法,性能比肩 GPT - 4 Turbo,价格却只有 GPT - 4 的百分之一,其采用全新的 MLA 注意力机制
和 DeepSeekMoE 前馈网络,大幅降低计算量和显存占用,确保高效推理,还支持 128K 的超长上下
文 。2024 年 12 月 26 日,DeepSeek - V3 首个版本上线并开源,总参数达 6710 亿,采用创新的 MoE
架构和 FP8 混合精度训练,在性能上取得显著突破,生成速度大幅提高,在多项基准测试中超越众多
开源模型,性能接近 GPT - 4o 和 Claude - 3.5 - Sonnet 等闭源顶尖模型 ,且训练成本仅为 557.6 万美
元,远低于同类模型,性价比极高。2025 年 1 月 20 日,发布新一代推理模型 DeepSeek - R1,在数
学、代码、自然语言推理等任务上表现出色,性能比肩 OpenAI o1 正式版,在解决科学问题的能力上
达到与 GPT - o1 相近水平,标志着中国在大语言模型推理技术上取得重大突破,其成本优势明显,单
次 API 调用成本低,日均电力消耗少,还是首个仅通过 RL 无需 SFT 就能大幅增强推理能力和涌现的
模型,降低了数据标注成本,代码和训练方法完全开源,成为开源社区 Hugging Face 上下载量最高
的大模型 。
DeepSeek 在 AI 领域的地位愈发重要,其发布的一系列模型在性能、成本等方面展现出独特优势,给
整个 AI 行业带来了新的思路和竞争活力,推动着 AI 技术不断向前发展,吸引了全球众多开发者、研
究人员以及企业的关注,在大模型开源、技术创新等方面正逐渐成为行业的引领者之一,为 AI 技术的
普及和应用拓展做出积极贡献。