DeepSeek(深度求索)是一家中国的AI公司。DeepSeek成立于2023年7月,由知名量化资管巨头幻方创立。幻方本身是一家从事AI量化投资的机构,在AI领域积累了丰富的经验和技术实力。
DeepSeek以其在模型架构上的创新而闻名,特别是其提出的MLA(Multi-head Latent Attention)架构和DeepSeekMoESparse结构。这些创新使得推理成本大幅降低,例如,DeepSeek V2的推理成本仅为每百万token 1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
DeepSeek的产品与性能
DeepSeek发布了几代大型语言模型(LLM),其中DeepSeek-V2是其第二代开源MoE模型。DeepSeek-V2在多个方面表现出色:
- 参数规模与性能:DeepSeek-V2包含2360亿参数,每个Token激活21亿参数,支持长达128K的上下文长度。
- 上下文长度:开源模型支持128K的上下文长度,而聊天和API支持32K的上下文长度。
- 中文能力:在中文综合能力评测中,DeepSeek-V2与GPT-4-Turbo、文心4.0等闭源模型处于同一梯队。
- 编程能力:擅长编程任务和逻辑推理,适用于技术领域和需要复杂决策的应用场景。
- API价格:API定价为每百万输入Tokens 1元(0.14美元),每百万输出Tokens 2元(0.28美元)。
DeepSeek的开源与商业化
DeepSeek-V2采用了MIT开源协议,支持商用。这意味着开发者和研究人员可以访问其底层代码,进行自定义和进一步的研究。
DeepSeek的应用场景
DeepSeek的AI产品和服务广泛应用于教育、医疗、金融、零售等多个行业,帮助企业和个人更好地利用数据,做出更明智的决策。例如,DeepSeek-V2可以用于智能对话、信息检索、学习与适应、多领域知识、逻辑推理、创意生成、情感识别、多语言支持以及代码助手等。
DeepSeek对未来的通用人工智能(AGI)实现持乐观态度,并认为中国在硬核技术创新方面将越来越重要。公司将继续专注于研究和技术创新,不急于商业化,致力于在全球技术创新的洪流中贡献力量。