大模型主流厂商
国内外主要大模型厂商背景与产品线一览
国内厂商5 家
DeepSeek 深度求索
DeepSeek(深度求索)由幻方量化创始人梁文锋于2023年创立,总部位于中国杭州。核心产品包括DeepSeek-V2、DeepSeek-R1等系列大语言模型,采用混合专家(MoE)架构与长上下文技术,并坚持开源路线。团队凭借高效的训练成本与出色的推理性能,在数学、编程等基准测试中多次达到领先水平,被视为中国开源大模型的重要力量,其模型在OpenRouter等平台上广受开发者关注。
MiniMax 稀宇科技
MiniMax 稀宇科技成立于2021年,由前商汤科技副总裁闫俊杰创立,总部位于中国上海。公司专注于通用大模型研发,核心产品为自研的MiniMax-01系列模型,支持文本、语音、视觉等多模态能力,并基于此推出AI伴侣应用Glow和星野。技术路线上,MiniMax采用Transformer架构,突出长上下文窗口(最高支持1M tokens)与高效推理优化。作为中国头部大模型创业公司之一,MiniMax估值已超过10亿美元,与智谱AI、月之暗面等同台竞争,在国产基础大模型领域占据重要地位,尤其在多模态交互和AI情感陪伴场景中积累了显著用户基础。
Moonshot 月之暗面
2023年3月成立的月之暗面(Moonshot AI)由杨植麟创立,总部位于中国北京。其核心产品Kimi智能助手以超长上下文处理能力(支持200万汉字)著称,技术路线基于自研Moonshot大模型。公司专注于提升大语言模型的上下文窗口和推理效率,在长文本理解领域占据国内领先地位,并获得了阿里巴巴等多轮融资。
Qwen 阿里通义
Qwen(阿里通义)系列大模型由阿里巴巴集团旗下阿里云与达摩院团队研发,最初于2023年发布。核心产品包括Qwen2.5、Qwen2-VL等,基于Transformer架构并采用Multi-Query Attention等技术,覆盖从轻量到千亿参数多种规格,在中文语义理解、多模态推理和代码生成等任务中表现稳定。团队坚持开源路线,其模型在Hugging Face、GitHub等平台累计下载量超过千万次,成为全球最活跃的中文LLM项目之一。母公司阿里巴巴将Qwen集成至通义千问应用及阿里云百炼平台,服务于金融、电商、制造等行业。凭借扎实的技术积累和完整的开源生态,Qwen在国际开源大模型社区中具有显著影响力。
Zhipu 智谱 GLM
智谱AI(Zhipu AI)于2019年由清华大学计算机系知识工程实验室(KEG)孵化成立,CEO为张鹏,首席科学家为清华大学唐杰教授,总部位于中国北京。公司核心产品为GLM系列大模型(如GLM-130B、GLM-4),技术路线基于General Language Model架构,采用双向注意力机制与自回归生成相结合,在中文自然语言理解与生成任务上表现突出。智谱AI被公认为中国大模型领域的头部创业公司之一,与百度文心、阿里通义、科大讯飞星火等同台竞争,其开源模型在国际社区如Hugging Face上也具有广泛影响力,并积极推动企业级AI应用落地。
国外厂商5 家
Anthropic
2021年成立于美国旧金山的Anthropic由前OpenAI研究员Dario Amodei与Daniela Amodei联合创办,是一家以AI安全为核心导向的研究公司。其旗舰产品Claude系列大语言模型(包括Claude 3及Claude 3.5)采用Constitutional AI技术路线,通过微调与奖励建模使模型遵循预设原则。在行业格局中,Anthropic与OpenAI、Google DeepMind并列为前沿大模型主要竞争者,尤其以系统性的安全对齐方法论和可解释性研究著称,其模型在编程、推理和长文本处理等方面表现突出。
Google DeepMind
2010年由Demis Hassabis、Shane Legg与Mustafa Suleyman在伦敦创立,2014年被Google收购,现为Alphabet旗下核心AI研究机构。DeepMind长期聚焦强化学习与深度学习结合的技术路线,早期以AlphaGo击败围棋人类顶尖选手引起全球关注,后续推出蛋白质结构预测系统AlphaFold,大幅推动生命科学研究。在大语言模型方向,团队开发了Gemini系列模型,覆盖文本、图像、音频等多模态理解。作为全球公认的顶级AI实验室,DeepMind持续探索通用人工智能(AGI)前沿,研究成果在科学发现、游戏博弈、语言理解等多个领域形成标杆级影响。
Meta Llama
Meta 旗下 AI 研究团队于 2023 年 2 月发布首个 Llama 系列大语言模型,由 Meta 首席 AI 科学家 Yann LeCun 等主导,总部位于美国。核心产品为 Llama 2、Llama 3 等开源大模型,采用 Transformer 架构并以开源权重方式发布,技术路线侧重高效训练与可复现性。作为开源大模型领域的标杆团队,其模型参数规模覆盖 7B 至 405B,长期与 GPT、Claude 等闭源模型对标,在学术社区和工业界拥有广泛影响力。
OpenAI
2015年成立于美国旧金山,OpenAI由Sam Altman、Elon Musk等人联合创立,最初定位为非营利人工智能研究机构,后转型为“有限盈利”公司。其核心产品包括GPT系列语言模型(GPT-3.5、GPT-4、GPT-4o)以及多模态模型DALL·E和Whisper,技术路线以大规模Transformer架构预训练结合人类反馈强化学习(RLHF)为主。作为大模型领域的先驱,OpenAI凭借ChatGPT的发布推动了全球生成式AI的普及,在学术界和工业界均占据领导地位,持续定义语言、图像和语音生成的技术边界。
xAI
由埃隆·马斯克于2023年7月创立的xAI总部位于美国,专注于开发大型语言模型,其核心产品Grok系列(如Grok-2、Grok-3)依靠从X平台实时获取的数据训练,技术路线强调无过滤的对话交互和快速信息整合。xAI还搭建了Colossus超级计算集群以支撑模型训练,在AI领域被视为OpenAI和Anthropic的挑战者,凭借马斯克的行业影响力和对开放性的强调,迅速成为大模型赛道上的重要参与者。