主流厂商

大模型主流厂商

国内外主要大模型厂商背景与产品线一览

国内厂商5 家

DeepSeek 深度求索

DeepSeek（深度求索）由幻方量化创始人梁文锋于2023年创立，总部位于中国杭州。核心产品包括DeepSeek-V2、DeepSeek-R1等系列大语言模型，采用混合专家（MoE）架构与长上下文技术，并坚持开源路线。团队凭借高效的训练成本与出色的推理性能，在数学、编程等基准测试中多次达到领先水平，被视为中国开源大模型的重要力量，其模型在OpenRouter等平台上广受开发者关注。

MiniMax 稀宇科技

minimaxi.com →

MiniMax 稀宇科技成立于2021年，由前商汤科技副总裁闫俊杰创立，总部位于中国上海。公司专注于通用大模型研发，核心产品为自研的MiniMax-01系列模型，支持文本、语音、视觉等多模态能力，并基于此推出AI伴侣应用Glow和星野。技术路线上，MiniMax采用Transformer架构，突出长上下文窗口（最高支持1M tokens）与高效推理优化。作为中国头部大模型创业公司之一，MiniMax估值已超过10亿美元，与智谱AI、月之暗面等同台竞争，在国产基础大模型领域占据重要地位，尤其在多模态交互和AI情感陪伴场景中积累了显著用户基础。

Moonshot 月之暗面

moonshot.cn →

2023年3月成立的月之暗面（Moonshot AI）由杨植麟创立，总部位于中国北京。其核心产品Kimi智能助手以超长上下文处理能力（支持200万汉字）著称，技术路线基于自研Moonshot大模型。公司专注于提升大语言模型的上下文窗口和推理效率，在长文本理解领域占据国内领先地位，并获得了阿里巴巴等多轮融资。

Qwen 阿里通义

qwen.ai →

Qwen（阿里通义）系列大模型由阿里巴巴集团旗下阿里云与达摩院团队研发，最初于2023年发布。核心产品包括Qwen2.5、Qwen2-VL等，基于Transformer架构并采用Multi-Query Attention等技术，覆盖从轻量到千亿参数多种规格，在中文语义理解、多模态推理和代码生成等任务中表现稳定。团队坚持开源路线，其模型在Hugging Face、GitHub等平台累计下载量超过千万次，成为全球最活跃的中文LLM项目之一。母公司阿里巴巴将Qwen集成至通义千问应用及阿里云百炼平台，服务于金融、电商、制造等行业。凭借扎实的技术积累和完整的开源生态，Qwen在国际开源大模型社区中具有显著影响力。

Zhipu 智谱 GLM

zhipuai.cn →

智谱AI（Zhipu AI）于2019年由清华大学计算机系知识工程实验室（KEG）孵化成立，CEO为张鹏，首席科学家为清华大学唐杰教授，总部位于中国北京。公司核心产品为GLM系列大模型（如GLM-130B、GLM-4），技术路线基于General Language Model架构，采用双向注意力机制与自回归生成相结合，在中文自然语言理解与生成任务上表现突出。智谱AI被公认为中国大模型领域的头部创业公司之一，与百度文心、阿里通义、科大讯飞星火等同台竞争，其开源模型在国际社区如Hugging Face上也具有广泛影响力，并积极推动企业级AI应用落地。

国外厂商5 家

Anthropic

anthropic.com →

2021年成立于美国旧金山的Anthropic由前OpenAI研究员Dario Amodei与Daniela Amodei联合创办，是一家以AI安全为核心导向的研究公司。其旗舰产品Claude系列大语言模型（包括Claude 3及Claude 3.5）采用Constitutional AI技术路线，通过微调与奖励建模使模型遵循预设原则。在行业格局中，Anthropic与OpenAI、Google DeepMind并列为前沿大模型主要竞争者，尤其以系统性的安全对齐方法论和可解释性研究著称，其模型在编程、推理和长文本处理等方面表现突出。

Google DeepMind

deepmind.google →

2010年由Demis Hassabis、Shane Legg与Mustafa Suleyman在伦敦创立，2014年被Google收购，现为Alphabet旗下核心AI研究机构。DeepMind长期聚焦强化学习与深度学习结合的技术路线，早期以AlphaGo击败围棋人类顶尖选手引起全球关注，后续推出蛋白质结构预测系统AlphaFold，大幅推动生命科学研究。在大语言模型方向，团队开发了Gemini系列模型，覆盖文本、图像、音频等多模态理解。作为全球公认的顶级AI实验室，DeepMind持续探索通用人工智能（AGI）前沿，研究成果在科学发现、游戏博弈、语言理解等多个领域形成标杆级影响。

Meta Llama

llama.com →

Meta 旗下 AI 研究团队于 2023 年 2 月发布首个 Llama 系列大语言模型，由 Meta 首席 AI 科学家 Yann LeCun 等主导，总部位于美国。核心产品为 Llama 2、Llama 3 等开源大模型，采用 Transformer 架构并以开源权重方式发布，技术路线侧重高效训练与可复现性。作为开源大模型领域的标杆团队，其模型参数规模覆盖 7B 至 405B，长期与 GPT、Claude 等闭源模型对标，在学术社区和工业界拥有广泛影响力。

OpenAI

openai.com →

2015年成立于美国旧金山，OpenAI由Sam Altman、Elon Musk等人联合创立，最初定位为非营利人工智能研究机构，后转型为“有限盈利”公司。其核心产品包括GPT系列语言模型（GPT-3.5、GPT-4、GPT-4o）以及多模态模型DALL·E和Whisper，技术路线以大规模Transformer架构预训练结合人类反馈强化学习（RLHF）为主。作为大模型领域的先驱，OpenAI凭借ChatGPT的发布推动了全球生成式AI的普及，在学术界和工业界均占据领导地位，持续定义语言、图像和语音生成的技术边界。

xAI

x.ai →

由埃隆·马斯克于2023年7月创立的xAI总部位于美国，专注于开发大型语言模型，其核心产品Grok系列（如Grok-2、Grok-3）依靠从X平台实时获取的数据训练，技术路线强调无过滤的对话交互和快速信息整合。xAI还搭建了Colossus超级计算集群以支撑模型训练，在AI领域被视为OpenAI和Anthropic的挑战者，凭借马斯克的行业影响力和对开放性的强调，迅速成为大模型赛道上的重要参与者。