大模型时代路线图

技术、应用、成本、人才与未来

汇报人：Jimmy

OpenAI（GPT-4 / GPT-4o / GPT-5）

GPT-4

多模态入门标杆（2023 里程碑）

文本 + 图像输入输出
可靠性高、性能稳定
可处理多种常见任务

代表早期多模态人工智能成熟阶段。

GPT-4o

全能、实时、轻快

更快的响应速度
更强的文本 + 图像 + 音频理解
在线工具集成能力更强
成本更低、速度更快

更适合日常应用与实时交互场景。

GPT-5 系列

优点

更深层推理能力
自动任务规划（不只是对话）
更长上下文处理，减少工具切换
幻觉显著减少，结果更准确
适合复杂、专业场景

挑战

体验上有时偏冷静，不够亲和
输出更简洁严谨，不总适合休闲聊天
某些编码场景仍有开发者质疑

能力维度	GPT-4	GPT-4o	GPT-5
文本理解	✓ 高	✓ 更高	★ 最高
推理与逻辑	✓ 好	✓ 更好	★★ 卓越
多模态（图像/音频）	✓	✓ 强	★ 强 + 自适应
幻觉 / 错误率	较低	更低	更低（更准确）
上下文窗口	中等	大	最大
自主任务规划	基本	有限	配置化 / 可自动切换
适合实时交互	√	⭐ 强	√ 可，但更擅长深度任务
适合复杂科研/法律/大型项目	〇	〇	★ 最佳

ChatGPT 周活跃用户数约 900 million+

Google DeepMind（Gemini 系列）

现状

多模态能力很强（尤其视频/图像理解）
与 Google 生态深度整合（Docs、Gmail、YouTube）
数学与科研能力突出

发展方向

AI + 搜索
AI + 科研
长上下文能力持续增强

优点

长上下文强（百万 Token 级）
与 Google 生态整合好
数学科研能力突出

缺点

API 体验不如 OpenAI 稳定
产品节奏略显混乱
创造力表现稍弱

模型	定位	速度	推理能力	多模态	典型用途
Gemini Ultra	旗舰模型	慢	⭐⭐⭐⭐	⭐⭐⭐⭐	科研、复杂推理
Gemini Pro	通用主力	中	⭐⭐⭐	⭐⭐⭐	API、开发者
Gemini Pro 1.5	长上下文模型	中	⭐⭐⭐	⭐⭐⭐⭐	长文档、代码库
Gemini Flash	高速低成本	快	⭐⭐	⭐⭐⭐	实时 AI 应用
Gemini Flash Image	图像生成	快	—	⭐⭐⭐⭐	AI 图片
Gemini Nano	设备端 AI	极快	⭐	⭐	手机 AI

Gemini 用户规模约 750+ million（月活）

其他代表模型（Claude / Llama / Grok）

Anthropic（Claude）

代码能力表现突出
长文本处理体验稳定
Opus 4.6 最贵，Sonnet 4.6 性价比最高

访问 Claude 官网

Manus（通用 AI Agent）

定位：执行型智能体，强调把需求直接变成可交付成果。

从“答案”到“交付”：更强调任务执行与自动化工作流
复杂任务端到端推进：研究、整理、生成材料等
典型场景：研究报告、数据分析、方案/PPT 草稿产出
刚出来的时候，最惊艳的是小米财报分析（2025-03-06）

Perplexity（文章生成类）

定位：AI Answer Engine，结合检索、摘要与引用来源。

可溯源：回答包含可点击引用，适合研究与汇报
检索范围可控：支持 Web/组织文件/组合等模式
连续追问体验好，适合多轮研究型对话
典型场景：竞品调研、写报告/PPT、事实核查

Meta（Llama）

开源阵营最具影响力代表
Llama 已成为开源生态核心底座
大量二次微调模型基于 Llama 发展

xAI（Grok 系列）

模型	发布时间	核心特点	主要用途
Grok-0	2023 早期	原型模型	内部测试
Grok-1	2023	314B 参数 MoE 模型	Chatbot
Grok-2	2024	推理和代码能力提升	API 应用
Grok-3	2025	深度推理能力	科学/编程
Grok-4	2025	科学级推理	复杂任务
Grok-5	研发中	下一代旗舰	未公布

关注点

新出的一般都是最好的，最厉害的
通用性
成本、蒸馏

主流大模型横向对比（2026）

维度	GPT（OpenAI）	Gemini（Google）	Claude（Anthropic）	Llama（Meta）
公司	OpenAI	Google DeepMind	Anthropic	Meta
模型类型	闭源	闭源	闭源	开源/可下载
旗舰模型	GPT-5 / GPT-4o	Gemini 2.5 Pro	Claude Opus 4	Llama 4
参数规模	未公开（估计数千亿级）	未公开	未公开	最高约 2T 总参数（MoE）
架构	Transformer / MoE	Transformer / 多模态	Transformer	MoE 架构
最大上下文	~400K tokens	1M-2M tokens	200K-1M tokens	~1M tokens
推理能力	⭐⭐⭐⭐ 综合最强	⭐⭐⭐⭐ 长上下文推理	⭐⭐⭐⭐ 文档推理	⭐⭐⭐ 开源里强
代码能力	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
多模态能力	⭐⭐⭐⭐	⭐⭐⭐⭐ 原生多模态	⭐⭐⭐	⭐⭐
API 生态	⭐⭐⭐⭐ 最成熟	⭐⭐⭐ Google Cloud	⭐⭐⭐ AWS + Google	⭐⭐ 主要自部署
企业市场	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐
部署方式	API / SaaS	API / Google Cloud	API / Cloud	本地部署

注：参数规模/上下文窗口会随版本迭代调整，建议定期更新。

中国大模型阵营与用户规模

主要玩家

百度（文心）
阿里（通义千问）
腾讯（混元 / 元宝）
字节（豆包）
月之暗面（Kimi）
MiniMax（MiniMax）
深度求索（DeepSeek）

观察

互联网大厂与创业公司并行竞争
产品形态从聊天走向搜索、办公、内容平台
用户入口和生态整合能力成为关键差异

产品	DAU（万）
豆包	12,601
DeepSeek	2,844
千问	1,926
元宝	693
Kimi	124
文心	54
百度文库	32

维度	文心（百度）	通义千问（阿里）	混元（腾讯）	豆包（字节）	Kimi（月之暗面）	MiniMax
公司	百度	阿里巴巴	腾讯	字节跳动	月之暗面	MiniMax
模型类型	闭源 + 部分开源	开源 + 商业版	闭源	闭源	闭源	闭源
旗舰模型	文心 4.0 / ERNIE 4.5	Qwen 2.5 / Qwen3	Hunyuan Large	Doubao Pro	Kimi-1.5	MiniMax-Text-01
参数规模	未公开	最大约 72B+（开源）	未公开	未公开	未公开	未公开
架构	Transformer	Transformer / MoE	Transformer	Transformer	Transformer	MoE
最大上下文	~200K	1M tokens	~256K	~128K	2M tokens	~1M tokens
推理能力	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐（长上下文）	⭐⭐⭐
代码能力	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐
多模态能力	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐
API 生态	⭐⭐⭐ 百度云	⭐⭐⭐⭐ 阿里云	⭐⭐⭐ 腾讯云	⭐⭐⭐ 字节云	⭐⭐	⭐⭐
企业市场	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐	⭐⭐
部署方式	API / 私有部署	API / 开源 / 私有	API / 云	API	API	API

价格查询：api.chat/models

AI 应用：音乐与多媒体创作

音乐应用

Suno
Udio
ProducerAI
Klay Vision

示例作品：Everything's Fine

音频试听（MP3）

图像应用

Google Nano Banana 2
Google Nano Banana
Midjourney
ComfyUI
OpenAI DALL-E
ByteDance SeeDance

典型场景：电商换衣、AI 小说、AI 漫画。

图像示例

视频应用

Runway
OpenAI Sora 及视频 AI 技术
Meta（Movie Gen）
可灵 / 即梦 AI 等国内 AI 视频平台

IDE 与工作流工具

IDE / 开发助手

Google AI Studio
Google AntiGravity
Google Vertex AI Studio
Anysphere Cursor
GitHub Copilot
ByteDance Trae
OpenAI Codex（Windsurf 并购后）

工作流平台

Coze
n8n
Dify

Manus vs OpenClaw

维度	Manus	OpenClaw
定位	云端自主 Agent，面向“任务交付”	开源自托管个人助手，面向“可定制工具链”
运行环境	云端 Sandbox：虚拟电脑 + 网络 + 持久文件系统 + 可安装软件	本地/自托管运行，“个人开源助手”
交互方式	给目标后自动规划执行并产出文件/结果	先配置环境/API Key/权限/skills，再执行任务
扩展方式	通过沙盒中的工具、脚本、自定义工具扩展	Skills 插件生态 + Lobster 工作流壳（可组合流水线）
可控性/可审计	更依赖平台日志与权限机制	掌控部署与权限，但需自行做隔离与审计
安全风险侧重点	平台侧风险为主，取决于沙盒隔离能力	生态/插件风险更突出
适用人群	非工程用户、运营/分析/产品	工程师、极客、企业内网/自建场景
最擅长	调研报告、数据整理、内容产出等端到端任务	私有化助手、自动化流水线、深度连接本地资源

OpenClaw Github项目地址：github.com/openclaw/openclaw261k 历史最多 Star

// TODO 小龙虾简单介绍，skill地址

现状与基础能力栈

当前主流实践

程序员与团队的重点：构建 Agent
从单轮问答走向可执行任务闭环
强调自动化与可交付结果

具体落地方向

UI2Code、写代码、写文章、写PPT
做客服/知识库问答（RAG）
做运营内容/短视频脚本自动化
做企业流程自动化（工单 / CRM / 报表）
做“自动研究 + 交付报告”的 Agent（Manus 类）

Agent 的基础组件

Rule：约束行为边界与输出规范
Skill：沉淀可复用能力模块
MCP：连接外部工具与数据源
Agent 自我总结：形成持续优化闭环

核心技术组合

PromptAgentMCPAI 模型

这四者不是替代关系，而是协同关系：模型提供能力，Prompt 定义意图， MCP 负责连接，Agent 负责执行。

AI做的事情，本质也是做系统：需求拆解、流程拆分、流程化、单元化、标准化、可校验、可溯源。

现在做的还是拆和判断：把大的拆分成小的，然后哪部分AI执行好，哪部分代码执行好，哪部分需要校验，哪部分需要人工干预，然后组合

关键数据与市场信号

使用规模与能力

2025 年 Token 调用量约为 2024 年的 10 倍
调用规模已进入“万级 Token”常态
主流模型普遍支持单次百万 Token 上下文
Gemini：2025 年 Q4 对外口径为 App 月活超过 7.5 亿

商业与人才信号

AI 创业团队规模更精简，但估值与并购金额更高
Manus 被收购报道时团队约 100 人（2025-12）
相关报道提及交易规模约 20 亿美元
Meta 给 OpenAI 员工开出过“高达 1 亿美元签约奖金/九位数待遇包”
人员极少，身价极高，万夫不敌之勇
以后一定会有个人“独角兽”公司

行业热点

2025 年 AI 搜索高热主题之一：股票
开源工具生态关注度持续上升
OpenClaw 在 GitHub 获得现象级增长
模型竞争正从“能力”走向“生态 + 交付效率”
大鱼吃小鱼，大公司收购小的，同时，有能力的独立出来自己搞，然后被收购

注：本页为汇报口径数据汇总，建议在正式对外版本补充对应来源链接与统计口径。

现状与技术趋势

现状

多模态能力成熟（文本 + 图像 + 语音）
推理能力仍在全球第一梯队
商业生态成熟（API + ChatGPT + 企业版）
Agent 能力持续增强（自动化执行）

发展方向

更强推理（数学、代码、逻辑）
更强 Agent（自动执行复杂任务）
企业级工作流整合（办公、客服、数据分析）

技术发展趋势

1) 从生成到推理：从“会写”走向“会拆解 + 会执行”
2) 从回答到 Agent：自动调用工具，形成任务闭环
3) 多模态统一：文字、图片、视频、音频、3D 融合
4) 长上下文爆发：百万 Token + 企业知识库接入

GPT-5 代表的未来方向

由“回答工具”升级为“协作智能伙伴”
多模态成为标配，实时语音/视频/3D 深度融合
更重视安全性、可靠性、可控性与可解释性
自动调度不同模式，减少用户手动切换负担

趋势细化（演进路径）

1) 从生成到推理

早期：会写文章

现在：会做题、会写代码、会做决策

未来：会拆解问题 + 规划步骤 + 执行

2) 从回答问题到 Agent

自动调用工具
自动读文件
自动写代码并运行
自动完成任务闭环

本质：从问答机器人走向 AI 员工。

3) 多模态统一

文字、图片、视频、音频、3D 数据将统一处理。

最终走向：通用智能接口。

4) 长上下文爆发

百万 Token 已不再是极限。

企业级知识库接入将成为核心能力。

人才与协作方式变化

当前判断

最核心的仍然是人
AI 目前更像 Copilot 辅助角色
人要对AI结果进行Review，人有多强，AI就多强
人的上限决定你用的AI上限，AI的上限就是人的想象力

应对策略

主动接触并拥抱新工具
把 AI 融入日常工作流，而非偶尔尝试
持续复盘：哪些任务能被自动化
25年9月的提示词工程，今年就消失了，变成MCP、skill那套了

新开发范式

Vibe Coding：不像以前的有语法糖、有一门语言，有标准的开发范式
自然语言正在成为新的编程接口：从“写语法”转向“定义意图”
标准范式还在形成，想象力成为关键差异
从AI辅助人，到人辅助AI，再到AI辅助AI

大模型时代路线图

目录

OpenAI（GPT-4 / GPT-4o / GPT-5）

GPT-4

GPT-4o

GPT-5 系列

Google DeepMind（Gemini 系列）

现状

发展方向

优点

缺点

其他代表模型（Claude / Llama / Grok）

Anthropic（Claude）

Manus（通用 AI Agent）

Perplexity（文章生成类）

Meta（Llama）

xAI（Grok 系列）

关注点

主流大模型横向对比（2026）

中国大模型阵营与用户规模

主要玩家

观察

AI 应用：音乐与多媒体创作

音乐应用

示例作品：Everything's Fine

图像应用

图像示例

视频应用

IDE 与工作流工具

IDE / 开发助手

工作流平台

Manus vs OpenClaw

现状与基础能力栈

当前主流实践

具体落地方向

Agent 的基础组件

核心技术组合

关键数据与市场信号

使用规模与能力

商业与人才信号

行业热点

现状与技术趋势

现状

发展方向

技术发展趋势

GPT-5 代表的未来方向

趋势细化（演进路径）

人才与协作方式变化

当前判断

应对策略

新开发范式