GPT-4
多模态入门标杆(2023 里程碑)
- 文本 + 图像输入输出
- 可靠性高、性能稳定
- 可处理多种常见任务
代表早期多模态人工智能成熟阶段。
技术、应用、成本、人才与未来
汇报人:Jimmy
多模态入门标杆(2023 里程碑)
代表早期多模态人工智能成熟阶段。
全能、实时、轻快
更适合日常应用与实时交互场景。
优点
挑战
| 能力维度 | GPT-4 | GPT-4o | GPT-5 |
|---|---|---|---|
| 文本理解 | ✓ 高 | ✓ 更高 | ★ 最高 |
| 推理与逻辑 | ✓ 好 | ✓ 更好 | ★★ 卓越 |
| 多模态(图像/音频) | ✓ | ✓ 强 | ★ 强 + 自适应 |
| 幻觉 / 错误率 | 较低 | 更低 | 更低(更准确) |
| 上下文窗口 | 中等 | 大 | 最大 |
| 自主任务规划 | 基本 | 有限 | 配置化 / 可自动切换 |
| 适合实时交互 | √ | ⭐ 强 | √ 可,但更擅长深度任务 |
| 适合复杂科研/法律/大型项目 | 〇 | 〇 | ★ 最佳 |
ChatGPT 周活跃用户数约 900 million+
| 模型 | 定位 | 速度 | 推理能力 | 多模态 | 典型用途 |
|---|---|---|---|---|---|
| Gemini Ultra | 旗舰模型 | 慢 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 科研、复杂推理 |
| Gemini Pro | 通用主力 | 中 | ⭐⭐⭐ | ⭐⭐⭐ | API、开发者 |
| Gemini Pro 1.5 | 长上下文模型 | 中 | ⭐⭐⭐ | ⭐⭐⭐⭐ | 长文档、代码库 |
| Gemini Flash | 高速低成本 | 快 | ⭐⭐ | ⭐⭐⭐ | 实时 AI 应用 |
| Gemini Flash Image | 图像生成 | 快 | — | ⭐⭐⭐⭐ | AI 图片 |
| Gemini Nano | 设备端 AI | 极快 | ⭐ | ⭐ | 手机 AI |
Gemini 用户规模约 750+ million(月活)
定位:执行型智能体,强调把需求直接变成可交付成果。
定位:AI Answer Engine,结合检索、摘要与引用来源。
| 模型 | 发布时间 | 核心特点 | 主要用途 |
|---|---|---|---|
| 2023 早期 | 原型模型 | 内部测试 | |
| 2023 | 314B 参数 MoE 模型 | Chatbot | |
| 2024 | 推理和代码能力提升 | API 应用 | |
| 2025 | 深度推理能力 | 科学/编程 | |
| 2025 | 科学级推理 | 复杂任务 | |
| 研发中 | 下一代旗舰 | 未公布 |
| 维度 | GPT(OpenAI) | Gemini(Google) | Claude(Anthropic) | Llama(Meta) |
|---|---|---|---|---|
| 公司 | OpenAI | Google DeepMind | Anthropic | Meta |
| 模型类型 | 闭源 | 闭源 | 闭源 | 开源/可下载 |
| 旗舰模型 | GPT-5 / GPT-4o | Gemini 2.5 Pro | Claude Opus 4 | Llama 4 |
| 参数规模 | 未公开(估计数千亿级) | 未公开 | 未公开 | 最高约 2T 总参数(MoE) |
| 架构 | Transformer / MoE | Transformer / 多模态 | Transformer | MoE 架构 |
| 最大上下文 | ~400K tokens | 1M-2M tokens | 200K-1M tokens | ~1M tokens |
| 推理能力 | ⭐⭐⭐⭐ 综合最强 | ⭐⭐⭐⭐ 长上下文推理 | ⭐⭐⭐⭐ 文档推理 | ⭐⭐⭐ 开源里强 |
| 代码能力 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| 多模态能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ 原生多模态 | ⭐⭐⭐ | ⭐⭐ |
| API 生态 | ⭐⭐⭐⭐ 最成熟 | ⭐⭐⭐ Google Cloud | ⭐⭐⭐ AWS + Google | ⭐⭐ 主要自部署 |
| 企业市场 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ |
| 部署方式 | API / SaaS | API / Google Cloud | API / Cloud | 本地部署 |
注:参数规模/上下文窗口会随版本迭代调整,建议定期更新。
| 产品 | DAU(万) |
|---|---|
| 12,601 | |
| 2,844 | |
| 1,926 | |
| 693 | |
| 124 | |
| 54 | |
| 32 |
| 维度 | 文心(百度) | 通义千问(阿里) | 混元(腾讯) | 豆包(字节) | Kimi(月之暗面) | MiniMax |
|---|---|---|---|---|---|---|
| 公司 | 百度 | 阿里巴巴 | 腾讯 | 字节跳动 | 月之暗面 | MiniMax |
| 模型类型 | 闭源 + 部分开源 | 开源 + 商业版 | 闭源 | 闭源 | 闭源 | 闭源 |
| 旗舰模型 | 文心 4.0 / ERNIE 4.5 | Qwen 2.5 / Qwen3 | Hunyuan Large | Doubao Pro | Kimi-1.5 | MiniMax-Text-01 |
| 参数规模 | 未公开 | 最大约 72B+(开源) | 未公开 | 未公开 | 未公开 | 未公开 |
| 架构 | Transformer | Transformer / MoE | Transformer | Transformer | Transformer | MoE |
| 最大上下文 | ~200K | 1M tokens | ~256K | ~128K | 2M tokens | ~1M tokens |
| 推理能力 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐(长上下文) | ⭐⭐⭐ |
| 代码能力 | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 多模态能力 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
| API 生态 | ⭐⭐⭐ 百度云 | ⭐⭐⭐⭐ 阿里云 | ⭐⭐⭐ 腾讯云 | ⭐⭐⭐ 字节云 | ⭐⭐ | ⭐⭐ |
| 企业市场 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ |
| 部署方式 | API / 私有部署 | API / 开源 / 私有 | API / 云 | API | API | API |
价格查询:api.chat/models

音频试听(MP3)
典型场景:电商换衣、AI 小说、AI 漫画。


| 维度 | Manus | OpenClaw |
|---|---|---|
| 定位 | 云端自主 Agent,面向“任务交付” | 开源自托管个人助手,面向“可定制工具链” |
| 运行环境 | 云端 Sandbox:虚拟电脑 + 网络 + 持久文件系统 + 可安装软件 | 本地/自托管运行,“个人开源助手” |
| 交互方式 | 给目标后自动规划执行并产出文件/结果 | 先配置环境/API Key/权限/skills,再执行任务 |
| 扩展方式 | 通过沙盒中的工具、脚本、自定义工具扩展 | Skills 插件生态 + Lobster 工作流壳(可组合流水线) |
| 可控性/可审计 | 更依赖平台日志与权限机制 | 掌控部署与权限,但需自行做隔离与审计 |
| 安全风险侧重点 | 平台侧风险为主,取决于沙盒隔离能力 | 生态/插件风险更突出 |
| 适用人群 | 非工程用户、运营/分析/产品 | 工程师、极客、企业内网/自建场景 |
| 最擅长 | 调研报告、数据整理、内容产出等端到端任务 | 私有化助手、自动化流水线、深度连接本地资源 |
OpenClaw Github项目地址:github.com/openclaw/openclaw261k 历史最多 Star
这四者不是替代关系,而是协同关系:模型提供能力,Prompt 定义意图, MCP 负责连接,Agent 负责执行。
AI做的事情,本质也是做系统:需求拆解、流程拆分、流程化、单元化、标准化、可校验、可溯源。
注:本页为汇报口径数据汇总,建议在正式对外版本补充对应来源链接与统计口径。
1) 从生成到推理
早期:会写文章
现在:会做题、会写代码、会做决策
未来:会拆解问题 + 规划步骤 + 执行
2) 从回答问题到 Agent
本质:从问答机器人走向 AI 员工。
3) 多模态统一
文字、图片、视频、音频、3D 数据将统一处理。
最终走向:通用智能接口。
4) 长上下文爆发
百万 Token 已不再是极限。
企业级知识库接入将成为核心能力。