大模型时代路线图

技术、应用、成本、人才与未来

汇报人:Jimmy

01

目录

  1. 01大模型的历史和现状
  2. 02市面的 AI 应用
  3. 03用户体量、Token 费用等
  4. 04研发人员现状
  5. 05技术发展趋势
  6. 06个体应该怎么应对
02

OpenAI logoOpenAI(GPT-4 / GPT-4o / GPT-5)

GPT-4

多模态入门标杆(2023 里程碑)

  • 文本 + 图像输入输出
  • 可靠性高、性能稳定
  • 可处理多种常见任务

代表早期多模态人工智能成熟阶段。

GPT-4o

全能、实时、轻快

  • 更快的响应速度
  • 更强的文本 + 图像 + 音频理解
  • 在线工具集成能力更强
  • 成本更低、速度更快

更适合日常应用与实时交互场景。

GPT-5 系列

优点

  • 更深层推理能力
  • 自动任务规划(不只是对话)
  • 更长上下文处理,减少工具切换
  • 幻觉显著减少,结果更准确
  • 适合复杂、专业场景

挑战

  • 体验上有时偏冷静,不够亲和
  • 输出更简洁严谨,不总适合休闲聊天
  • 某些编码场景仍有开发者质疑
能力维度GPT-4GPT-4oGPT-5
文本理解✓ 高✓ 更高★ 最高
推理与逻辑✓ 好✓ 更好★★ 卓越
多模态(图像/音频)✓ 强★ 强 + 自适应
幻觉 / 错误率较低更低更低(更准确)
上下文窗口中等最大
自主任务规划基本有限配置化 / 可自动切换
适合实时交互⭐ 强√ 可,但更擅长深度任务
适合复杂科研/法律/大型项目★ 最佳

ChatGPT 周活跃用户数约 900 million+

03

Gemini logoGoogle DeepMind(Gemini 系列)

现状

  • 多模态能力很强(尤其视频/图像理解)
  • 与 Google 生态深度整合(Docs、Gmail、YouTube)
  • 数学与科研能力突出

发展方向

  • AI + 搜索
  • AI + 科研
  • 长上下文能力持续增强

优点

  • 长上下文强(百万 Token 级)
  • 与 Google 生态整合好
  • 数学科研能力突出

缺点

  • API 体验不如 OpenAI 稳定
  • 产品节奏略显混乱
  • 创造力表现稍弱
模型定位速度推理能力多模态典型用途
Gemini Ultra旗舰模型⭐⭐⭐⭐⭐⭐⭐⭐科研、复杂推理
Gemini Pro通用主力⭐⭐⭐⭐⭐⭐API、开发者
Gemini Pro 1.5长上下文模型⭐⭐⭐⭐⭐⭐⭐长文档、代码库
Gemini Flash高速低成本⭐⭐⭐⭐⭐实时 AI 应用
Gemini Flash Image图像生成⭐⭐⭐⭐AI 图片
Gemini Nano设备端 AI极快手机 AI

Gemini 用户规模约 750+ million(月活)

04

其他代表模型(Claude / Llama / Grok)

Claude logoAnthropic(Claude)

  • 代码能力表现突出
  • 长文本处理体验稳定
  • Opus 4.6 最贵,Sonnet 4.6 性价比最高
访问 Claude 官网

Manus logoManus(通用 AI Agent)

定位:执行型智能体,强调把需求直接变成可交付成果。

  • 从“答案”到“交付”:更强调任务执行与自动化工作流
  • 复杂任务端到端推进:研究、整理、生成材料等
  • 典型场景:研究报告、数据分析、方案/PPT 草稿产出
  • 刚出来的时候,最惊艳的是小米财报分析(2025-03-06)

Perplexity logoPerplexity(文章生成类)

定位:AI Answer Engine,结合检索、摘要与引用来源。

  • 可溯源:回答包含可点击引用,适合研究与汇报
  • 检索范围可控:支持 Web/组织文件/组合等模式
  • 连续追问体验好,适合多轮研究型对话
  • 典型场景:竞品调研、写报告/PPT、事实核查

Meta logoMeta(Llama)

  • 开源阵营最具影响力代表
  • Llama 已成为开源生态核心底座
  • 大量二次微调模型基于 Llama 发展

Grok logoxAI(Grok 系列)

模型发布时间核心特点主要用途
Grok logoGrok-02023 早期原型模型内部测试
Grok logoGrok-12023314B 参数 MoE 模型Chatbot
Grok logoGrok-22024推理和代码能力提升API 应用
Grok logoGrok-32025深度推理能力科学/编程
Grok logoGrok-42025科学级推理复杂任务
Grok logoGrok-5研发中下一代旗舰未公布

关注点

  • 新出的一般都是最好的,最厉害的
  • 通用性
  • 成本、蒸馏
05

主流大模型横向对比(2026)

维度GPT(OpenAI)Gemini(Google)Claude(Anthropic)Llama(Meta)
公司OpenAIGoogle DeepMindAnthropicMeta
模型类型闭源闭源闭源开源/可下载
旗舰模型GPT-5 / GPT-4oGemini 2.5 ProClaude Opus 4Llama 4
参数规模未公开(估计数千亿级)未公开未公开最高约 2T 总参数(MoE)
架构Transformer / MoETransformer / 多模态TransformerMoE 架构
最大上下文~400K tokens1M-2M tokens200K-1M tokens~1M tokens
推理能力⭐⭐⭐⭐ 综合最强⭐⭐⭐⭐ 长上下文推理⭐⭐⭐⭐ 文档推理⭐⭐⭐ 开源里强
代码能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
多模态能力⭐⭐⭐⭐⭐⭐⭐⭐ 原生多模态⭐⭐⭐⭐⭐
API 生态⭐⭐⭐⭐ 最成熟⭐⭐⭐ Google Cloud⭐⭐⭐ AWS + Google⭐⭐ 主要自部署
企业市场⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
部署方式API / SaaSAPI / Google CloudAPI / Cloud本地部署

注:参数规模/上下文窗口会随版本迭代调整,建议定期更新。

06

中国大模型阵营与用户规模

主要玩家

  • 百度文心
  • 阿里通义千问
  • 腾讯混元 / 元宝
  • 字节豆包
  • 月之暗面Kimi
  • MiniMaxMiniMax
  • 深度求索DeepSeek

观察

  • 互联网大厂与创业公司并行竞争
  • 产品形态从聊天走向搜索、办公、内容平台
  • 用户入口和生态整合能力成为关键差异
产品DAU(万)
豆包 logo豆包12,601
DeepSeek logoDeepSeek2,844
千问 logo千问1,926
元宝 logo元宝693
Kimi logoKimi124
文心 logo文心54
百度文库 logo百度文库32
维度文心(百度)通义千问(阿里)混元(腾讯)豆包(字节)Kimi(月之暗面)MiniMax
公司百度阿里巴巴腾讯字节跳动月之暗面MiniMax
模型类型闭源 + 部分开源开源 + 商业版闭源闭源闭源闭源
旗舰模型文心 4.0 / ERNIE 4.5Qwen 2.5 / Qwen3Hunyuan LargeDoubao ProKimi-1.5MiniMax-Text-01
参数规模未公开最大约 72B+(开源)未公开未公开未公开未公开
架构TransformerTransformer / MoETransformerTransformerTransformerMoE
最大上下文~200K1M tokens~256K~128K2M tokens~1M tokens
推理能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐(长上下文)⭐⭐⭐
代码能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
多模态能力⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
API 生态⭐⭐⭐ 百度云⭐⭐⭐⭐ 阿里云⭐⭐⭐ 腾讯云⭐⭐⭐ 字节云⭐⭐⭐⭐
企业市场⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
部署方式API / 私有部署API / 开源 / 私有API / 云APIAPIAPI

价格查询:api.chat/models

07

AI 应用:音乐与多媒体创作

音乐应用

  • Suno
  • Udio
  • ProducerAI
  • Klay Vision

示例作品:Everything's Fine

Everything's Fine cover

音频试听(MP3)

图像应用

  • Google Nano Banana 2 logoGoogle Nano Banana 2
  • Google Nano Banana logoGoogle Nano Banana
  • Midjourney logoMidjourney
  • ComfyUI logoComfyUI
  • OpenAI DALL-E logoOpenAI DALL-E
  • ByteDance SeeDance logoByteDance SeeDance

典型场景:电商换衣、AI 小说、AI 漫画。

图像示例

AI image sample 1AI image sample 2

视频应用

  • Runway logoRunway
  • OpenAI Sora 及视频 AI 技术 logoOpenAI Sora 及视频 AI 技术
  • Meta(Movie Gen) logoMeta(Movie Gen)
  • 可灵 / 即梦 AI 等国内 AI 视频平台 logo可灵 / 即梦 AI 等国内 AI 视频平台
08

IDE 与工作流工具

IDE / 开发助手

  • Google AI Studio logoGoogle AI Studio
  • Google AntiGravity logoGoogle AntiGravity
  • Google Vertex AI Studio logoGoogle Vertex AI Studio
  • Anysphere Cursor logoAnysphere Cursor
  • GitHub Copilot logoGitHub Copilot
  • ByteDance Trae logoByteDance Trae
  • OpenAI Codex(Windsurf 并购后) logoOpenAI Codex(Windsurf 并购后)

工作流平台

  • Coze logoCoze
  • n8n logon8n
  • Dify logoDify

Manus vs OpenClaw

维度ManusOpenClaw
定位云端自主 Agent,面向“任务交付”开源自托管个人助手,面向“可定制工具链”
运行环境云端 Sandbox:虚拟电脑 + 网络 + 持久文件系统 + 可安装软件本地/自托管运行,“个人开源助手”
交互方式给目标后自动规划执行并产出文件/结果先配置环境/API Key/权限/skills,再执行任务
扩展方式通过沙盒中的工具、脚本、自定义工具扩展Skills 插件生态 + Lobster 工作流壳(可组合流水线)
可控性/可审计更依赖平台日志与权限机制掌控部署与权限,但需自行做隔离与审计
安全风险侧重点平台侧风险为主,取决于沙盒隔离能力生态/插件风险更突出
适用人群非工程用户、运营/分析/产品工程师、极客、企业内网/自建场景
最擅长调研报告、数据整理、内容产出等端到端任务私有化助手、自动化流水线、深度连接本地资源

OpenClaw Github项目地址:github.com/openclaw/openclaw261k 历史最多 Star

// TODO 小龙虾简单介绍,skill地址
09

现状与基础能力栈

当前主流实践

  • 程序员与团队的重点:构建 Agent
  • 从单轮问答走向可执行任务闭环
  • 强调自动化与可交付结果

具体落地方向

  • UI2Code、写代码、写文章、写PPT
  • 做客服/知识库问答(RAG)
  • 做运营内容/短视频脚本自动化
  • 做企业流程自动化(工单 / CRM / 报表)
  • 做“自动研究 + 交付报告”的 Agent(Manus 类)

Agent 的基础组件

  • Rule:约束行为边界与输出规范
  • Skill:沉淀可复用能力模块
  • MCP:连接外部工具与数据源
  • Agent 自我总结:形成持续优化闭环

核心技术组合

PromptAgentMCPAI 模型

这四者不是替代关系,而是协同关系:模型提供能力,Prompt 定义意图, MCP 负责连接,Agent 负责执行。

AI做的事情,本质也是做系统:需求拆解、流程拆分、流程化、单元化、标准化、可校验、可溯源。

  • 现在做的还是拆和判断:把大的拆分成小的,然后哪部分AI执行好,哪部分代码执行好,哪部分需要校验,哪部分需要人工干预,然后组合
  • 10

    关键数据与市场信号

    使用规模与能力

    • 2025 年 Token 调用量约为 2024 年的 10 倍
    • 调用规模已进入“万级 Token”常态
    • 主流模型普遍支持单次百万 Token 上下文
    • Gemini:2025 年 Q4 对外口径为 App 月活超过 7.5 亿

    商业与人才信号

    • AI 创业团队规模更精简,但估值与并购金额更高
    • Manus 被收购报道时团队约 100 人(2025-12)
    • 相关报道提及交易规模约 20 亿美元
    • Meta 给 OpenAI 员工开出过“高达 1 亿美元签约奖金/九位数待遇包”
    • 人员极少,身价极高,万夫不敌之勇
    • 以后一定会有个人“独角兽”公司

    行业热点

    • 2025 年 AI 搜索高热主题之一:股票
    • 开源工具生态关注度持续上升
    • OpenClaw 在 GitHub 获得现象级增长
    • 模型竞争正从“能力”走向“生态 + 交付效率”
    • 大鱼吃小鱼,大公司收购小的,同时,有能力的独立出来自己搞,然后被收购

    注:本页为汇报口径数据汇总,建议在正式对外版本补充对应来源链接与统计口径。

    11

    现状与技术趋势

    现状

    • 多模态能力成熟(文本 + 图像 + 语音)
    • 推理能力仍在全球第一梯队
    • 商业生态成熟(API + ChatGPT + 企业版)
    • Agent 能力持续增强(自动化执行)

    发展方向

    • 更强推理(数学、代码、逻辑)
    • 更强 Agent(自动执行复杂任务)
    • 企业级工作流整合(办公、客服、数据分析)

    技术发展趋势

    • 1) 从生成到推理:从“会写”走向“会拆解 + 会执行”
    • 2) 从回答到 Agent:自动调用工具,形成任务闭环
    • 3) 多模态统一:文字、图片、视频、音频、3D 融合
    • 4) 长上下文爆发:百万 Token + 企业知识库接入

    GPT-5 代表的未来方向

    • 由“回答工具”升级为“协作智能伙伴”
    • 多模态成为标配,实时语音/视频/3D 深度融合
    • 更重视安全性、可靠性、可控性与可解释性
    • 自动调度不同模式,减少用户手动切换负担

    趋势细化(演进路径)

    1) 从生成到推理

    早期:会写文章

    现在:会做题、会写代码、会做决策

    未来:会拆解问题 + 规划步骤 + 执行

    2) 从回答问题到 Agent

    • 自动调用工具
    • 自动读文件
    • 自动写代码并运行
    • 自动完成任务闭环

    本质:从问答机器人走向 AI 员工。

    3) 多模态统一

    文字、图片、视频、音频、3D 数据将统一处理。

    最终走向:通用智能接口。

    4) 长上下文爆发

    百万 Token 已不再是极限。

    企业级知识库接入将成为核心能力。

    12

    人才与协作方式变化

    当前判断

    • 最核心的仍然是人
    • AI 目前更像 Copilot 辅助角色
    • 人要对AI结果进行Review,人有多强,AI就多强
    • 人的上限决定你用的AI上限,AI的上限就是人的想象力

    应对策略

    • 主动接触并拥抱新工具
    • 把 AI 融入日常工作流,而非偶尔尝试
    • 持续复盘:哪些任务能被自动化
    • 25年9月的 提示词工程,今年就消失了,变成MCP、skill那套了

    新开发范式

    • Vibe Coding:不像以前的有语法糖、有一门语言,有标准的开发范式
    • 自然语言正在成为新的编程接口:从“写语法”转向“定义意图”
    • 标准范式还在形成,想象力成为关键差异
    • 从AI辅助人,到人辅助AI,再到AI辅助AI
    13