大模型动态
10 条
GPT-5.4 正式发布,与 Gemini 3.1 Pro 共享榜首
03-06Intelligence Index 57.17 分,百万 Token 上下文,原生电脑控制,推理成本优化 40%
上下文1,000,000 Token(API 默认开启)
新能力中途响应可控(Mid-response Steerability),可实时调整输出方向
电脑控制原生支持操作网页、执行本地任务(文档编辑、数据爬取)
基准测试GDPval 83% / SWE-Bench Pro 57.7% / OSWorld 75%
定价输入 $2.50/M · 输出 $10.00/M
GPT-5.1 预览版灰度测试,千万级上下文
03-211000 万 Token 上下文(约 750 万字),原生文/图/音/视频统一处理,推理速度较 5.4 提升 3 倍
上下文10,000,000 Token — 可处理完整代码库、超长文档
多模态无需调用额外接口,统一处理文本/图像/音频/视频
适配场景超长文档解析、代码库重构、复杂 Agent 工作流
状态灰度测试中,预计 4 月正式开放 API
Gemini 3.1 Pro:长文本「永不失忆」+ Veo 3 视频生成
03-12100 万 Token 上下文优化后复杂长程推理无信息衰减,配套 Veo 3 支持 10 分钟 1080P 视频生成
长文本处理上千页文档仍精准记忆关键信息
Veo 3原生音频生成、首尾帧可控、多机位视觉一致性,1080P 最长 10 分钟
定价$1.25 输入 / $10.00 输出 / M tokens · 2M 上下文可选
Qwen3.5 系列:阿里一口气发布 8 个变体
03-05从 0.8B 到 397B,覆盖手机端到云端。397B MoE 版 Intelligence Index 45.05,$1.35/M
小模型0.8B/2B/4B/9B(Dense),可在手机和消费级 GPU 上运行
大模型27B/35B/122B/397B(MoE),激活参数仅 3B-10B
盲测登顶Qwen3.5-Max-Preview LM Arena 1464 分,全球第五、中国第一
MiniMax-M2.7:性价比之王,II 49.62 仅 $0.53/M
03-18开源,低幻觉率,M2 系列第三次迭代,每次都在压低幻觉率和成本
迭代路径M2 → M2.1 → M2.7,每代幻觉率持续降低
适用场景生产级工作负载,性价比在 45-50 分段最优
MiMo-V2-Pro:小米出品,Agent 任务 Elo 1426
03-18Intelligence Index 49,agentic 任务 Elo 1426,开源,工具调用与多步骤工作流表现强劲
万亿参数MiMo-V2 Pro 拥有 1.2 万亿参数,100 万上下文
端侧落地已接入小米 15 系列手机、SU7 汽车,及金山 Office 生态
研发投入小米宣布三年投入 600 亿研发大模型
Mistral Small 4:6.5B 激活参数,Apache 2.0
03-20119B 总参数 / 6.5B 激活(MoE),图文双模态,混合推理模式,完全自由商用
架构119B 总参 / 6.5B 激活 — 大模型知识容量 + 小模型推理成本
推理模式Hybrid reasoning,reasoning mode 得分 27
搭配工具Mistral Forge 自定义训练平台,完整自托管解决方案
Nemotron 3 Super:NVIDIA 开放权重 + Vera Rubin 生态
03-11120B 总参 / 12B 激活,开源,GTC 2026 发布的 Nemotron Coalition 核心锚点模型
定位模型-硬件全链路的开源锚点,搭配 Vera Rubin AI 平台
联盟Nemotron Coalition 成员:Mistral、Perplexity、Cursor 等
硬件适配12B 激活参数可跑在大多数企业现有硬件上
Claude 4.6 更新:百万上下文免费开放
03-25取消长文本溢价,单次请求支持 600 张图像/PDF 同时解析,多模态能力提升 6 倍
核心变化100 万 Token 上下文不再额外收费
多模态单次 600 张图像/PDF,处理能力较上版提升 6 倍
编程可直接生成完整项目代码,搭配长上下文处理大型代码库重构
定价Opus $5/$25 · Sonnet $3/$15 · Haiku $0.25/$1.25 / M tokens
Grok 4.20 Beta:史上最低幻觉率 22%
03-12事实准确性打破所有模型纪录,IFBench 82.9%,265 tokens/s,$2/$6 per M tokens
幻觉率22% — Artificial Analysis 有记录以来最低
指令遵循IFBench 82.9%
适用场景法律、金融、医疗、合规 — 对事实准确性要求极高的领域
新兴工具
10 条
Mistral Forge:零锁定的自定义模型训练平台
03-17Mistral 在 GTC 发布的企业级定制训练平台,支持完全自托管,无供应商锁定
搭配 Mistral Small 4 (Apache 2.0) 使用,企业可端到端拥有自己的 AI 管线:数据→训练→部署→推理,完全不依赖第三方。
Microsoft Copilot Cowork:桌面端 AI Agent
03 月可直接操控本地桌面应用,Agent 从浏览器走向操作系统级别
Copilot Cowork 是微软将 Agent 能力从云端延伸到桌面的关键一步,可调度本地文件系统、Office 套件和第三方应用执行任务。
Perplexity 持久本地代理:常驻 AI 搜索助手
03 月本地常驻运行的 AI 代理,持久保持上下文,从「搜索工具」转向「个人研究助理」
不同于传统搜索的一次性查询,Perplexity 的持久代理维持长期记忆,理解你的研究历史和偏好,渐进式构建知识图谱。
DeerFlow 2.0:字节开源长时程 SuperAgent
03 月隔离 Agent 环境,支持沙箱/记忆/工具/子代理,本周 GitHub +13,560 星
DeerFlow 2.0 的核心创新是隔离式 Agent 环境——每个子代理在独立沙箱中运行,防止相互污染,适合从几分钟到数小时的复杂任务链编排。
NVIDIA Agent Toolkit:开放 Agent 工具包
03-16GTC 2026 发布,搭配 Nemotron Coalition(Mistral/Perplexity/Cursor),构建开放 Agent 生态
NVIDIA 不再只做芯片——Agent Toolkit 加上 Nemotron 模型、Vera Rubin 平台,构建了从模型到硬件到工具的完整 Agent 管线。联盟成员包括 Mistral、Perplexity、Cursor。
obra/superpowers:Agentic 技能框架
本周本周 +18,021 星,总星 128,852。一个「真正能用」的 agentic 技能框架与软件开发方法论
定位为可落地的开发方法论,而非概念验证。强调技能可组合性、渐进式复杂度和与现有工作流的无缝集成。
everything-claude-code:Claude Code 性能优化系统
本周本周 +19,869 星,总星 128,507。技能/直觉/记忆/安全全栈优化,适配多种 AI 编程工具
不仅针对 Claude Code,同时适配 Codex、Opencode、Cursor 等主流 AI 编程工具,提供技能系统、直觉引擎、记忆管理和安全检测的完整优化方案。
oh-my-claudecode:Teams 多 Agent 协作编排
本周本周 +6,933 星。面向团队的多 Agent 编排层,让 Claude Code 支持协作开发
解决 AI 编程工具在团队场景下的协作痛点,支持多个 Agent 并行工作、任务分发、代码合并和冲突解决。
AI-Scientist-v2 (SakanaAI):自动化科学发现
本周本周 +1,814 星。Workshop 级别的自动化科学发现系统,采用 agentic 树搜索
第二代 AI 科学家系统,通过 agentic 树搜索自主探索研究方向、设计实验、执行代码和撰写论文,已产出 workshop 级别的研究成果。
last30days-skill:跨平台 AI 信息检索 Agent
本周本周 +11,933 星。横跨 Reddit/X/YouTube/HN/Polymarket 及全网的主题研究 Agent 技能
一个 AI Agent 技能插件,输入任意主题,自动横跨 Reddit、X、YouTube、Hacker News、Polymarket 及全网搜集信息,生成有据可查的综合摘要。70% 星标来自本周。
行业趋势
6 条
中国大模型调用量首超美国:4.19 万亿 vs 3.63 万亿 Token/周
03-09OpenRouter 数据显示中国连续两周领先,Top 5 中中国占 3 席,海外开发者占比高达 47%
中国 Top3MiniMax M2.5、DeepSeek V3.2、阶跃星辰 Step 3.5 Flash
关键信号海外开发者占 47%,中国本土仅 6%——国产模型靠性价比赢得全球开发者
NVIDIA GTC 2026:$1T+ 基础设施订单,Vera Rubin 登场
03-16Vera Rubin AI 平台声称降低万亿参数训练成本 10 倍,专用推理芯片,物理 AI 与机器人首次登台
核心发布Vera Rubin 平台、专用推理芯片、开放 Agent Toolkit、Nemotron Coalition
新方向物理 AI 和机器人首次获得 marquee billing,不再只是芯片公司
Anthropic 被五角大楼标记「供应链风险」
03 月拒绝放宽自主武器使用限制,多个美国政府机构开始 6 个月内逐步替换 Claude
Anthropic 坚持不为自主武器松绑,被标记为「供应链风险」——这一标签通常只用于外国对手。OpenAI 迅速签下 DoD 新协议,引发内部反弹和公开辞职。
2026 Q1 全球共发布 267 个 AI 模型,Agent 成核心
03-12Agent 系统从概念走向规模化部署,成为 2026 年第一季度的核心趋势
Agent 不再是 demo——GPT-5.4 原生电脑控制、Mistral Forge 自托管训练、DeerFlow 隔离环境、NVIDIA Agent Toolkit,行业从「新模型每周发」转向「如何规模化部署」。
中国云厂商集体调价,AI 免费公测时代终结
03 月腾讯云、阿里云、百度智能云上调算力价格,最高涨幅 463%,进入商用成熟期
核心原因:算力成本居高不下 + 市场需求从「尝鲜」转向「商用」。企业愿意为高质量 AI 服务付费,标志大模型产业从烧钱补贴走向健康可持续。
Morgan Stanley 警告:AI 算力或致美国电网缺口 9-18 GW
03 月AI 基础设施支出预计到 2028 年超 $3T,电力供应成为 AI 扩展的硬约束
算力增长远超电力基础设施扩张速度。Nebius 融资 $2B+ 建设 AI 工厂,AMD 推出面向消费端的 Ryzen AI 400——行业在寻找「不烧穿电网」的算力方案。
开源项目
GitHub 本周热榜 · TOP 10
| 项目 | 总星标 | 本周增长 | 简介 | |
|---|---|---|---|---|
| #1 | affaan-m/everything-claude-code | 128,507 | +19,869 | AI 编程助手优化系统 |
| #2 | obra/superpowers | 128,852 | +18,021 | Agentic 技能框架与开发方法论 |
| #3 | bytedance/deer-flow | 55,588 | +13,560 | 长时程 SuperAgent 框架 |
| #4 | mvanhorn/last30days-skill | 17,020 | +11,933 | AI 信息检索 Agent 技能 |
| #5 | microsoft/VibeVoice | 33,588 | +8,327 | 开源前沿语音 AI |
| #6 | NousResearch/hermes-agent | 20,774 | +7,539 | 可进化的 AI Agent |
| #7 | Yeachan-Heo/oh-my-claudecode | 19,749 | +6,933 | 多 Agent 协作编排 |
| #8 | hacksider/Deep-Live-Cam | 87,142 | +6,693 | 实时换脸 / 视频深伪 |
| #9 | pascalorg/editor | 8,863 | +4,584 | 3D 建筑项目编辑器 |
| #10 | SakanaAI/AI-Scientist-v2 | 4,261 | +1,814 | 自动化科学发现 |