AI 日报

🧠 大模型动态 10 条

GPT-5.4 正式发布，与 Gemini 3.1 Pro 共享榜首

03-06

Intelligence Index 57.17 分，百万 Token 上下文，原生电脑控制，推理成本优化 40%

II 57.17$5.63/MOpenAI

上下文1,000,000 Token（API 默认开启）

新能力中途响应可控（Mid-response Steerability），可实时调整输出方向

电脑控制原生支持操作网页、执行本地任务（文档编辑、数据爬取）

基准测试GDPval 83% / SWE-Bench Pro 57.7% / OSWorld 75%

定价输入 $2.50/M · 输出 $10.00/M

▸ 点击展开详情

GPT-5.1 预览版灰度测试，千万级上下文

03-21

1000 万 Token 上下文（约 750 万字），原生文/图/音/视频统一处理，推理速度较 5.4 提升 3 倍

10M ctx多模态原生OpenAI

上下文10,000,000 Token — 可处理完整代码库、超长文档

多模态无需调用额外接口，统一处理文本/图像/音频/视频

适配场景超长文档解析、代码库重构、复杂 Agent 工作流

状态灰度测试中，预计 4 月正式开放 API

▸ 点击展开详情

Gemini 3.1 Pro：长文本「永不失忆」+ Veo 3 视频生成

03-12

100 万 Token 上下文优化后复杂长程推理无信息衰减，配套 Veo 3 支持 10 分钟 1080P 视频生成

1M ctxVeo 3Google

长文本处理上千页文档仍精准记忆关键信息

Veo 3原生音频生成、首尾帧可控、多机位视觉一致性，1080P 最长 10 分钟

定价$1.25 输入 / $10.00 输出 / M tokens · 2M 上下文可选

▸ 点击展开详情

Qwen3.5 系列：阿里一口气发布 8 个变体

03-05

从 0.8B 到 397B，覆盖手机端到云端。397B MoE 版 Intelligence Index 45.05，$1.35/M

MoE开源阿里巴巴

小模型0.8B/2B/4B/9B（Dense），可在手机和消费级 GPU 上运行

大模型27B/35B/122B/397B（MoE），激活参数仅 3B-10B

盲测登顶Qwen3.5-Max-Preview LM Arena 1464 分，全球第五、中国第一

▸ 点击展开详情

MiniMax-M2.7：性价比之王，II 49.62 仅 $0.53/M

03-18

开源，低幻觉率，M2 系列第三次迭代，每次都在压低幻觉率和成本

II 49.62$0.53/M开源

迭代路径M2 → M2.1 → M2.7，每代幻觉率持续降低

适用场景生产级工作负载，性价比在 45-50 分段最优

▸ 点击展开详情

MiMo-V2-Pro：小米出品，Agent 任务 Elo 1426

03-18

Intelligence Index 49，agentic 任务 Elo 1426，开源，工具调用与多步骤工作流表现强劲

II 49Elo 1426开源小米

万亿参数MiMo-V2 Pro 拥有 1.2 万亿参数，100 万上下文

端侧落地已接入小米 15 系列手机、SU7 汽车，及金山 Office 生态

研发投入小米宣布三年投入 600 亿研发大模型

▸ 点击展开详情

Mistral Small 4：6.5B 激活参数，Apache 2.0

03-20

119B 总参数 / 6.5B 激活（MoE），图文双模态，混合推理模式，完全自由商用

MoE 5.5%Apache 2.0Mistral

架构119B 总参 / 6.5B 激活 — 大模型知识容量 + 小模型推理成本

推理模式Hybrid reasoning，reasoning mode 得分 27

搭配工具Mistral Forge 自定义训练平台，完整自托管解决方案

▸ 点击展开详情

Nemotron 3 Super：NVIDIA 开放权重 + Vera Rubin 生态

03-11

120B 总参 / 12B 激活，开源，GTC 2026 发布的 Nemotron Coalition 核心锚点模型

II 36开源NVIDIA

定位模型-硬件全链路的开源锚点，搭配 Vera Rubin AI 平台

联盟Nemotron Coalition 成员：Mistral、Perplexity、Cursor 等

硬件适配12B 激活参数可跑在大多数企业现有硬件上

▸ 点击展开详情

Claude 4.6 更新：百万上下文免费开放

03-25

取消长文本溢价，单次请求支持 600 张图像/PDF 同时解析，多模态能力提升 6 倍

1M ctx 免费600 图/PDFAnthropic

核心变化100 万 Token 上下文不再额外收费

多模态单次 600 张图像/PDF，处理能力较上版提升 6 倍

编程可直接生成完整项目代码，搭配长上下文处理大型代码库重构

定价Opus $5/$25 · Sonnet $3/$15 · Haiku $0.25/$1.25 / M tokens

▸ 点击展开详情

Grok 4.20 Beta：史上最低幻觉率 22%

03-12

事实准确性打破所有模型纪录，IFBench 82.9%，265 tokens/s，$2/$6 per M tokens

幻觉率 22%II 48.48xAI

幻觉率22% — Artificial Analysis 有记录以来最低

指令遵循IFBench 82.9%

适用场景法律、金融、医疗、合规 — 对事实准确性要求极高的领域

▸ 点击展开详情

🛠️ 新兴工具 10 条

Mistral Forge：零锁定的自定义模型训练平台

03-17

Mistral 在 GTC 发布的企业级定制训练平台，支持完全自托管，无供应商锁定

训练平台企业级

搭配 Mistral Small 4 (Apache 2.0) 使用，企业可端到端拥有自己的 AI 管线：数据→训练→部署→推理，完全不依赖第三方。

▸ 点击展开详情

Microsoft Copilot Cowork：桌面端 AI Agent

03 月

可直接操控本地桌面应用，Agent 从浏览器走向操作系统级别

桌面AgentMicrosoft

Copilot Cowork 是微软将 Agent 能力从云端延伸到桌面的关键一步，可调度本地文件系统、Office 套件和第三方应用执行任务。

▸ 点击展开详情

Perplexity 持久本地代理：常驻 AI 搜索助手

03 月

本地常驻运行的 AI 代理，持久保持上下文，从「搜索工具」转向「个人研究助理」

本地AgentPerplexity

不同于传统搜索的一次性查询，Perplexity 的持久代理维持长期记忆，理解你的研究历史和偏好，渐进式构建知识图谱。

▸ 点击展开详情

DeerFlow 2.0：字节开源长时程 SuperAgent

03 月

隔离 Agent 环境，支持沙箱/记忆/工具/子代理，本周 GitHub +13,560 星

+13,560 ★开源ByteDance

DeerFlow 2.0 的核心创新是隔离式 Agent 环境——每个子代理在独立沙箱中运行，防止相互污染，适合从几分钟到数小时的复杂任务链编排。

▸ 点击展开详情

NVIDIA Agent Toolkit：开放 Agent 工具包

03-16

GTC 2026 发布，搭配 Nemotron Coalition（Mistral/Perplexity/Cursor），构建开放 Agent 生态

Agent SDKNVIDIA

NVIDIA 不再只做芯片——Agent Toolkit 加上 Nemotron 模型、Vera Rubin 平台，构建了从模型到硬件到工具的完整 Agent 管线。联盟成员包括 Mistral、Perplexity、Cursor。

▸ 点击展开详情

obra/superpowers：Agentic 技能框架

本周

本周 +18,021 星，总星 128,852。一个「真正能用」的 agentic 技能框架与软件开发方法论

+18,021 ★Shell

定位为可落地的开发方法论，而非概念验证。强调技能可组合性、渐进式复杂度和与现有工作流的无缝集成。

▸ 点击展开详情

everything-claude-code：Claude Code 性能优化系统

本周

本周 +19,869 星，总星 128,507。技能/直觉/记忆/安全全栈优化，适配多种 AI 编程工具

+19,869 ★JavaScript

不仅针对 Claude Code，同时适配 Codex、Opencode、Cursor 等主流 AI 编程工具，提供技能系统、直觉引擎、记忆管理和安全检测的完整优化方案。

▸ 点击展开详情

oh-my-claudecode：Teams 多 Agent 协作编排

本周

本周 +6,933 星。面向团队的多 Agent 编排层，让 Claude Code 支持协作开发

+6,933 ★TypeScript

解决 AI 编程工具在团队场景下的协作痛点，支持多个 Agent 并行工作、任务分发、代码合并和冲突解决。

▸ 点击展开详情

AI-Scientist-v2 (SakanaAI)：自动化科学发现

本周

本周 +1,814 星。Workshop 级别的自动化科学发现系统，采用 agentic 树搜索

+1,814 ★Python科研

第二代 AI 科学家系统，通过 agentic 树搜索自主探索研究方向、设计实验、执行代码和撰写论文，已产出 workshop 级别的研究成果。

▸ 点击展开详情

last30days-skill：跨平台 AI 信息检索 Agent

本周

本周 +11,933 星。横跨 Reddit/X/YouTube/HN/Polymarket 及全网的主题研究 Agent 技能

+11,933 ★Python

一个 AI Agent 技能插件，输入任意主题，自动横跨 Reddit、X、YouTube、Hacker News、Polymarket 及全网搜集信息，生成有据可查的综合摘要。70% 星标来自本周。

▸ 点击展开详情

📊 行业趋势 6 条

中国大模型调用量首超美国：4.19 万亿 vs 3.63 万亿 Token/周

03-09

OpenRouter 数据显示中国连续两周领先，Top 5 中中国占 3 席，海外开发者占比高达 47%

里程碑4.19 万亿

中国 Top3MiniMax M2.5、DeepSeek V3.2、阶跃星辰 Step 3.5 Flash

关键信号海外开发者占 47%，中国本土仅 6%——国产模型靠性价比赢得全球开发者

▸ 点击展开详情

NVIDIA GTC 2026：$1T+ 基础设施订单，Vera Rubin 登场

03-16

Vera Rubin AI 平台声称降低万亿参数训练成本 10 倍，专用推理芯片，物理 AI 与机器人首次登台

$1T+ 订单Vera Rubin

核心发布Vera Rubin 平台、专用推理芯片、开放 Agent Toolkit、Nemotron Coalition

新方向物理 AI 和机器人首次获得 marquee billing，不再只是芯片公司

▸ 点击展开详情

Anthropic 被五角大楼标记「供应链风险」

03 月

拒绝放宽自主武器使用限制，多个美国政府机构开始 6 个月内逐步替换 Claude

供应链风险Anthropic

Anthropic 坚持不为自主武器松绑，被标记为「供应链风险」——这一标签通常只用于外国对手。OpenAI 迅速签下 DoD 新协议，引发内部反弹和公开辞职。

▸ 点击展开详情

2026 Q1 全球共发布 267 个 AI 模型，Agent 成核心

03-12

Agent 系统从概念走向规模化部署，成为 2026 年第一季度的核心趋势

267 模型Agent 时代

Agent 不再是 demo——GPT-5.4 原生电脑控制、Mistral Forge 自托管训练、DeerFlow 隔离环境、NVIDIA Agent Toolkit，行业从「新模型每周发」转向「如何规模化部署」。

▸ 点击展开详情

中国云厂商集体调价，AI 免费公测时代终结

03 月

腾讯云、阿里云、百度智能云上调算力价格，最高涨幅 463%，进入商用成熟期

涨幅 463%价值付费

核心原因：算力成本居高不下 + 市场需求从「尝鲜」转向「商用」。企业愿意为高质量 AI 服务付费，标志大模型产业从烧钱补贴走向健康可持续。

▸ 点击展开详情

Morgan Stanley 警告：AI 算力或致美国电网缺口 9-18 GW

03 月

AI 基础设施支出预计到 2028 年超 $3T，电力供应成为 AI 扩展的硬约束

9-18 GW$3T 支出

算力增长远超电力基础设施扩张速度。Nebius 融资 $2B+ 建设 AI 工厂，AMD 推出面向消费端的 Ryzen AI 400——行业在寻找「不烧穿电网」的算力方案。

▸ 点击展开详情

🔬 开源项目 GitHub 本周热榜 · TOP 10

	项目	总星标	本周增长	简介
#1	affaan-m/everything-claude-code	128,507	+19,869	AI 编程助手优化系统
#2	obra/superpowers	128,852	+18,021	Agentic 技能框架与开发方法论
#3	bytedance/deer-flow	55,588	+13,560	长时程 SuperAgent 框架
#4	mvanhorn/last30days-skill	17,020	+11,933	AI 信息检索 Agent 技能
#5	microsoft/VibeVoice	33,588	+8,327	开源前沿语音 AI
#6	NousResearch/hermes-agent	20,774	+7,539	可进化的 AI Agent
#7	Yeachan-Heo/oh-my-claudecode	19,749	+6,933	多 Agent 协作编排
#8	hacksider/Deep-Live-Cam	87,142	+6,693	实时换脸 / 视频深伪
#9	pascalorg/editor	8,863	+4,584	3D 建筑项目编辑器
#10	SakanaAI/AI-Scientist-v2	4,261	+1,814	自动化科学发现

GPT-5.4 与 Gemini 3.1 Pro 并列榜首，差距仅 0.01

字节 DeerFlow 2.0 开源，本周 GitHub 获 13,560 星

Grok 4.20 创下最低幻觉率纪录：22%

GPT-5.4 正式发布，与 Gemini 3.1 Pro 共享榜首

GPT-5.1 预览版灰度测试，千万级上下文

Gemini 3.1 Pro：长文本「永不失忆」+ Veo 3 视频生成

Qwen3.5 系列：阿里一口气发布 8 个变体

MiniMax-M2.7：性价比之王，II 49.62 仅 $0.53/M

MiMo-V2-Pro：小米出品，Agent 任务 Elo 1426

Mistral Small 4：6.5B 激活参数，Apache 2.0

Nemotron 3 Super：NVIDIA 开放权重 + Vera Rubin 生态

Claude 4.6 更新：百万上下文免费开放

Grok 4.20 Beta：史上最低幻觉率 22%

Mistral Forge：零锁定的自定义模型训练平台

Microsoft Copilot Cowork：桌面端 AI Agent

Perplexity 持久本地代理：常驻 AI 搜索助手

DeerFlow 2.0：字节开源长时程 SuperAgent

NVIDIA Agent Toolkit：开放 Agent 工具包

obra/superpowers：Agentic 技能框架

everything-claude-code：Claude Code 性能优化系统

oh-my-claudecode：Teams 多 Agent 协作编排

AI-Scientist-v2 (SakanaAI)：自动化科学发现

last30days-skill：跨平台 AI 信息检索 Agent

中国大模型调用量首超美国：4.19 万亿 vs 3.63 万亿 Token/周

NVIDIA GTC 2026：$1T+ 基础设施订单，Vera Rubin 登场

Anthropic 被五角大楼标记「供应链风险」

2026 Q1 全球共发布 267 个 AI 模型，Agent 成核心

中国云厂商集体调价，AI 免费公测时代终结

Morgan Stanley 警告：AI 算力或致美国电网缺口 9-18 GW