91 期 · 2026年4月1日 星期三 数据来源:GitHub Trending · Artificial Analysis · OpenRouter · WhatLLM · TLDL
今日要闻 TOP stories
头条 · 模型

GPT-5.4 与 Gemini 3.1 Pro 并列榜首,差距仅 0.01

OpenAI GPT-5.4 以 Intelligence Index 57.17 分登场,与 Google Gemini 3.1 Pro Preview(57.18)几乎打平。百万 Token 上下文窗口、原生电脑控制能力、推理成本优化 40%,但行业注意力已转向部署效率与 Agent 生态。

II 57.17 $5.63/M 1M ctx
热门 · 开源

字节 DeerFlow 2.0 开源,本周 GitHub 获 13,560 星

长时程 SuperAgent 框架,支持沙箱隔离、记忆系统、工具调用、子代理协作,可处理数分钟到数小时的复杂任务链,成为 Agent 领域最受关注的开源项目之一。

+13,560 ★ Python ByteDance
突破 · 安全

Grok 4.20 创下最低幻觉率纪录:22%

xAI 发布 Grok 4.20 Beta,幻觉率 22% 为有记录以来最低,适用于法律、金融、医疗等对事实准确性要求极高的场景。输出速度 265 tokens/s,定价 $2/$6 per M tokens。

幻觉率 22% 265 tok/s $2/$6 M
🧠 大模型动态 10 条

GPT-5.4 正式发布,与 Gemini 3.1 Pro 共享榜首

03-06
Intelligence Index 57.17 分,百万 Token 上下文,原生电脑控制,推理成本优化 40%
II 57.17$5.63/MOpenAI
上下文1,000,000 Token(API 默认开启)
新能力中途响应可控(Mid-response Steerability),可实时调整输出方向
电脑控制原生支持操作网页、执行本地任务(文档编辑、数据爬取)
基准测试GDPval 83% / SWE-Bench Pro 57.7% / OSWorld 75%
定价输入 $2.50/M · 输出 $10.00/M
▸ 点击展开详情

GPT-5.1 预览版灰度测试,千万级上下文

03-21
1000 万 Token 上下文(约 750 万字),原生文/图/音/视频统一处理,推理速度较 5.4 提升 3 倍
10M ctx多模态原生OpenAI
上下文10,000,000 Token — 可处理完整代码库、超长文档
多模态无需调用额外接口,统一处理文本/图像/音频/视频
适配场景超长文档解析、代码库重构、复杂 Agent 工作流
状态灰度测试中,预计 4 月正式开放 API
▸ 点击展开详情

Gemini 3.1 Pro:长文本「永不失忆」+ Veo 3 视频生成

03-12
100 万 Token 上下文优化后复杂长程推理无信息衰减,配套 Veo 3 支持 10 分钟 1080P 视频生成
1M ctxVeo 3Google
长文本处理上千页文档仍精准记忆关键信息
Veo 3原生音频生成、首尾帧可控、多机位视觉一致性,1080P 最长 10 分钟
定价$1.25 输入 / $10.00 输出 / M tokens · 2M 上下文可选
▸ 点击展开详情

Qwen3.5 系列:阿里一口气发布 8 个变体

03-05
从 0.8B 到 397B,覆盖手机端到云端。397B MoE 版 Intelligence Index 45.05,$1.35/M
MoE开源阿里巴巴
小模型0.8B/2B/4B/9B(Dense),可在手机和消费级 GPU 上运行
大模型27B/35B/122B/397B(MoE),激活参数仅 3B-10B
盲测登顶Qwen3.5-Max-Preview LM Arena 1464 分,全球第五、中国第一
▸ 点击展开详情

MiniMax-M2.7:性价比之王,II 49.62 仅 $0.53/M

03-18
开源,低幻觉率,M2 系列第三次迭代,每次都在压低幻觉率和成本
II 49.62$0.53/M开源
迭代路径M2 → M2.1 → M2.7,每代幻觉率持续降低
适用场景生产级工作负载,性价比在 45-50 分段最优
▸ 点击展开详情

MiMo-V2-Pro:小米出品,Agent 任务 Elo 1426

03-18
Intelligence Index 49,agentic 任务 Elo 1426,开源,工具调用与多步骤工作流表现强劲
II 49Elo 1426开源小米
万亿参数MiMo-V2 Pro 拥有 1.2 万亿参数,100 万上下文
端侧落地已接入小米 15 系列手机、SU7 汽车,及金山 Office 生态
研发投入小米宣布三年投入 600 亿研发大模型
▸ 点击展开详情

Mistral Small 4:6.5B 激活参数,Apache 2.0

03-20
119B 总参数 / 6.5B 激活(MoE),图文双模态,混合推理模式,完全自由商用
MoE 5.5%Apache 2.0Mistral
架构119B 总参 / 6.5B 激活 — 大模型知识容量 + 小模型推理成本
推理模式Hybrid reasoning,reasoning mode 得分 27
搭配工具Mistral Forge 自定义训练平台,完整自托管解决方案
▸ 点击展开详情

Nemotron 3 Super:NVIDIA 开放权重 + Vera Rubin 生态

03-11
120B 总参 / 12B 激活,开源,GTC 2026 发布的 Nemotron Coalition 核心锚点模型
II 36开源NVIDIA
定位模型-硬件全链路的开源锚点,搭配 Vera Rubin AI 平台
联盟Nemotron Coalition 成员:Mistral、Perplexity、Cursor 等
硬件适配12B 激活参数可跑在大多数企业现有硬件上
▸ 点击展开详情

Claude 4.6 更新:百万上下文免费开放

03-25
取消长文本溢价,单次请求支持 600 张图像/PDF 同时解析,多模态能力提升 6 倍
1M ctx 免费600 图/PDFAnthropic
核心变化100 万 Token 上下文不再额外收费
多模态单次 600 张图像/PDF,处理能力较上版提升 6 倍
编程可直接生成完整项目代码,搭配长上下文处理大型代码库重构
定价Opus $5/$25 · Sonnet $3/$15 · Haiku $0.25/$1.25 / M tokens
▸ 点击展开详情

Grok 4.20 Beta:史上最低幻觉率 22%

03-12
事实准确性打破所有模型纪录,IFBench 82.9%,265 tokens/s,$2/$6 per M tokens
幻觉率 22%II 48.48xAI
幻觉率22% — Artificial Analysis 有记录以来最低
指令遵循IFBench 82.9%
适用场景法律、金融、医疗、合规 — 对事实准确性要求极高的领域
▸ 点击展开详情
🛠️ 新兴工具 10 条

Mistral Forge:零锁定的自定义模型训练平台

03-17
Mistral 在 GTC 发布的企业级定制训练平台,支持完全自托管,无供应商锁定
训练平台企业级
搭配 Mistral Small 4 (Apache 2.0) 使用,企业可端到端拥有自己的 AI 管线:数据→训练→部署→推理,完全不依赖第三方。
▸ 点击展开详情

Microsoft Copilot Cowork:桌面端 AI Agent

03 月
可直接操控本地桌面应用,Agent 从浏览器走向操作系统级别
桌面AgentMicrosoft
Copilot Cowork 是微软将 Agent 能力从云端延伸到桌面的关键一步,可调度本地文件系统、Office 套件和第三方应用执行任务。
▸ 点击展开详情

Perplexity 持久本地代理:常驻 AI 搜索助手

03 月
本地常驻运行的 AI 代理,持久保持上下文,从「搜索工具」转向「个人研究助理」
本地AgentPerplexity
不同于传统搜索的一次性查询,Perplexity 的持久代理维持长期记忆,理解你的研究历史和偏好,渐进式构建知识图谱。
▸ 点击展开详情

DeerFlow 2.0:字节开源长时程 SuperAgent

03 月
隔离 Agent 环境,支持沙箱/记忆/工具/子代理,本周 GitHub +13,560 星
+13,560 ★开源ByteDance
DeerFlow 2.0 的核心创新是隔离式 Agent 环境——每个子代理在独立沙箱中运行,防止相互污染,适合从几分钟到数小时的复杂任务链编排。
▸ 点击展开详情

NVIDIA Agent Toolkit:开放 Agent 工具包

03-16
GTC 2026 发布,搭配 Nemotron Coalition(Mistral/Perplexity/Cursor),构建开放 Agent 生态
Agent SDKNVIDIA
NVIDIA 不再只做芯片——Agent Toolkit 加上 Nemotron 模型、Vera Rubin 平台,构建了从模型到硬件到工具的完整 Agent 管线。联盟成员包括 Mistral、Perplexity、Cursor。
▸ 点击展开详情

obra/superpowers:Agentic 技能框架

本周
本周 +18,021 星,总星 128,852。一个「真正能用」的 agentic 技能框架与软件开发方法论
+18,021 ★Shell
定位为可落地的开发方法论,而非概念验证。强调技能可组合性、渐进式复杂度和与现有工作流的无缝集成。
▸ 点击展开详情

everything-claude-code:Claude Code 性能优化系统

本周
本周 +19,869 星,总星 128,507。技能/直觉/记忆/安全全栈优化,适配多种 AI 编程工具
+19,869 ★JavaScript
不仅针对 Claude Code,同时适配 Codex、Opencode、Cursor 等主流 AI 编程工具,提供技能系统、直觉引擎、记忆管理和安全检测的完整优化方案。
▸ 点击展开详情

oh-my-claudecode:Teams 多 Agent 协作编排

本周
本周 +6,933 星。面向团队的多 Agent 编排层,让 Claude Code 支持协作开发
+6,933 ★TypeScript
解决 AI 编程工具在团队场景下的协作痛点,支持多个 Agent 并行工作、任务分发、代码合并和冲突解决。
▸ 点击展开详情

AI-Scientist-v2 (SakanaAI):自动化科学发现

本周
本周 +1,814 星。Workshop 级别的自动化科学发现系统,采用 agentic 树搜索
+1,814 ★Python科研
第二代 AI 科学家系统,通过 agentic 树搜索自主探索研究方向、设计实验、执行代码和撰写论文,已产出 workshop 级别的研究成果。
▸ 点击展开详情

last30days-skill:跨平台 AI 信息检索 Agent

本周
本周 +11,933 星。横跨 Reddit/X/YouTube/HN/Polymarket 及全网的主题研究 Agent 技能
+11,933 ★Python
一个 AI Agent 技能插件,输入任意主题,自动横跨 Reddit、X、YouTube、Hacker News、Polymarket 及全网搜集信息,生成有据可查的综合摘要。70% 星标来自本周。
▸ 点击展开详情
🔬 开源项目 GitHub 本周热榜 · TOP 10
项目总星标本周增长简介
#1affaan-m/everything-claude-code128,507+19,869AI 编程助手优化系统
#2obra/superpowers128,852+18,021Agentic 技能框架与开发方法论
#3bytedance/deer-flow55,588+13,560长时程 SuperAgent 框架
#4mvanhorn/last30days-skill17,020+11,933AI 信息检索 Agent 技能
#5microsoft/VibeVoice33,588+8,327开源前沿语音 AI
#6NousResearch/hermes-agent20,774+7,539可进化的 AI Agent
#7Yeachan-Heo/oh-my-claudecode19,749+6,933多 Agent 协作编排
#8hacksider/Deep-Live-Cam87,142+6,693实时换脸 / 视频深伪
#9pascalorg/editor8,863+4,5843D 建筑项目编辑器
#10SakanaAI/AI-Scientist-v24,261+1,814自动化科学发现
订阅功能即将上线,敬请期待