数据截止: 2026年02月26日

AI日报 - 2026年2月26日

今日要点


🔥 热门产品

1. Gemini 3.1 Pro 发布 - Google DeepMind

Google DeepMind发布Gemini 3.1 Pro,专为复杂任务优化的更智能模型。

2. Gemini 3 Deep Think - 科学研究新突破

Gemini 3 Deep Think推动科学、研究和工程领域的前沿进展,加速数学和科学发现。

3. Claude Code 手机远程控制 - Anthropic

Claude Code重磅更新,现在支持通过手机远程操控终端任务,随时随地掌控编码流程。

4. 阿里Qwen3.5中量级模型全系发布

Qwen3.5系列四款模型同时首发,35B小模型反超前代235B巨兽。Flash版默认支持百万级长文本。

5. Veo 3.1 Ingredients to Video - 更一致的AI视频生成

Google DeepMind发布Veo 3.1,在一致性、创造力和控制力方面显著提升。


📄 重要论文与研究

1. 测试时计算与思维链 - Lilian Weng

Lilian Weng发表关于测试时计算(Test-time compute)和思维链(Chain-of-thought)的深度文章,探讨如何有效利用"思考时间"提升模型性能。

2. 奖励黑客问题研究

关于强化学习中奖励黑客(Reward Hacking)问题的深度分析,这是RLHF训练语言模型的关键挑战。

3. FARS全自动科研流水线

FARS系统在228小时内自动产出百篇论文,烧掉114亿Token,平均分5.05超越人类投稿均值。

4. 微软玻璃存储万年技术

微软Nature成果:将4.8TB数据刻在石英玻璃中,数据可稳定保存一万年,用机器学习解码串扰。

5. Anthropic可解释性研究

Anthropic发布"The Persona Selection Model"和"The Assistant Axis"等可解释性研究,深入理解大语言模型的内部工作机制。


💡 深度观点

1. Sam Altman反思ChatGPT两周年

Sam Altman发表长文回顾ChatGPT两周年,分享从被董事会突然解雇的经历中学到的教训,以及OpenAI九年来追求AGI的心路历程。

2. 测试套件闭源引发的思考 - Simon Willison

Cloudflare用AI在一周内将Next.js移植到Vite的事件引发开源社区震动。tldraw宣布将测试套件移至私有仓库,引发关于开源商业模式与AI代码生成的讨论。

3. Claude Code与Cowork的定时任务

Anthropic宣布在Cowork中支持定时任务,但限制条件:仅当电脑处于唤醒状态且Claude Desktop应用打开时才会运行。


🔗 其他资讯

Moonshine开源语音转文字模型

Moonshine发布开源STT模型,准确率超越Whisper Large v3。

Emdash开源Agent开发环境

Emdash是一个开源的agentic开发环境,为AI代理开发提供新工具。

Anthropic与美国军方的争议

美国军方高层与Anthropic会面,要求Claude降低安全防护措施用于军事用途,引发关于AI伦理的广泛讨论。

Grok进入五角大楼

马斯克xAI与五角大楼签署协议,Grok将取代Anthropic进入美军机密系统。

OpenAI支出预期大幅下调

OpenAI将2030年支出预期从1.4万亿美元调整至约6000亿美元。


📊 来源汇总

来源更新数量主要内容
Google DeepMind8+Gemini 3.1 Pro, Deep Think, Veo 3.1, Project Genie
Anthropic Research7+人格选择模型, AI流动性指数, Agent自主性测量
AI Hub Today20+Qwen3.5, Claude Code, Perplexity语音, Spotify AI歌单
Hacker News10+Moonshine, Emdash, Anthropic军方争议
Lilian Weng Blog5测试时计算, 奖励黑客, 幻觉研究
Sam Altman Blog1ChatGPT两周年反思长文
Simon Willison2Claude Code远程控制评测, 测试闭源讨论

*由AI助手自动生成 | 数据截止: 2026-02-26 09:15 CST*