# AI日报 - 2026年2月26日

## 今日要点
- Google DeepMind密集发布：Gemini 3.1 Pro、Gemini 3 Deep Think、Veo 3.1、Project Genie等多项更新
- Anthropic发布Claude Code远程控制功能，支持手机操控终端任务
- 阿里Qwen3.5系列四款中量级模型发布，35B版本超越前代235B性能
- Claude Code攻克COBOL重构，IBM股价单日暴跌13%
- OpenAI支出预期从1.4万亿美元调整至6000亿美元

---

## 🔥 热门产品

### 1. Gemini 3.1 Pro 发布 - Google DeepMind
Google DeepMind发布Gemini 3.1 Pro，专为复杂任务优化的更智能模型。
- [来源](https://deepmind.google/blog/)

### 2. Gemini 3 Deep Think - 科学研究新突破
Gemini 3 Deep Think推动科学、研究和工程领域的前沿进展，加速数学和科学发现。
- [详情](https://deepmind.google/blog/)

### 3. Claude Code 手机远程控制 - Anthropic
Claude Code重磅更新，现在支持通过手机远程操控终端任务，随时随地掌控编码流程。
- [Claude Code](https://claude.ai/code)
- [Simon Willison评测](https://simonwillison.net/2026/Feb/25/claude-code-remote/)

### 4. 阿里Qwen3.5中量级模型全系发布
Qwen3.5系列四款模型同时首发，35B小模型反超前代235B巨兽。Flash版默认支持百万级长文本。
- [HuggingFace](https://huggingface.co/collections/Qwen/qwen35)
- [ModelScope](https://modelscope.cn/collections/Qwen/Qwen35)
- [在线体验](https://chat.qwen.ai/?models=qwen3.5-flash)

### 5. Veo 3.1 Ingredients to Video - 更一致的AI视频生成
Google DeepMind发布Veo 3.1，在一致性、创造力和控制力方面显著提升。
- [来源](https://deepmind.google/blog/)

---

## 📄 重要论文与研究

### 1. 测试时计算与思维链 - Lilian Weng
Lilian Weng发表关于测试时计算(Test-time compute)和思维链(Chain-of-thought)的深度文章，探讨如何有效利用"思考时间"提升模型性能。
- [文章链接](https://lilianweng.github.io/posts/2025-05-01-thinking/)

### 2. 奖励黑客问题研究
关于强化学习中奖励黑客(Reward Hacking)问题的深度分析，这是RLHF训练语言模型的关键挑战。
- [文章链接](https://lilianweng.github.io/posts/2024-11-28-reward-hacking/)

### 3. FARS全自动科研流水线
FARS系统在228小时内自动产出百篇论文，烧掉114亿Token，平均分5.05超越人类投稿均值。
- [直播观看](https://analemma.ai/fars)

### 4. 微软玻璃存储万年技术
微软Nature成果：将4.8TB数据刻在石英玻璃中，数据可稳定保存一万年，用机器学习解码串扰。
- [论文详情](https://www.nature.com/articles/s41586-025-10042-w)

### 5. Anthropic可解释性研究
Anthropic发布"The Persona Selection Model"和"The Assistant Axis"等可解释性研究，深入理解大语言模型的内部工作机制。
- [人格选择模型](https://www.anthropic.com/research/persona-selection-model)
- [Assistant Axis](https://www.anthropic.com/research/assistant-axis)

---

## 💡 深度观点

### 1. Sam Altman反思ChatGPT两周年
Sam Altman发表长文回顾ChatGPT两周年，分享从被董事会突然解雇的经历中学到的教训，以及OpenAI九年来追求AGI的心路历程。
- 核心观点："我们在未知水域快速前进是一段令人难以置信的经历，但也给所有参与者带来巨大压力"
- [博客原文](https://blog.samaltman.com/)

### 2. 测试套件闭源引发的思考 - Simon Willison
Cloudflare用AI在一周内将Next.js移植到Vite的事件引发开源社区震动。tldraw宣布将测试套件移至私有仓库，引发关于开源商业模式与AI代码生成的讨论。
- [详细分析](https://simonwillison.net/2026/Feb/25/closed-tests/)

### 3. Claude Code与Cowork的定时任务
Anthropic宣布在Cowork中支持定时任务，但限制条件：仅当电脑处于唤醒状态且Claude Desktop应用打开时才会运行。
- [官方文档](https://support.claude.com/en/articles/13854387-schedule-recurring-tasks-in-cowork)

---

## 🔗 其他资讯

### Moonshine开源语音转文字模型
Moonshine发布开源STT模型，准确率超越Whisper Large v3。
- [GitHub](https://github.com/moonshine-ai/moonshine)

### Emdash开源Agent开发环境
Emdash是一个开源的agentic开发环境，为AI代理开发提供新工具。
- [GitHub](https://github.com/generalaction/emdash)

### Anthropic与美国军方的争议
美国军方高层与Anthropic会面，要求Claude降低安全防护措施用于军事用途，引发关于AI伦理的广泛讨论。
- [The Guardian报道](https://www.theguardian.com/us-news/2026/feb/24/anthropic-claude-military-ai)
- [Time报道](https://time.com/7380854/exclusive-anthropic-drops-flagship-safety-pledge/)

### Grok进入五角大楼
马斯克xAI与五角大楼签署协议，Grok将取代Anthropic进入美军机密系统。
- [AI Base报道](https://www.aibase.com/zh/news/25625)

### OpenAI支出预期大幅下调
OpenAI将2030年支出预期从1.4万亿美元调整至约6000亿美元。
- [CNBC报道](https://www.cnbc.com/2026/02/20/openai-resets-spend-expectations-targets-around-600-billion-by-2030.html)

---

## 📊 来源汇总
| 来源 | 更新数量 | 主要内容 |
|------|----------|----------|
| Google DeepMind | 8+ | Gemini 3.1 Pro, Deep Think, Veo 3.1, Project Genie |
| Anthropic Research | 7+ | 人格选择模型, AI流动性指数, Agent自主性测量 |
| AI Hub Today | 20+ | Qwen3.5, Claude Code, Perplexity语音, Spotify AI歌单 |
| Hacker News | 10+ | Moonshine, Emdash, Anthropic军方争议 |
| Lilian Weng Blog | 5 | 测试时计算, 奖励黑客, 幻觉研究 |
| Sam Altman Blog | 1 | ChatGPT两周年反思长文 |
| Simon Willison | 2 | Claude Code远程控制评测, 测试闭源讨论 |

---

*由AI助手自动生成 | 数据截止: 2026-02-26 09:15 CST*