# AI日报 - 2026年02月18日

## 今日要点
- OpenAI 发布预印本，披露 GPT-5.2 参与推导理论物理新结果（单负螺旋度胶子树振幅在特定条件下非零）。
- Anthropic 发布 Claude Sonnet 4.6：保持 Sonnet 价格档位，主打编码、长上下文与计算机使用能力升级。
- Anthropic 发布《India Country Brief》，显示印度在 Claude.ai 使用占比全球第二，但人均渗透仍有巨大增长空间。
- Google DeepMind 新闻页出现 2026 年 2 月重点条目：Gemini 3 Deep Think 及其科学研究相关发布。
- 社区研究与讨论继续升温：AGENTS.md 有效性质疑、Agent Skill 基准、LLM 幻觉几何分类等议题集中出现。

## 详细内容

### 🔥 平台与模型动态

#### 1) OpenAI：GPT-5.2 参与推导理论物理新结果
**来源**: [OpenAI Index](https://openai.com/index/new-result-theoretical-physics/)

OpenAI 发布预印本《Single-minus gluon tree amplitudes are nonzero》（arXiv:2602.12176），指出过去通常被认为为零的一类树级散射振幅，在“half-collinear”特定动量切片上可非零。文中披露 GPT-5.2 Pro 参与了公式归纳与证明链路构建。

**链接**: https://openai.com/index/new-result-theoretical-physics/

---

#### 2) Anthropic：Claude Sonnet 4.6 正式发布
**来源**: [Anthropic News](https://www.anthropic.com/news/claude-sonnet-4-6)

Anthropic 宣布 Sonnet 4.6 为 Sonnet 系列完整升级，覆盖 coding、computer use、long-context reasoning、agent planning 等能力；并在 Beta 提供 1M token 上下文窗口。官方说明 API 定价维持 Sonnet 4.5 档位（$3/$15 每百万 token）。

**链接**: https://www.anthropic.com/news/claude-sonnet-4-6

---

#### 3) Anthropic 经济指数：印度 AI 使用画像发布
**来源**: [Anthropic Research](https://www.anthropic.com/research/india-brief-economic-index)

《India Country Brief》显示印度 Claude.ai 使用占全球 5.8%（总量第二），但按工作年龄人口折算的人均排名仍偏后。报告强调：印度用户任务更偏工作场景、AI 委托程度更高、在复杂任务上体现出更大时间压缩收益。

**链接**: https://www.anthropic.com/research/india-brief-economic-index

---

#### 4) Google DeepMind：Gemini 3 Deep Think 仍为 2 月重点条目
**来源**: [DeepMind Blog](https://deepmind.google/blog/)

DeepMind 新闻页可见 2026 年 2 月条目「Gemini 3 Deep Think: Advancing science, research and engineering」及「Accelerating Mathematical and Scientific Discovery with Gemini Deep Think」，显示其持续将 Deep Think 叙事锚定在科研/工程场景。

**链接**: https://deepmind.google/blog/

---

### 📄 研究与方法论

#### 5) SkillsBench：Agent Skills 的系统性评测结果
**来源**: [arXiv:2602.12670](https://arxiv.org/abs/2602.12670)

论文构建 SkillsBench（86 个任务、11 个领域）评测 Agent Skills。摘要显示：人工策划 skills 平均带来 +16.2pp，通过率提升存在显著领域差异；模型自生成 skills 平均无收益。

**链接**: https://arxiv.org/abs/2602.12670

---

#### 6) AGENTS.md 评估：上下文文件可能降低成功率并提升成本
**来源**: [arXiv:2602.11988](https://arxiv.org/abs/2602.11988)

论文《Evaluating AGENTS.md》指出，在其评测设定下，仓库级上下文文件整体上可能降低 coding agent 任务成功率，同时推理成本增加超过 20%。作者建议上下文文件应尽量最小必要化。

**链接**: https://arxiv.org/abs/2602.11988

---

#### 7) LLM 幻觉几何分类：类型化检测边界更清晰
**来源**: [arXiv:2602.13224](https://arxiv.org/abs/2602.13224)

论文提出三类“幻觉”几何分类（unfaithfulness/confabulation/factual error）。其摘要强调：前两类更可检测，而事实错误类在嵌入空间中接近不可分，需依赖外部验证机制。

**链接**: https://arxiv.org/abs/2602.13224

---

### 💡 社区与生态信号

#### 8) Simon Willison：跟进 Claude Sonnet 4.6 与开发者体验
**来源**: [Simon Willison](https://simonwillison.net/)

Simon 2/17 条目跟进 Sonnet 4.6 发布，记录了模型定价、上下文窗口、工具链适配（llm-anthropic）与实际体验对比，反映“模型更新 → 工具生态快速适配”的典型节奏。

**链接**: https://simonwillison.net/

---

#### 9) AI Hub Today（2/18）：中文聚合侧热点密集更新
**来源**: [AI Hub Today](https://ai.hubtoday.app/)

AI Hub Today 当日汇总覆盖豆包春晚互动数据、Seedance 2.0、Grok 4.2、多篇前沿研究与开源项目趋势，信息密度高，适合作为中文侧日度线索池。

**链接**: https://ai.hubtoday.app/

---

#### 10) HN Buzzing：Agent 与模型研究话题仍高频出现
**来源**: [HN Buzzing](https://hn.buzzing.cc/)

热榜中可见与 AI Agent 密切相关的研究与讨论条目（如 AGENTS.md 评估、SkillsBench、Qwen3.5 相关新闻等），显示“Agent 工程化 + 模型能力演进”仍是开发者社区主线。

**链接**: https://hn.buzzing.cc/

---

## 来源汇总

| 来源 | 抓取状态 | 内容摘要 |
|---|---|---|
| OpenAI News | ✅ | 页面可达，但新闻列表动态渲染，直接提取有限 |
| Karpathy | ✅ | 主页可访问，主要为个人介绍/项目与论文索引 |
| Sam Altman Blog | ✅ | 可抓取到长文正文，未见明确近24小时新帖索引 |
| Greg Brockman Blog | ✅ | 可抓取，内容以历史文章列表（2015-2019）为主 |
| François Chollet | ✅ | 可抓取，主页型内容，近期动态信号有限 |
| Lilian Weng | ✅ | 可抓取到近年文章索引，最新公开文仍在 2025 年 |
| colah | ✅ | 可抓取到文章目录与 Distill/Transformer Circuits 索引 |
| Woj Zaremba (Medium) | ❌ | 抓取失败（访问限制/反爬） |
| Mustafa Suleyman | ✅ | 可抓取，站点以简介与写作入口为主 |
| Google DeepMind Blog | ✅ | 成功提取 2026 年 1-2 月新闻条目（含 Deep Think） |
| Dario Amodei | ✅ | 个人简介页可达，动态信息较少 |
| Karina Nguyen | ✅ | 个人主页可达，含研究与工作经历索引 |
| steipete.me | ❌ | 抓取失败（连接/访问异常） |
| Simon Willison | ✅ | 成功抓取到 2/17 多条更新（模型发布与开发者工具） |
| AI Hub Today | ✅ | 成功抓取到 2026/2/18 中文 AI 日报聚合内容 |
| Anthropic Research | ✅ | 成功抓取研究/报告列表与近期条目 |
| 腾讯混元研究 | ✅ | 页面可达，但可提取文本极少（疑似动态渲染） |
| HN Buzzing | ✅ | 成功抓取热榜条目，含多条 AI/Agent 相关讨论 |

---
*由 OpenClaw AI 自动生成 | 数据截止: 2026-02-18 09:05 CST*