数据截止: 2026年02月18日

AI日报 - 2026年02月18日

今日要点

OpenAI 发布预印本，披露 GPT-5.2 参与推导理论物理新结果（单负螺旋度胶子树振幅在特定条件下非零）。
Anthropic 发布 Claude Sonnet 4.6：保持 Sonnet 价格档位，主打编码、长上下文与计算机使用能力升级。
Anthropic 发布《India Country Brief》，显示印度在 Claude.ai 使用占比全球第二，但人均渗透仍有巨大增长空间。
Google DeepMind 新闻页出现 2026 年 2 月重点条目：Gemini 3 Deep Think 及其科学研究相关发布。
社区研究与讨论继续升温：AGENTS.md 有效性质疑、Agent Skill 基准、LLM 幻觉几何分类等议题集中出现。

详细内容

🔥 平台与模型动态

1) OpenAI：GPT-5.2 参与推导理论物理新结果

OpenAI 发布预印本《Single-minus gluon tree amplitudes are nonzero》（arXiv:2602.12176），指出过去通常被认为为零的一类树级散射振幅，在“half-collinear”特定动量切片上可非零。文中披露 GPT-5.2 Pro 参与了公式归纳与证明链路构建。

链接: https://openai.com/index/new-result-theoretical-physics/

2) Anthropic：Claude Sonnet 4.6 正式发布

来源: Anthropic News

Anthropic 宣布 Sonnet 4.6 为 Sonnet 系列完整升级，覆盖 coding、computer use、long-context reasoning、agent planning 等能力；并在 Beta 提供 1M token 上下文窗口。官方说明 API 定价维持 Sonnet 4.5 档位（$3/$15 每百万 token）。

链接: https://www.anthropic.com/news/claude-sonnet-4-6

3) Anthropic 经济指数：印度 AI 使用画像发布

来源: Anthropic Research

《India Country Brief》显示印度 Claude.ai 使用占全球 5.8%（总量第二），但按工作年龄人口折算的人均排名仍偏后。报告强调：印度用户任务更偏工作场景、AI 委托程度更高、在复杂任务上体现出更大时间压缩收益。

链接: https://www.anthropic.com/research/india-brief-economic-index

4) Google DeepMind：Gemini 3 Deep Think 仍为 2 月重点条目

来源: DeepMind Blog

DeepMind 新闻页可见 2026 年 2 月条目「Gemini 3 Deep Think: Advancing science, research and engineering」及「Accelerating Mathematical and Scientific Discovery with Gemini Deep Think」，显示其持续将 Deep Think 叙事锚定在科研/工程场景。

链接: https://deepmind.google/blog/

📄 研究与方法论

5) SkillsBench：Agent Skills 的系统性评测结果

来源: arXiv:2602.12670

论文构建 SkillsBench（86 个任务、11 个领域）评测 Agent Skills。摘要显示：人工策划 skills 平均带来 +16.2pp，通过率提升存在显著领域差异；模型自生成 skills 平均无收益。

链接: https://arxiv.org/abs/2602.12670

6) AGENTS.md 评估：上下文文件可能降低成功率并提升成本

来源: arXiv:2602.11988

论文《Evaluating AGENTS.md》指出，在其评测设定下，仓库级上下文文件整体上可能降低 coding agent 任务成功率，同时推理成本增加超过 20%。作者建议上下文文件应尽量最小必要化。

链接: https://arxiv.org/abs/2602.11988

7) LLM 幻觉几何分类：类型化检测边界更清晰

来源: arXiv:2602.13224

论文提出三类“幻觉”几何分类（unfaithfulness/confabulation/factual error）。其摘要强调：前两类更可检测，而事实错误类在嵌入空间中接近不可分，需依赖外部验证机制。

链接: https://arxiv.org/abs/2602.13224

💡 社区与生态信号

8) Simon Willison：跟进 Claude Sonnet 4.6 与开发者体验

来源: Simon Willison

Simon 2/17 条目跟进 Sonnet 4.6 发布，记录了模型定价、上下文窗口、工具链适配（llm-anthropic）与实际体验对比，反映“模型更新 → 工具生态快速适配”的典型节奏。

链接: https://simonwillison.net/

9) AI Hub Today（2/18）：中文聚合侧热点密集更新

来源: AI Hub Today

AI Hub Today 当日汇总覆盖豆包春晚互动数据、Seedance 2.0、Grok 4.2、多篇前沿研究与开源项目趋势，信息密度高，适合作为中文侧日度线索池。

链接: https://ai.hubtoday.app/

10) HN Buzzing：Agent 与模型研究话题仍高频出现

来源: HN Buzzing

热榜中可见与 AI Agent 密切相关的研究与讨论条目（如 AGENTS.md 评估、SkillsBench、Qwen3.5 相关新闻等），显示“Agent 工程化 + 模型能力演进”仍是开发者社区主线。

链接: https://hn.buzzing.cc/

来源汇总

来源	抓取状态	内容摘要
OpenAI News	✅	页面可达，但新闻列表动态渲染，直接提取有限
Karpathy	✅	主页可访问，主要为个人介绍/项目与论文索引
Sam Altman Blog	✅	可抓取到长文正文，未见明确近24小时新帖索引
Greg Brockman Blog	✅	可抓取，内容以历史文章列表（2015-2019）为主
François Chollet	✅	可抓取，主页型内容，近期动态信号有限
Lilian Weng	✅	可抓取到近年文章索引，最新公开文仍在 2025 年
colah	✅	可抓取到文章目录与 Distill/Transformer Circuits 索引
Woj Zaremba (Medium)	❌	抓取失败（访问限制/反爬）
Mustafa Suleyman	✅	可抓取，站点以简介与写作入口为主
Google DeepMind Blog	✅	成功提取 2026 年 1-2 月新闻条目（含 Deep Think）
Dario Amodei	✅	个人简介页可达，动态信息较少
Karina Nguyen	✅	个人主页可达，含研究与工作经历索引
steipete.me	❌	抓取失败（连接/访问异常）
Simon Willison	✅	成功抓取到 2/17 多条更新（模型发布与开发者工具）
AI Hub Today	✅	成功抓取到 2026/2/18 中文 AI 日报聚合内容
Anthropic Research	✅	成功抓取研究/报告列表与近期条目
腾讯混元研究	✅	页面可达，但可提取文本极少（疑似动态渲染）
HN Buzzing	✅	成功抓取热榜条目，含多条 AI/Agent 相关讨论

*由 OpenClaw AI 自动生成 | 数据截止: 2026-02-18 09:05 CST*