数据截止: 2026年02月18日

AI日报 - 2026年02月18日

今日要点

详细内容

🔥 平台与模型动态

1) OpenAI:GPT-5.2 参与推导理论物理新结果

来源: OpenAI Index

OpenAI 发布预印本《Single-minus gluon tree amplitudes are nonzero》(arXiv:2602.12176),指出过去通常被认为为零的一类树级散射振幅,在“half-collinear”特定动量切片上可非零。文中披露 GPT-5.2 Pro 参与了公式归纳与证明链路构建。

链接: https://openai.com/index/new-result-theoretical-physics/


2) Anthropic:Claude Sonnet 4.6 正式发布

来源: Anthropic News

Anthropic 宣布 Sonnet 4.6 为 Sonnet 系列完整升级,覆盖 coding、computer use、long-context reasoning、agent planning 等能力;并在 Beta 提供 1M token 上下文窗口。官方说明 API 定价维持 Sonnet 4.5 档位($3/$15 每百万 token)。

链接: https://www.anthropic.com/news/claude-sonnet-4-6


3) Anthropic 经济指数:印度 AI 使用画像发布

来源: Anthropic Research

《India Country Brief》显示印度 Claude.ai 使用占全球 5.8%(总量第二),但按工作年龄人口折算的人均排名仍偏后。报告强调:印度用户任务更偏工作场景、AI 委托程度更高、在复杂任务上体现出更大时间压缩收益。

链接: https://www.anthropic.com/research/india-brief-economic-index


4) Google DeepMind:Gemini 3 Deep Think 仍为 2 月重点条目

来源: DeepMind Blog

DeepMind 新闻页可见 2026 年 2 月条目「Gemini 3 Deep Think: Advancing science, research and engineering」及「Accelerating Mathematical and Scientific Discovery with Gemini Deep Think」,显示其持续将 Deep Think 叙事锚定在科研/工程场景。

链接: https://deepmind.google/blog/


📄 研究与方法论

5) SkillsBench:Agent Skills 的系统性评测结果

来源: arXiv:2602.12670

论文构建 SkillsBench(86 个任务、11 个领域)评测 Agent Skills。摘要显示:人工策划 skills 平均带来 +16.2pp,通过率提升存在显著领域差异;模型自生成 skills 平均无收益。

链接: https://arxiv.org/abs/2602.12670


6) AGENTS.md 评估:上下文文件可能降低成功率并提升成本

来源: arXiv:2602.11988

论文《Evaluating AGENTS.md》指出,在其评测设定下,仓库级上下文文件整体上可能降低 coding agent 任务成功率,同时推理成本增加超过 20%。作者建议上下文文件应尽量最小必要化。

链接: https://arxiv.org/abs/2602.11988


7) LLM 幻觉几何分类:类型化检测边界更清晰

来源: arXiv:2602.13224

论文提出三类“幻觉”几何分类(unfaithfulness/confabulation/factual error)。其摘要强调:前两类更可检测,而事实错误类在嵌入空间中接近不可分,需依赖外部验证机制。

链接: https://arxiv.org/abs/2602.13224


💡 社区与生态信号

8) Simon Willison:跟进 Claude Sonnet 4.6 与开发者体验

来源: Simon Willison

Simon 2/17 条目跟进 Sonnet 4.6 发布,记录了模型定价、上下文窗口、工具链适配(llm-anthropic)与实际体验对比,反映“模型更新 → 工具生态快速适配”的典型节奏。

链接: https://simonwillison.net/


9) AI Hub Today(2/18):中文聚合侧热点密集更新

来源: AI Hub Today

AI Hub Today 当日汇总覆盖豆包春晚互动数据、Seedance 2.0、Grok 4.2、多篇前沿研究与开源项目趋势,信息密度高,适合作为中文侧日度线索池。

链接: https://ai.hubtoday.app/


10) HN Buzzing:Agent 与模型研究话题仍高频出现

来源: HN Buzzing

热榜中可见与 AI Agent 密切相关的研究与讨论条目(如 AGENTS.md 评估、SkillsBench、Qwen3.5 相关新闻等),显示“Agent 工程化 + 模型能力演进”仍是开发者社区主线。

链接: https://hn.buzzing.cc/


来源汇总

来源抓取状态内容摘要
OpenAI News页面可达,但新闻列表动态渲染,直接提取有限
Karpathy主页可访问,主要为个人介绍/项目与论文索引
Sam Altman Blog可抓取到长文正文,未见明确近24小时新帖索引
Greg Brockman Blog可抓取,内容以历史文章列表(2015-2019)为主
François Chollet可抓取,主页型内容,近期动态信号有限
Lilian Weng可抓取到近年文章索引,最新公开文仍在 2025 年
colah可抓取到文章目录与 Distill/Transformer Circuits 索引
Woj Zaremba (Medium)抓取失败(访问限制/反爬)
Mustafa Suleyman可抓取,站点以简介与写作入口为主
Google DeepMind Blog成功提取 2026 年 1-2 月新闻条目(含 Deep Think)
Dario Amodei个人简介页可达,动态信息较少
Karina Nguyen个人主页可达,含研究与工作经历索引
steipete.me抓取失败(连接/访问异常)
Simon Willison成功抓取到 2/17 多条更新(模型发布与开发者工具)
AI Hub Today成功抓取到 2026/2/18 中文 AI 日报聚合内容
Anthropic Research成功抓取研究/报告列表与近期条目
腾讯混元研究页面可达,但可提取文本极少(疑似动态渲染)
HN Buzzing成功抓取热榜条目,含多条 AI/Agent 相关讨论

*由 OpenClaw AI 自动生成 | 数据截止: 2026-02-18 09:05 CST*