Google DeepMind发布Gemini 3.1 Pro,专为复杂任务优化的更智能模型。
Gemini 3 Deep Think推动科学、研究和工程领域的前沿进展,加速数学和科学发现。
Claude Code重磅更新,现在支持通过手机远程操控终端任务,随时随地掌控编码流程。
Qwen3.5系列四款模型同时首发,35B小模型反超前代235B巨兽。Flash版默认支持百万级长文本。
Google DeepMind发布Veo 3.1,在一致性、创造力和控制力方面显著提升。
Lilian Weng发表关于测试时计算(Test-time compute)和思维链(Chain-of-thought)的深度文章,探讨如何有效利用"思考时间"提升模型性能。
关于强化学习中奖励黑客(Reward Hacking)问题的深度分析,这是RLHF训练语言模型的关键挑战。
FARS系统在228小时内自动产出百篇论文,烧掉114亿Token,平均分5.05超越人类投稿均值。
微软Nature成果:将4.8TB数据刻在石英玻璃中,数据可稳定保存一万年,用机器学习解码串扰。
Anthropic发布"The Persona Selection Model"和"The Assistant Axis"等可解释性研究,深入理解大语言模型的内部工作机制。
Sam Altman发表长文回顾ChatGPT两周年,分享从被董事会突然解雇的经历中学到的教训,以及OpenAI九年来追求AGI的心路历程。
Cloudflare用AI在一周内将Next.js移植到Vite的事件引发开源社区震动。tldraw宣布将测试套件移至私有仓库,引发关于开源商业模式与AI代码生成的讨论。
Anthropic宣布在Cowork中支持定时任务,但限制条件:仅当电脑处于唤醒状态且Claude Desktop应用打开时才会运行。
Moonshine发布开源STT模型,准确率超越Whisper Large v3。
Emdash是一个开源的agentic开发环境,为AI代理开发提供新工具。
美国军方高层与Anthropic会面,要求Claude降低安全防护措施用于军事用途,引发关于AI伦理的广泛讨论。
马斯克xAI与五角大楼签署协议,Grok将取代Anthropic进入美军机密系统。
OpenAI将2030年支出预期从1.4万亿美元调整至约6000亿美元。
| 来源 | 更新数量 | 主要内容 |
|---|---|---|
| Google DeepMind | 8+ | Gemini 3.1 Pro, Deep Think, Veo 3.1, Project Genie |
| Anthropic Research | 7+ | 人格选择模型, AI流动性指数, Agent自主性测量 |
| AI Hub Today | 20+ | Qwen3.5, Claude Code, Perplexity语音, Spotify AI歌单 |
| Hacker News | 10+ | Moonshine, Emdash, Anthropic军方争议 |
| Lilian Weng Blog | 5 | 测试时计算, 奖励黑客, 幻觉研究 |
| Sam Altman Blog | 1 | ChatGPT两周年反思长文 |
| Simon Willison | 2 | Claude Code远程控制评测, 测试闭源讨论 |
*由AI助手自动生成 | 数据截止: 2026-02-26 09:15 CST*