一位 Claude Pro 用户发现了一个令人困惑的现象:每天早上他会问Claude一个简单问题来启动计时器,结果发现仅仅一句“2+2”就消耗了3%到4%的使用额度。这在社区引发了热烈讨论。
【新智元导读】一天之内,两大编程AI轮番轰炸硅谷。Claude Opus 4.6之后,奥特曼紧急放出GPT-5.3-Codex。双雄争霸,彻底撕开AI王座争夺战的帷幕。
OpenAI联合创始人兼首席执行官Sam Altman表示,GPT-5.3-Codex在SWE-Bench Pro为 57%,TerminalBench 2.0 76%,OSWorld 64%成为目前最强代码模型。 首先是编程领域的硬通货测试SWE-Bench Pro,这个测试可不简单,不像以前只考Python ...
而这辆小米 SU7,一年半就跑完了远超多数品牌质保里程上限的26.5万公里,电池衰减却只有 5.5%,远低于行业普遍的质保衰减标准。对关注新能源汽车耐用性的消费者而言,这样一组来自真实用车场景的实测数据,比实验室里的理想参数更具说服力。
这项由华盛顿大学数学人工智能实验室领导的研究发表于2026年2月的预印本论文,论文编号为arXiv:2602.05216v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
Anthropic刚发了Claude Opus 4.6,OpenAI也发了GPT‑5.3-Codex,在Codex app里已经能用了。我这稿子写一半直接重新写啊。马上来看看这两模型的评分,它们强化了那些点,以及除了模型本身,还带来了什么更新。
Omdia 最新分析指出,在2026年巴塞罗那欧洲视听技术及系统集成展(Integrated Systems Europe,ISE)上,人工智能(AI)、网络安全、机器人技术与可持续发展正加速融合,重塑Pro AV市场。该展会将于2026年2月3–6日在巴塞罗那举行,重点展示这些技术如何推动ProAV应用从传统场景向更广泛领域延伸。 ISE 2026趋势:AI驱动的音视频技术 AI正在重新定义Pr ...
近期,开源AI助理项目OpenClaw凭借其红色龙虾标志引发广泛关注,短短数日内在GitHub平台斩获超16万次星标。这款通过WhatsApp、Telegram等即时通讯工具即可调用的智能助手,宣称能自动处理邮件、日程管理、网页浏览等复杂任务,甚至支 ...
在知识工作能力的评测GDPval-AA 上,Opus 4.6比OpenAI的GPT-5.2高出约144Elo分,比自己的前代Opus 4.5高出190分。这个测试涵盖了金融、法律等领域的实际工作任务,比如制作财务分析报告、起草法律文件、做市场调研等。
最近,OpenClaw 火得一塌糊涂。 短短几天,这个顶着红色龙虾 Logo 的开源 AI 助理 OpenClaw,就在 GitHub 上斩获超 16 万 star 量。 它就像一个 24X7 在线的超级员工,只需通过 WhatsApp、Telegram 等聊天软件发指令,就能自动处理邮件、整理日历、浏览网页、管理文件,甚至执行代码或完成复杂任务。 但火归火,问题也不少。除了部署复杂、合规性差外, ...