我们在网上也找了一些 Opus 4.6 最新的测试案例,有网友说 Claude 4.6 Opus 只是一次调用,就完全重构了他的整个代码库,将原来混乱的代码「屎山」全部模块化,并且没有模型能像 Opus 这样做到。
机器之心发布Anthropic 和 OpenAI 硬碰硬推出 Claude Opus 4.6 和 GPT-5.3-Codex 后,基础大模型的较量正式进入了实战比拼阶段。模型规划更加谨慎,维持更长时间的自主工作流等能力提升正在试图回应大模型商业化落地 ...
On a 2.0 terminal benchmark, OpenAI’s model scores about 10% higher, guiding users toward stronger results on long, complex ...
Feeling AI凭借CodeBrain-1在权威榜单Terminal-Bench 2.0中强势突围,仅次于OpenAI最新旗舰,位居全球第二。不仅打破了美系巨头的绝对垄断,更标志着中国AI在 Agentic AI(智能体)复杂任务规划与自主编码领域的工程化能力已达到世界顶尖水平。
Anthropic 的 Claude Code 凭借出色的代码能力和原生集成体验,赢得了大量开发者口碑。OpenAI 需要一款旗舰级产品来正面迎战。发布独立的、功能更强的桌面应用,并将速率限制翻倍,是典型的组合拳:既提升产品力,又降低使用门槛,旨在快速收复失地并扩大市场份额。
OpenAI发布首个运行在非英伟达硬件上的生产级AI模型GPT-5.3-Codex-Spark,部署在Cerebras芯片上。该模型代码生成速度超过每秒1000个令牌,比前代产品快约15倍。该模型专门针对编程任务优化,面向ChatGPT Pro订阅用户提供研究预览版。此举标志着OpenAI在减少对英伟达依赖方面的重要进展,同时在AI编程助手竞争中提升了速度优势。
比如:阿里系的通义灵码,它很早就开始走「AI 参与完整开发流程」这条路了,写代码、改代码、查 Bug、跑测试、看上下文,它更像一个企业里的 AI 工程师,而且能被流程化管理的那种。
为了支撑这种长期协作,Codex App 内部集成了多种工具。OpenAI 的目标很明确:让工程师不再在终端、IDE和云控制台之间来回跳转,而是在一个地方"调度 AI"。开发者可以花更少时间打字,更多时间检查代码质量,更像是在管理初级工程师,而不是使用自动补全工具。
In a major milestone for the "AI coding wars," OpenAI CEO Sam Altman confirmed on X that the company's standalone Codex ...
OpenAI announced yesterday Codex Desktop, a new native macOS app that treats AI coding agents like teammates you can direct, review and set loose on long tasks.
OpenAI has launched a new Codex desktop app for macOS that lets developers run multiple AI coding agents in parallel, shifting software development from writing code to managing autonomous tasks and ...
OpenAI launches Codex desktop app for AI coding, enabling multi-agent workflows, skills, and expanded access for ChatGPT ...