OpenAI发布了下一代模拟推理模型o3和o3-mini

迮宜然 2024-12-21 国内科技 18 次浏览 0个评论

　　周五，在“OpenAI 12天活动”的第12天，OpenAI首席执行官萨姆·奥特曼宣布了其最新的人工智能“推理”模型o3和o3-mini，这两款模型是在今年早些时候推出的o1模型的基础上开发的。该公司尚未发布这些模型，但今天将使这些模型可用于公共安全测试和研究。

　　这些模型使用OpenAI所称的“私人思维链”，模型会暂停检查其内部对话，并在响应之前提前计划，你可以称之为“模拟推理”（SR），即一种超越基本大型语言模型（llm）的人工智能形式。

　　为了避免与英国电信运营商o2发生潜在的商标冲突，该公司将其命名为“o3”而不是“o2”。在周五的直播中，奥特曼承认了他的公司命名的缺点，他说：“按照OpenAI非常非常不擅长命名的伟大传统，它将被命名为o3。”

　　根据OpenAI的说法，o3模型在ARC-AGI基准上获得了破纪录的分数，ARC-AGI基准是一种视觉推理基准，自2019年创建以来一直保持不败。在低计算场景中，o3得分为75.7%，而在高计算测试中，它达到了87.5%，与人类在85%阈值下的表现相当。

　　OpenAI还报告说，o3在2024年美国数学邀请赛中得分为96.7%，只缺了一道题。该模型在包含研究生水平的生物、物理和化学问题的GPQA Diamond上也达到了87.7%。在EpochAI的前沿数学基准上，o3解决了25.2%的问题，而其他模型都没有超过2%。

　　同样在周五发布的o3-mini版本包括自适应思考时间功能，提供低、中、高处理速度。该公司表示，更高的计算设置可以产生更好的结果。OpenAI报告说，在Codeforces基准测试中，o3-mini的性能超过了它的前身o1。

　　模拟推理正在兴起

　　在OpenAI宣布这一消息之际，其他公司也在开发自己的SR模型，包括谷歌，谷歌周四宣布了Gemini 2.0 Flash Thinking Experimental。去年11月，DeepSeek推出了DeepSeek- r1，而阿里巴巴的Qwen团队则发布了QwQ，他们称QwQ是01的第一个“开放”替代品。

　　OpenAI将首先向安全研究人员提供新的SR模型进行测试。奥特曼说，公司计划在1月底推出o3-mini，随后不久推出o3。

你可能想看：

很强也很贵！OpenAI12天12场直播收官，官宣最新推理模型o3

隔夜要闻：美股收跌纳指金龙大涨逾8.5% 英伟达涉嫌违反反垄断法 OpenAI发布视频模型Sora 苹果创历史新高

OpenAI首席执行官Altman：严重低估了对AI视频生产模型Sora的需求

看了今天OpenAI的新品发布直播，我感觉被奥特曼耍了

刚刚，DeepMind最强「基础世界模型」诞生！单图生1分钟游戏世界，解锁下一代智能体

澳门特马资料今晚开什么今冬首个暴雪预警发布,效率资料解释落实_Android256.184

名创优品发布财报：集团全球门店数超7400家，前三季度营收同比增长23%

分期乐商城发布双12成绩单，成交客单价同比提升8.4%

华为“史上最强大Mate”正式发布！首发卫星寻呼功能，余承东：靠抄袭是没有未来的，能超越Mate的只有Mate

澳门特马资料今晚开什么今冬首个暴雪预警发布,科技成语分析落实_经典版172.312