Search The Query
选AI比选对象还难!起名黑洞OpenAI的新模型,到底怎么选?

  新智元报道   编辑:犀牛 好困 【新智元导读】一句话看懂:o3以深度推理与工具调用能力领跑复杂任务,GPT-4.1超长上下文与精准指令执行适合API开发,而o4-mini则堪称日常任务的「性价比之王」。 如果你最近关注AI新闻,可能会被各种层出不穷的新模型搞的眼花缭乱。 尤其是堪称「起名黑洞」的OpenAI,命起名来可谓是是毫无章法。 即便是AI圈的资深团队,在面对同时发布的o3、o4-mini、GPT-4.1、GPT-4.1 mini和GPT-4.1 nano时,也是蒙圈的。 为了解决这个困扰,来自Every和DataCamp的团队在经过反复测试、来回切换模型,折腾了很多提示词后,得出了以下结论: o3:OpenAI最新的旗舰模型,也是最会「深度思考」的选手——专为自主复杂推理与工具调用设计。 o4‑mini:效率发动机——速度快、价格低,对数学、视觉推理和成本敏感型开发任务表现惊人。它不是明星旗舰,也不是基准霸主,但凭借效率优势,完全可以承担一般的任务。 GPT‑4.1:API专用的主力干将——指令遵循严谨,长上下文记忆出众。 接下来,看看这三款模型的新特性、各自擅长什么,以及在Every团队的工作流中,它们实际表现如何。 o3OpenAI最强推理模型 o3是OpenAI最新的前沿模型,旨在提升其在编码、数学、科学与视觉感知等复杂任务上的推理能力。 它也是首个具备自主工具调用能力的推理模型,可使用搜索、Python、图像生成以及图像解读等工具来完成任务。…

ByByApr 21, 2025
采样越多越聪明?隐式扩展颠覆认知,采样搜索如何挑出完美解

  新智元报道   编辑:英智 【新智元导读】采样多就一定准吗?研究人员用实验告诉你:是的,而且超乎想象!基于采样的搜索不仅能在并行处理中大展身手,还通过隐式扩展让验证更精准。 先让模型生成多个候选答案,再通过自我验证挑出「真金」。 基于采样的搜索在许多推理任务中表现优异,可关于它的扩展趋势,还有许多未解之谜。 随着采样数量的增加,模型的推理性能能否继续提升?这种简单的搜索范式能在多大程度上扩展? 来自谷歌和伯克利的华人研究员发现,随着采样数量和验证强度的增加,模型的推理性能有显著的提升。 论文链接:https://arxiv.org/abs/2502.01839 增加测试时计算的方法有很多。有些是通过强化学习,隐式地鼓励模型生成更长、更详细的回答;还有些是通过巧妙的提示,让模型更准确地思考。 在众多方法中,基于采样的搜索策略显得格外突出,生成多个候选答案,再从中挑选出最佳的那个。 这种方法可以和其他策略搭配使用,还特别适合并行处理。 通过有效的自我验证,简单地扩展基于采样的搜索就足以在推理和数学基准测试,以及伯克利数学数据集上获得最先进的性能。 表中展示了Gemini v1.5 Pro模型在每个问题仅尝试一个解决方案(Pass@1)、尝试200个解决方案并选择最常见的最终答案(Consistency@200)以及在基于采样的搜索中尝试200个解决方案,并根据正确性评分选择得分最高的答案(Verification@200)时的准确性。 在基于采样的搜索(Verification@200)中,Gemini v1.5超越了o1-Preview。…

ByByApr 21, 2025
o3被曝「无视」前成果?华人博士生实名指控,谢赛宁等大牛激烈争辩

  新智元报道   编辑:KingHZ 桃子 【新智元导读】o3和o4-mini视觉推理突破,竟未引用他人成果?一名华盛顿大学博士生发出质疑,OpenAI研究人员对此回应:不存在。 在视觉感知方面,o3和o4-mini在思维链中进行图像推理, 代表了一个重要突破。 华盛顿大学计算机科学博士生施惟佳站出来表示,o3和o4-mini可能用到了她之前的研究Visual Sketchpad 。 论文链接:https://visualsketchpad.github.io/ 这项发表于24年研究中,曾提出通过可视化辅助增强模型推理。一时间,这一猜测如同一石激起千层浪。 更猛烈的炮火来自滑铁卢大学CS助理教授、谷歌DeepMind高级研究科学家陈文虎。 他表示,「OpenAI既不承认也不引用任何相关工作。这真可悲。」 领导OpenAI感知团队的华人科学家Jiahui Yu表示:「确实不知道,但看起来很酷。」 OpenAI的内部员工Brandon McKinzie表示,一眼看上去,与我们研究的有很大不同。而且o3和o4-mini行为都是自发的表现。…

ByByApr 21, 2025
硅谷AI初创要让60亿人失业,网友痛批人类叛徒!Jeff Dean已投

  新智元报道   编辑:犀牛 KingHZ 【新智元导读】AI的野心从未如此大胆!新创公司Mechanize目标直指「全面自动化所有工作」和「经济无人化」,瞄准全球60万亿美元的劳动力市场。从虚拟工作环境到强化学习,Mechanize计划用AI智能体取代人类岗位,引发巨大争议。 看来AI真要来抢所有人的饭碗了! 有人来真的了。 最近,Epoch AI 创始人、著名AI研究员Tamay Besiroglu在X发帖称其正在创办一家新公司:Mechanize。 该初创公司的目标是「全面自动化所有工作」和「全面自动化经济」。 Besiroglu可不是嘴上说说这么简单,他已经开始招聘全栈工程师了。 Besiroglu甚至通过统计人类目前的总工资,算出了Mechanize的潜在市场规模。 「这里的潜力大得离谱:美国工人每年总共拿大约18万亿美元的工资。放眼全球,这个数字还要再翻三倍,达到每年60万亿美元左右,」他写道。 不过,Besiroglu也向TechCrunch澄清说:「我们目前的工作重点是白领工作,而不是需要机器人技术的体力劳动岗位。」 Mechanize 获得了包括Jeff…

ByByApr 20, 2025
曹操嫁七女:真爱批发or政治并购?

本 文 约 4000 字阅 读 需 要 13 分钟在本文开始前,让我们看看电视剧《新三国》中曹节被立为后的场面: 都说当代父母催婚急,但比起曹操,到底少了几分“格局”:人家直接将女儿塞给皇帝,附赠监控套餐+皇位继承权,堪称“东汉第一岳父”。关于这事儿的坊间传闻也越来越邪乎,甚至变成了“曹操卖女求权,七女共侍一夫”,老百姓磕着瓜子感叹:“亲闺女也都是筹码,活该被骂奸雄!” 曹操究竟嫁了几个女儿? 据《三国志·武文世王公传》记载,曹操共有25个儿子,但女儿究竟有多少,史料中并没有明确记载。据《三国志》及其裴注和范晔《后汉书》大概能知道,包含义女在内,曹操留下名字的女儿至少有7人,分别是曹节、曹宪、曹华、清河公主、安阳公主、金乡公主、德阳乡主。 另外,还有零星记载提及了临汾公主: “魏明帝即位,赐爵关内侯。顷之,特进曹洪乳母当,与临汾公主侍者共事无涧神系狱。”(《三国志·魏书》) 但因史料不足,难以确证。 这里值得一提的是,曹操的“魏王”是汉献帝所封的诸侯王,因此严格来说,他的女儿应为“翁主”。“公主”之称是曹魏建立后的追尊结果。那么,这些女儿真的如坊间传闻一般,都被曹操许给汉献帝了吗? 都说鸡蛋不能全部放在一个篮子里,作为东汉末年顶级的权谋者,曹操应该深知这一道理。 翻阅史料,也可以印证这一点:在有记载的七个女儿中,其实只有三名嫁给了汉献帝刘协——建安十八年(213),曹操将三位女儿——曹节、曹宪、曹华嫁于汉献帝,十九年(214)三人一齐封为贵人,建安二十年(215)正月,伏皇后被杀后,曹节被立为皇后: “献穆曹皇后讳,魏公曹操之中女也。建安十八年,操进三女宪、节、华为夫人,聘以束玄纁五万匹,小者待于国。十九年,并拜为贵人。及伏皇后被弑,明年,立节为皇后。” 其余的女儿们则分别嫁给了当时的各世家大族——…

ByByApr 20, 2025
杀疯了!Gemini 2.5狂飙「高尔顿板」测试,编码横扫所有OpenAI模型

  新智元报道   编辑:犀牛 【新智元导读】谷歌的AI编码能力正在掀起一场风暴!在高尔顿板测试中,Gemini 2.5 Flash以惊艳表现击败OpenAI多款模型,连谷歌首席科学家Jeff Dean都为其点赞。谷歌新模型「dayhush」已在网页开发领域崭露头角,性能超越Gemini 2.5 Pro,被网友称为「AI编码的地震性突破」。 编码能力一直是顶尖模型宣传的重点。 尤其是,AI大神Karpathy带火vibe coding(氛围编程)概念后,普通人也可以通过AI体验到编程的乐趣。 游戏、网页、3D建模,再加上最近爆火的MCP协议,大家玩得不亦乐乎。 不只是娱乐,很多AI专家、公司CEO、行业分析师甚至认为,AI可能会在2-3年内取代绝大部分的程序员。 AI编程真的有那么强吗?哪家的效果更好? 就在最近,网友RameshR通过高尔顿板(Galton board)测试,对比了Gemini 2.5…

ByByApr 20, 2025
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

  新智元报道   编辑:定慧 【新智元导读】还在用搜索和规则训练AI游戏?现在直接「看回放」学打宝可梦了!德州大学奥斯汀分校的研究团队用Transformer和离线强化学习打造出一个智能体,不靠规则、没用启发式算法,纯靠47.5万场人类对战回放训练出来,居然打上了Pokémon Showdown全球前10%! AI 又有「新活」了! 德州大学奥斯汀分校的研究团队用Transformers和离线强化学习训练出了一个宝可梦对战AI智能体,不但打法像人,还能在全球排名中杀进前 10%。 论文地址:https://metamon.tech/ 是的,你没看错,这不是那种靠搜索和规则的AI,而是靠人类历史对战数据「喂出来」的智能体,能自己学着打。 这个宝可梦游戏(全称Competitive Pokémon Singles)有多复杂呢? 在对战平台https://pokemonshowdown.com/上可以看到,即使不考虑策略,光是精灵、动作和物品的数量已经多到了非常夸张的程度(根本翻不完)。 这意味着,AI要在信息不完全、策略博弈的环境中,把每一步出招、每一次换人,都当成下围棋一样来算。 宝可梦对战融合了国际象棋般的长远策略规划、扑克牌那样充满未知信息和随机性,再加上足以填满一本百科全书的宝可梦、招式、特性和规则。玩家需要精心设计和操控自己的宝可梦队伍,击败对手的所有宝可梦才能获胜。这样一个充满不确定性、状态空间极其庞大的游戏,对AI来说是绝佳又极具挑战性的研究课题。 这种硬核程度,更像是宝可梦版的《星际争霸》。…

ByByApr 20, 2025
OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

  新智元报道   编辑:KingHZ 桃子 【新智元导读】o3编码直逼全球TOP 200人类选手,却存在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。 满血o3更强了,却也更爱「胡言乱语」了。 OpenAI技术报告称,o3和o4-mini「幻觉率」远高于此前的推理模型,甚至超过了传统模型GPT-4o。 根据PersonQA基准测试,o3在33%的问题回答中产生了幻觉,几乎是o1(16%)的2倍。 而o4-mini的表现更加糟糕,幻觉率高达48%。 技术报告:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf 甚至,有网友一针见血地指出,「o3对编写和开发超1000行代码的项目极其不利,幻觉率极高,且执行指令能力非常差」。 不管是在Cursor,还是Windsurf中,o3编码幻觉问题显著。 要知道,o3和o4-mini在Codeforces中成绩均超2700分,在全球人类选手中位列TOP 200,被称为OpenAI有史以来最好的编码模型。 它们验证了,Scaling强化学习依旧有效。 o3训练算力是o1的十倍 但为何随着模型参数规模Scaling,幻觉问题反而加剧?…

ByByApr 20, 2025
Image Not Found

Taxonomy

Blog - Trent's Blog - Page 46