Search The Query
美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

  新智元报道   编辑:KingHZ Aeneas 【新智元导读】在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。 3月26号,ETH等团队的一项研究一经发布,就引起了圈内热议。 这项研究彻底撕开遮羞布,直接击碎了「LLM会做数学题」这个神话! 论文地址:https://files.sri.inf.ethz.ch/matharena/usamo_report.pdf 鉴于此前它们在AIME上的出色表现,MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估,结果令人大吃一惊—— 所有大模型的得分,都低于5%! DeepSeek-R1表现最好,得分为4.76%;而表现最差的OpenAI o3-mini(high)比上一代o1-pro(high)还差,得分为2.08%。 各顶尖模型在2025 USAMO中的得分 就在今天,这项研究再次被关注到,直接成为了Reddit的热议话题。 具体来说,在这项研究中,模型需要在2025年USAMO的六道基于证明的数学题上进行了测试。每道题满分7分,总分最高为42分。然后会由人类专家来给它们打分。 这些模型取得的最高平均分,也就5%,简直惨不忍睹。…

ByByApr 2, 2025
美国CS专业卷上天,满分学霸惨遭藤校全拒!父亲大受震撼引爆热议

  新智元报道   编辑:桃子 好困 【新智元导读】SAT 1580分、18门AP全部5分,一位近乎完美的学霸,却被所有常春藤名校拒之门外。父亲的一篇Reddit热帖痛诉CS专业录取的残酷现实,网友惊呼今年计算机专业已卷成「抽签」。 美国大学CS专业,卷到何种程度了? 最近,一位父亲痛心发帖:他的儿子成绩全校第一近乎完美——SAT接近满分、18门AP课程全部5分,却在申请季被所有常春藤名校拒绝。 唯一伸来橄榄枝的,只有本州的马萨诸塞大学阿默斯特分校(UMass Amherst)。 父亲称,「我对大学录取竞争激烈程度感到震惊」! 那些拒绝学霸的常春藤名校,足够拉成长名单。 其中有哥大、哈佛、MIT,还有达特茅斯学院、加州大学尔湾分校、加州大学戴维斯分校、圣地亚哥大学、洛杉矶大学、UC伯克利。 目前,他们还在等杜克大学的消息,甚至还有很多很多,已经被拒的学校。 这篇帖子一经发布,迅速登上Reddit子板块r/ApplyingToCollege热门,在全网掀起轩然大波。 满分学霸,惨遭名校拒绝 这位父亲笔下的儿子,堪称「别人家孩子」的终极模板。 他在全校476名中,成为了毕业典礼上的致辞人。他在校内,担任计算机社团主席和数学竞赛团队的副主席。…

ByByApr 1, 2025
孙正义豪掷1万亿,机器人帝国崛起!总额远超星际之门,劳动力末日翻盘

  新智元报道   编辑:桃子 【新智元导读】未来十年,全球机器人市场规模将飙升至380亿美金。这一次,孙正义又将目光投向更大的赛道,斥资1万亿豪赌美国AI工业园区,让人形机器人干活。 报道称,在「星际之门」放血5000亿后,软银又拿着1万亿砸向机器人! 孙正义将在美国各地创建配备AI工厂的工业园区,用人形机器人助力制造业解决劳动力短缺难题。 机器人军团领衔,AI工厂重定义制造业 在软银的宏伟蓝图中,AI工厂成为核心。 这些工厂将引入能够自主行走的人形机器人,去彻底改变传统生产模式。 据悉,软银正考虑从英伟达采购GPU,并可能引入德国机器人公司Agile Robots的尖端技术。 最终目标是,通过AI大幅减少人工参与,覆盖服务器、空调、汽车、智能手机等多种产品的生产线。 与此同时,富士康也将成为其潜在的合作伙伴之一。 作为全球制造业巨头,它的加入或将为软银的AI工业梦注入强大的动力。这一计划不仅是对技术边界的探索,更是对未来劳动力市场的深远布局。 去年底,孙正义曾在海湖庄园宣布,软银将在四年内投资1000亿美金,聚焦AI以及相关基础设施,预计创造至少10万个就业机会。 他当时表示,特朗普当选让自己对美国的经济信心显著增强。如今,1万亿美元的计划再次将这一愿景推向全新高度。 当然,软银不仅是资金提供者,还在更大项目中扮演关键角色。 今年1月,OpenAI官宣的5000亿美元「星际之门」的项目中,软银便是重要的股权合作伙伴,孙正义亲自担任主席。…

ByByApr 1, 2025
吉卜力太火,奥特曼求饶!GPT-4o免费生图登王座,设计师直呼天塌了

  新智元报道   编辑:编辑部 JNZ 【新智元导读】GPT-4o,登顶王座名副其实!新出炉的图像竞技场中,它以ELO评分并列冠军。而ChatGPT在一小时内,新增用户直接破了百万,全网的病毒式传播还没有停下来的架势,甚至伪造的收据逼真到惊人。 OpenAI再次火爆全网,而且接近一周了,GPT-4o带来的热潮还未停歇。 现在免费用户也可以使用生图功能了,更多人涌进了GPT-4o。 显然,靠吉卜力图像形成的病毒式传播,让奥特曼和整个OpenAI团队都没想到。 继「GPU熔化」后,奥特曼在昨天甚至开始请求用户:请不要再生成图片了,团队需要休息。 面对大家的热情,奥特曼在X上开心官宣:在过去一小时内,ChatGPT的新增用户就破了一百万! 而就在刚刚,GPT-4o还登上了生图领域的王座。 根据独立AI评测机构Artificial Analysis测试,GPT-4o实至名归,在图像竞技场中以ELO评分并列第一,超越Recraft V3、FLUX 1.1[Pro版]和Gemini 2.0 Flash。 在细分领域测试中,该模型在「文字排版」、「人物肖像」、「动漫」及「科幻题材」表现尤为突出,名列榜首。…

ByByApr 1, 2025
LLM如何高效理解用户?淘天发布首个基于用户表征的问答基准UQABench

  新智元报道   编辑:编辑部 【新智元导读】LLM正推动推荐系统革新,以用户表征为「软提示」的范式开辟了高效推荐新路径。在此趋势下,淘天团队发布了首个基于用户表征的个性化问答基准UQABench,系统评估了用户表征的提示效能。 在「千人千面」的个性化服务浪潮中,大语言模型(LLM)凭借强大的语义理解与生成能力,正在重塑推荐系统与个性化问答的产业格局。 研究背景:当推荐系统遇见大模型,如何突破效率与效果的双重挑战? 传统方案通过将用户点击历史转化为文本提示注入LLM上下文,虽能提升相关性,却面临两大硬伤: 效率瓶颈:单用户行为序列动辄数万token,远超LLM上下文窗口限制,推理延迟与成本飙升; 噪声干扰:冗余点击、误操作等噪声易误导模型,削弱个性化效果。 破局之道:将用户行为序列压缩为高密度的表征向量(user embeddings),以「软提示」形式驱动LLM生成精准回复。 然而,这一路径的核心争议在于——用户表征能否真正承载关键信息并有效引导LLM?UQABench应运而生,成为首个系统化评估用户表征质量的权威基准。 核心创新:三阶评估体系 + 三维任务设计,直击产业痛点 1. 标准化评估流程:从预训练到场景化对齐 预训练:基于海量行为数据训练用户编码器(如SASRec、HSTU),捕获兴趣模式;…

ByByApr 1, 2025
DeepSeek-V3击败R1开源登顶!杭州黑马撼动硅谷AI霸主,抹去1万亿市值神话

  新智元报道   编辑:编辑部 XYs 【新智元导读】DeepSeek又卷起来了!上周刚出的DeepSeek-V3-0324在大模型竞技场排名中,打败了自己的DeepSeek-R1,成为开源AI至尊。 DeepSeek依然很能打,春节余波还在扩散! 据AI产品分析平台aitools.xyz统计,DeepSeek每月新增网站访问量超过了ChatGPT。 作为异军突起的现象级产品,DeepSeek的增长速度除了创造AI产品的增长奇迹,更是重新定义了全球的AI竞赛格局。 DeepSeek除了「卷」竞争对手,甚至也在自己「卷」自己。 在AI大模型竞技场LMSYS上,发布不到半个月的DeepSeek-V3-0324,已经超过了曾经的「当红炸子鸡」DeepSeek-R1! 所有类别排名前5,DeepSeek-V3-0324成为排名第一的开源(MIT许可)模型。 这还是在DeepSeek-R2没有发布的前提下,R2发布的那天,AI圈估计又是一场不眠夜。 但「革命尚未成功」,不要忘了,ChatGPT的总市场份额依然高达43.16%,周活用户已破5亿。 不仅如此,OpenAI也决定通过开源,来应对DeepSeek的巨大冲击。今早,奥特曼已官宣,自GPT-2后首个推理模型,将在未来几个月开源。 那么,它又会比R1强吗?若是R2提前开源,OpenAI又该如何自处? DeepSeek R1竟被V3打下去了 DeepSeek-V3-0324这波进化,实属有亿点点厉害。…

ByByApr 1, 2025
Runway Gen-4震撼上线,逼真场景暴击电影圈!好莱坞导演集体失业?

  新智元报道   编辑:编辑部 HNZ 【新智元导读】就在刚刚,Runway官宣推出Gen-4,在世界一致性上又达到了惊人纪录!在图像保真度、动态运动和可控性上,它再度实现重大突破。从此,电影画面不用实景拍摄了,完全可以由AI代劳。 昨夜,AI视频领域又迎来一场大更新。 重磅玩家Runway官宣:正式推出了Gen-4! 根据官方解释,这是一款用于媒体生成和世界一致性的全新SOTA模型。 在图像质量保真度、流畅动态表现和精确可控性方面,Gen-4又取得了重大进步。 而今天起,图像转视频功能也将正式上线,所有付费用户和企业客户都能用上。 一致性惊人,电影级画面无限生成 在一致性和可控性上的革新,让Gen-4开启了一个全新的媒体创作时代。 借助Gen-4,我们可以精确创建想要的人物角色、场景环境和物体,还能让他们在不同场景中保持一致。 只要设定期望的视觉风格,模型就能一直维持连贯的世界观,同时,还能保证每一帧都保留独特的艺术风格、情绪氛围和电影级视觉效果。 而这些元素,都可以从场景中的多个视角和位置重新呈现! 这就意味着,我们想叙述一个故事时,拥有了无限的创意空间。 而且,这些功能都是无需任何微调或额外训练就能实现的。 Gen-4为视频生成领域开创了新标准,相较于Gen-3…

ByByApr 1, 2025
OpenAI要Open了!奥特曼开源首个推理模型,ChatGPT一小时暴增百万用户

  新智元报道   编辑:桃子 好困 【新智元导读】OpenAI真的要开源了!奥特曼官宣,即将开源自GPT-2以来的首款推理模型,可在消费级硬件上运行。同时,OpenAI又拿到了最高400亿单轮融资,估值直冲3000亿。 OpenAI终于要Open AI了! 一大早,奥特曼郑重官宣,「未来几个月,将开源一款强大的推理模型」。 这是自GPT-2以来,OpenAI首个开源的模型。 目前,官方已放出模型反馈表,收集社区每位开发者的意见,期待打造出极其出色的开源模型。 OpenAI开源模型预估可能会采用MIT、Apache 2.0许可证 奥特曼称,开源这一决定,内部团队考虑很久,又被其他优先事项耽搁,才至今日决定宣布。 「而现在,开源是OpenAI重中之重」。 首个推理模型在正式开源之前,也会根据OpenAI准备框架进行评估。同时,也会让一部分内测用户(从旧金山开始),参与早期原型评估。 更值得一提的是,乘着4o生图这波热度,ChatGPT过去一小时,用户暴增百万。 要知道,ChatGPT出世之后,可是用了5天才增加100万 而且就在刚刚,OpenAI宣布了史上最大规模新一轮融资,金额达400亿美金,由软银领投。…

ByByApr 1, 2025
Image Not Found

Gallery

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭
美国CS专业卷上天,满分学霸惨遭藤校全拒!父亲大受震撼引爆热议
孙正义豪掷1万亿,机器人帝国崛起!总额远超星际之门,劳动力末日翻盘
吉卜力太火,奥特曼求饶!GPT-4o免费生图登王座,设计师直呼天塌了
LLM如何高效理解用户?淘天发布首个基于用户表征的问答基准UQABench
DeepSeek-V3击败R1开源登顶!杭州黑马撼动硅谷AI霸主,抹去1万亿市值神话
Runway Gen-4震撼上线,逼真场景暴击电影圈!好莱坞导演集体失业?
OpenAI要Open了!奥特曼开源首个推理模型,ChatGPT一小时暴增百万用户
刚刚,谷歌最强Gemini 2.5 Pro免费了!数学碾压人类研究生,拿下全球TOP 1

Taxonomy

Blog - Trent's Blog