新智元报道 编辑:Aeneas 好困 【新智元导读】给DeepSeek-R1推理指导,它的数学推理能力就开始暴涨。更令人吃惊是,Qwen2.5-14B居然给出了此前从未见过的希尔伯特问题的反例!而人类为此耗费了27年。研究者预言:LLM离破解NP-hard问题,已经又近了一步。 就在刚刚,南航、南通大学、牛津等机构的研究者发现:通过高指令的推理指令,DeepSeek-R1有望解决数学上的NP-hard问题! 论文地址:https://arxiv.org/abs/2502.20545NP-hard问题,是计算复杂性理论中的一类问题。它们至少和NP问题一样难,但不一定属于NP类别(即不一定中多项式时间内被验证)。本来,DeepSeek-R1、GPT-4o、OpenAI o1-mini这些模型,是做某种数学推理难题(SoS)是很困难的,正确率也就比纯猜高一点。但是,一旦给它们一些推理指导,所有的模型的推理能力立马噌噌上涨,专业率最高提升了21%。更令研究者们吃惊的是,Qwen2.5-14B-Instruct-1M在指导下,居然用了一个新奇精巧的方法,给出了一个此前从未见过的希尔伯特问题的反例:要知道,希尔伯特问题的反例,可并非简单推导就能得出来的。自1893年问题被提出之后,首个反例的发现耗时长达27年!如今,却被LLM短时间内破解了。研究者们大胆预言:照这个速度演进,LLM离破解NP-hard问题已经很近了。 LLM能解决希尔伯特第十七问题吗? 如今,LLM在众多任务上,表现已经接近人类水平,但它们在严谨数学问题求解上的能力,仍是不小的挑战。这次,研究者决定给大模型们来一个硬核难题——判断给定的多元多项式是否为非负的。这个问题,和希尔伯特第十七问题密切相关。后者由数学家希尔伯特在1900年提出后,立马成为23个经典数学问题之一。 而且,许多应用数学和计算数学中的关键挑战,都可以转化为判断某些多项式的非负性问题,比如控制理论、量子计算、多项式博弈、张量方法、组合优化等。然而,判断一般多项式是否非负,是一个公认的NP-hard问题!即使对于相对低阶或仅含少量变量的多项式,此问题仍然极具挑战性。怎么办?为此,研究者们只能去寻找多项式的特殊类别,将复杂的非负性约束,替换成更简单一些的条件。由此,平方和(SoS)条件就登场了。作为一项数学技术,它通过将多项式表示为若干平方项的和,提供了一种充分但非必要的非负性判定方法。所以,OpenAI o1和DeepSeek-R1,能解决SoS条件规划问题吗? 用一个数据集,给LLM专业推理指导 为此,研究者构建了SoS-1K数据集。这个数据集经过了精心策划,包含约1,000个多项式,并配备了五个精心设计的专家级SoS专业推理指导。具体包括: 多项式阶数 主导搜索方向的非负性 特殊结构的识别 平方形式表达的评估 单项式的二次形式矩阵分解接下来,属于SOTA模型们的考验来了!DeepSeek-R1、DeepSeek-V3、GPT-4o、OpenAI…
新智元报道 编辑:KingHZ 英智 【新智元导读】专栏作家Kevin Roose发文称,门外汉用AI就能开发出App,并表示程序员前途不妙。马库斯公开表示Kevin Roose只是重复了别人的创意,所做所为是贩卖焦虑,误人子弟,一旦小孩信以为真,不学编程,美国科技业将万劫不复! 纽约时报最近的一篇文章写得非常精彩,可能成为周末阅读量最高的文章之一。 文章认为初级程序员甚至全部软件工程师迟早被AI取代,现在的AI让人动动嘴就能做出个人应用。 对此,马库斯怒斥道——这种观点,简直就是在误人子弟! 而文章作者Kevin Roose与科技巨头是蛇鼠一窝、一丘之貉: 就像许多类似的文章一样,新文章全是白日梦,描绘了一幅充满大胆想象的新现实图景,同时淡化了实现这一愿景的障碍。 他的编辑和读者似乎都很喜欢这种风格的文章。 坦白说,我并不喜欢这种风格。在我看来,这类文章更像是科技巨头的营销手段,最终只会让它们得到更多权势。 Kevin Roose最新文章就是一个典型例子。它的确写得精彩。但就像他过去的许多文章一样,它描绘了一场即将到来的技术革命,却没有真正审视其中的现实难题和潜在风险。 事情的起因,还要从专栏作者Kevin Roose疯狂编程开始讲起。…
新智元报道 编辑:编辑部 HNY 【新智元导读】为了「星际之门」,软银CEO孙正义正在疯狂借钱!巨额贷款、高风险投资、宏伟愿景……这位「投资狂人」再次押注未来。他能否凭借AI重塑辉煌,还是会重蹈WeWork的覆辙? 今年1月,特朗普刚宣布完「星际之门计划」,马斯克就立刻炮轰称——你们根本就没那么多钱!「据可靠消息来源,软银筹集到的资金明显不到100亿美元。」 事实真如马斯克所说吗?近日海外媒体的报导可能为我们揭开了事情的神秘一角。3月1日,The Information报道,软银集团CEO孙正义计划借款160亿美元投资AI,并且可能在2026年初再借款80亿美元。不止如此,软银最近还安排了一笔185亿美元的贷款,该贷款以其持有的英国芯片设计公司Arm Holdings的股份作为部分抵押品。其中一部分资金将用于现有债务的再融资。如果马斯克的消息确实可靠的话,加上软银自己的100亿美元资金,孙正义已经为投资Stargate及OpenAI至少准备了500亿美元的资金。此前,软银承诺向Stargate投资150亿美元。据路透早前的消息,孙正义计划向OpenAI投资300亿美元。 如此看来,孙正义计划筹集的500亿美元足以覆盖他之前的承诺。 他在玩真的! 高昂的贷款给软银本就沉重的资产负债带来了更大压力孙正义在对投资感到兴奋时一贯的做法就是借钱。他于1981年创立软银,此后经历了多个债务积累和偿还的周期。最近,他才刚刚完成了Vision Fund(愿景基金)中包括WeWork在内的重大投资损失所产生的债务偿还。孙正义计划对OpenAI和星际之门的投资将成为软银有史以来最大的押注之一。这项计划由OpenAI、软银、甲骨文牵头,要在未来4年内砸5000亿美金,重塑美国在AI界的领导地位。其中,软银和OpenAI是这项计划的主要合作伙伴,软银负责财务,OpenAI负责运营,孙正义将担任董事长。OpenAI已告知投资者,软银的投资将使这家AI公司的估值达到2600亿美元。这些投资大大超过了软银截至去年12月底资产负债表上的310亿美元现金,因此需要安排大额贷款。到目前为止,软银自身的股东对公司当前的债务水平感到满意,部分原因是他们过去曾见证过更为冒险的情况。这些贷款预计将来自日本主要银行和全球贷款机构。瑞穗银行等日本顶级银行作为软银的主要贷款方,预计将继续支持软银,因为在几乎没有其他日本公司愿意大量借款的情况下,软银是一个极具价值的客户。但即使如此,孙正义对估值极高的初创公司(如OpenAI)的巨额投资也引发了对未来回报的质疑,而这些回报将决定软银长期维持其依靠债务支撑的交易能力。除了贷款外,软银几乎没有其他明显的方式来筹集新资金,除非出售更多Arm的股份。但很显然,这种可能性并不大,因为Arm是软银AI战略的核心。愿景基金的许多最大持股,包括字节跳动、Fanatics和滴滴全球,仍然是非上市公司。这使得公司不得不依赖其借贷能力,尽管其已经背负着290亿美元的净债务。据知情人士透露,软银高管在上周的电话会议上告诉银行,这笔 160 亿美元的贷款将为其在OpenAI的部分投资以及计划收购芯片设计公司Ampere的部分资金提供融资。在通话中,软银高管讨论了潜在的未来投资,如更多的AI交易和在美国及欧洲的数据中心收购,以及在美国的核能和其他能源相关交易。 孙正义:我喜欢的,借钱也要投 几十年来,孙正义一直用同样激进的借贷为其激进的交易提供资金。当他在2017年推出愿景基金时,该基金通过优先债务和股权的组合筹集了约1000亿美元。随后在2018年,孙正义以软银在阿里巴巴的股份作为抵押借入了80亿美元。在愿景基金的早期,孙正义表示,通过支持科技初创企业,软银正在「信息革命」中发挥自己的作用,这将重塑世界。「孙正义的冲动是将杠杆推到极限」前软银高管Alok Sama在其著作《金钱陷阱》(The Money…
新智元报道 编辑:桃子 好困 【新智元导读】一年一度AAAI 2025杰出论文开奖了!三篇杰出论文榜上有名,周志华带队论文斩获大奖。 AAAI 2025杰出论文出炉了!今年共有3篇论文摘下杰出论文桂冠,其中一篇是南京大学周志华团队出品,另外两篇分别颁给了多伦多大学和波尔多大学等机构的学者。作为AI领域A类顶会之一,AAAI从1979年起每年举办一次,今年是第39届年会,于2月25日-3月4日在美国费城举办。今年,共收到12957篇有效投稿,接收3032篇,录用率为23.4%,其中Oral论文占比4.6%。和去年相较,并没有太大差异(录用率23.75%)。同在今天,AAAI还公布了一份「AI研究未来」91页报告,覆盖了AI领域17大议题,包含了机器人、智能体等,成为全球AI研究的另一个风向标。 还有吴恩达亲临现场,发表了「人工智能、智能体和应用」最前沿的演讲。 接下来,一起看看今天获奖的三篇论文。 三篇杰出论文 题目:Efficient Rectification of Neuro-Symbolic Reasoning Inconsistencies by Abductive…
《野梨树》近些年,“政治正确”一词遭受的批评似乎越来越多。有人认为,它给我们的日常沟通和公共表达,带来了不小的压力。人们说什么话,怎么说,尊重还是冒犯,真的这么重要吗?我们是否可以期待通过规范人们的表达,而促进整体社会意识的进步?改变人的语言,是否能够影响人的思想?在这过程中折损的自由,是一个值得付出的代价吗?讲述|陈迪来源|看理想节目《观念辞典:你身边的政治学》01.政治正确干预词汇和语言从比例上来看,政治正确在普通人日常生活中最强烈的存在感,是对语言的干预,是尝试净化、修正词汇库和用语习惯中的偏见与不公正。政治正确的表现形式非常丰富,譬如向弱势群体倾斜资源的社会政策、补偿历史上遭受结构性不公的人群的平权法案。只不过,普通人没有什么机会参与政策制定,关注公共政策并群情激愤的舆论窗口也不是每天都有。相比之下,人每天都要说话——私底下一对一说话,社交场对一群人说话,到了21世纪移动互联网的时代,还要登陆社交媒体账号到公共空间上,面向所有人说话。只要开口说话,就不可避免受到那个名为政治正确的幽灵的持续注视。你的措辞、用语、预设、暗示是否正确,似乎总会有人在可见不可见的地方评判你。在这个层面上,政治正确最先让人联想到极权主义、文化暴政和“语言警察”。它看上去和乔治·奥威尔(George Orwell)《1984》里的“新语(Newspeak)”有太多相似之处。越来越多词汇,不再被允许使用。说话时被公开或匿名质疑,场面也不大好收拾。自证自辩没有用,看上去天然就理亏三分。见识过这种场面的人,可能会产生自我审查的意识,也可能会始终怀抱这种焦虑——“是不是这个词没有用对,是不是那句话有歧义,是不是像在说教,是不是要被下定义了”。《芭比》由政治正确所引发的焦虑与紧张,并不是平均分布在不同身份属性之中的。女性被指控性别歧视的机会相对较小;少数族裔不太有机会被指责种族歧视;同性恋也不太有机会被骂恐同。所以,在欧美环境里,最凶猛的政治正确抨击者,更加集中于“白人男性异性恋”;而在中文互联网上,最猛烈的政治正确讨伐者,又更加集中于“汉族男性异性恋”,这都是很正常自然的结果,因为他们本来确实是最大概率的政治正确火力的目标。他们都属于社会主流人群,而主流人群最大的问题是对于自己坐拥的权力熟视无睹,容易认为其他人群所受到的结构性不公,是世界正常的、默认的、理所当然的样子。看不到不公的人最容易侵犯平等。主流人群在意识不到、或者是意识到了也觉得没有什么所谓的态度下,频繁地、日常地、习惯性地冒犯他人,当然就最有机会被政治正确教训了。不过,如果只聊主观的态度和意识问题,这很快就会演变成一场相互指责的各说各话——“她们也有歧视我们,谁说我们的歧视就比她们的歧视更多呢”,讨论将无法继续进行下去。不如来聊另一个相对客观的方面,关于我们所共同使用的词汇和语言,到底如何与身份权力、偏见歧视发生根深蒂固的关联。这种关联如此强大、广泛,以至于但凡我们开口说话、遣词造句,很多时候甚至和我们自己的身份无关,我们都大有机会重复、加强、固化了那些偏见。而当代政治正确对词汇和语言进行干预的一大动因,正是为了去挑战、修正、矫枉这些岁月悠久的不公不义。02.语言是权力,是偏见波伏娃(Simone de Beauvoir)写过这样一段话:“语言承袭自男性社会并包含了太多男性的偏见。我们要将这些偏见全部去除。只不过语言确实是无法全凭人力生造出来的……(所以)女人应该去盗取这件工具;不需要毁掉它或是做出一个全新的东西。盗取它然后为女人所用就好。”这段话虽然从性别视角出发,但它所指出的本质是普遍适用的,也就是:语言富含权力关系,既然语言来自带有权力结构的社会,那么语言本身就难免服务于加强这样的社会结构,重复它所带有的偏见,强化它所包含的不平等。完全放弃现有的语言、创造一门全新的语言是不切实际的;但是,借用它、干预它、改造它,让语言服务于新的时代、服务于更加平等的社会关系,这是一件非常正当、也值得去做的事情。《坠落的审判》语言自带歧视与偏见,这是横跨文明与时代的现象。性别偏见是很典型的领域,比如英语里的性别不平等,从一开口谈论男人女人的问题就开始了。男人,man;女人,woman,在“男人”的基础上加了点修饰就构成了“女人”。有词源学的意见认为,woman对比man所增加的前缀“wo”,其实来自“woe”,那是悲伤、悲哀的意思,“悲哀的男人就成了女人”。当然这只是非常多说法里的一种,但无论如何,woman对比man,不是平行并存,却是添加了“附件”以后才成立的延伸存在,这个简单事实是无法否认的,多少带有“用亚当的肋骨创造出夏娃”式的隐喻。男人是默认的人类,而女人是其他的人、相对的人、需要通过与男人的关系才能得到定义的人,这就是所谓的第二性。女性的这种附属感、次要感,在语言里有非常多线索。英语的“男人女人”是如此,汉语的男“他”、女“她”也是如此。女人需要着重用女字旁来强调,而男人却只需要用一个不带性别色彩的单人旁就足够说明了。值得一提的是,“她”在汉语中文里的历史其实不长,是到五四新文化运动才创造出来的新汉字。五四以前,汉语的第三人称单数代词,用的就是一个单人旁的“他”,指男、指女、指物都用这个“他”。后来到新文化运动,受到西方语言类似英文“he, she, it”的影响,不少中国知识分子开始提议创造新汉字,以更加精准地进行第三人称指代。指女的“她”与指物的“它”都是在那个时期发明出来的,现在被认为对创造女“她”贡献最大的人物,是文学家、语言学家刘半农。只不过,在指女“她”与指物“它”被创造出来以后,原有的单人旁“他”就被自动保留为专属男性使用了,当时也没有太多人觉得有问题。后来确实有一些知识分子出于性别平等的思想,认为至少应该推出以“男”为偏旁的新代词来指代男性,但没有多少人响应,最后不了了之。另外有一个冷知识,汉字里是不存在“男”字旁的,相比之下,女字旁的汉字有两百多近三百个。也就是说,“女”从前就带有强修饰意义,并不只是现代的意外。语言里的性别偏见痕迹还有很多,譬如英语里说明职业的单词,主席—chairman,议员—congressman,商人—businessman,全部以man结尾,自古以来默认这些职业全部是男性专属。《芭比》如今西方社会性别意识崛起,在遇上具体的对象是女性的时候,将后缀的man改成woman。但这依然解决不了全部问题,比如在泛指某个职业的时候,该用-man还是-woman?也许可以改成-person,以此类推,人类—“human”改成“hu-person”。看上去有些奇怪,似乎进入了保守派嘲讽政治正确“新语”的范畴。类似尴尬处境的还有“女人”,woman,要改只能大改。过去几十年的女权运动者们提出过很多修改方案,包括womyn、womban、womon、wimmin,但都不好推广。汉语的日常使用有着另一个非常糟糕、可谓异曲同工的坏习惯:虽然职业名词本身不带性别标记,但是使用者总是自动为职业预设性别。科学家、飞行员、警察、司机就是如此,当它们背后的人是女性的时候,公共传媒与日常对话里的人们,总是要给它们加上“女”字前缀。只有在描述类似秘书、护士、钟点工的时候才不大有机会出现。什么性别在什么社会角色上是具有默认地位的,而什么性别占据这些位置又是不被期待的“意外”,不言之中,社会成俗的强大惯性自有分寸。除此之外,语言之中还有关于身份属性的感情色彩偏见。英语里有一个很典型的例子,hysteria,中文是“歇斯底里”,属于外来词直译。Hysteria的英文单词直接来自希腊语的“子宫”、“hystera”,这个词在19世纪以前一直被用来描述无法控制精神情绪的疾病,如今已经不作为医学词汇使用了。在超过两千年的时间里,欧洲人一直认为那是一种由于子宫扰动才发生的疾病,因此既用“子宫”作为疾病名的辞源,也认为那是专属女性的疾病;而在将hysteria作为形容词使用的时候,是完全针对女性气质的贬义词。到弗洛伊德(Sigmund Freud)主张这是一种可以为男女共有的精神疾病的时候,很多人完全无法接受男人也可以“歇斯底里”,因为他们的思维和想象力,已经完全被他们所使用的词汇给驯化了。《麦克白夫人》汉语里带有女字旁的汉字有两百多近三百个;在这之中,有相当一批令人印象深刻的单字,是天然自带贬义的。类似“妖魔”的“妖”,“贪婪”的“婪”,“奴才”的“奴”,说不清、道不明地,就将这些明显贬损、负面的感情色彩,直接与“女”这个偏旁部首联系了起来。儿童识字的时候,很容易就将这些负面形容词与女性气质、女性品格联系到一起。最讽刺的大概是将“奸”字用在“奸臣”里的时候,过往的数千年历史里,女人连当奸臣的机会都没有,但“奸臣”依然不会忘记女人,在被人骂的时候也要坚持把“女”字作为偏旁给带上。与此同时,“男”字隐身了,连作为偏旁部首的机会都没有争取。反正男人是默认的人,有单人旁即可;再不济要说“人类不行”,那也是男人女人共同的责任,轮不到男人出来自己承担。03.干预语言,是为了改变思想这些中英文之中的性别偏见与歧视,说明了我们每天使用的词汇和语言,远远谈不上价值中立、干净纯粹。语言就是社会权力结构的延伸与体现。社会本身有多少不平等,语言就有机会加强、加固多少不平等;社会本身有多少不公义,语言就有动机合理、粉饰多少不公义。我们的确同意语言是漫长人类智慧的结晶,也确实明白更新调整语言不可能是一日之功。但是,既然过去的语言也是经由人类之手才逐渐变成我们今天看到的样子,今天的我们也完全没有理由结论先行地污名化一切改变的可能性。在英文里不说N-word、在中文里不说“黑鬼”,折损我们多少自由了吗?反对西方人用“Ching-Chong”来嘲讽华人的口音,有什么不正当的吗?拒绝使用“棒子”、“阿三”这些歧视性的民族别称,真的侵犯我们什么权利了吗?并不是存在的,就一定是合理的。语言不是值得不加甄别、无条件保守一切的东西,它本身就是在社会现实的动态中不断得到更新的,而我们也有资格成为这动态的一部分。《好东西》如今英语世界的语言政治正确词汇表里有很多例子,比如“堕胎”,abortion,是一个带有微妙不客气的说法,改成terminated pregnancy,“妊娠终止”,变得不带情绪。另外,政治正确的词汇不只为了反歧视创造,有时候只是为了政治上好让人接受。譬如“工人罢工”,strike,在英语里传统上带贬义,有指责人家闹事的意思;所以改成“工业行动”,industrial action。近些年,更加多元化的伴侣关系逐渐丰富起来以后,“丈夫/妻子—husband/wife”已经不太够用了。不一定是一男一女,两个人在一起也不一定是结婚,也可能是民事结合,也可能根本没有法律关系;情侣关系,也不知道是开放还是不开放、承诺还是不承诺。在信息不完全的时候,统一使用significant other,“重要另一人”。其实恰恰与《1984》的“新语”相反,语言政治正确并不是在削减我们的词汇表——当然确实是禁止了一些词——但相比之下,更多的是在扩大我们的词汇表,扩大我们为了进行一种体面的、包容的、不冒犯到人的社会生活,而需要掌握的词汇表。这张不断扩容的词汇表,确实反直觉,不符合人类语言的使用习惯和规律。主张这种语言的革新、并通过公共议程赋予其社会权力,在保守主义的视角看来富有专制主义的色彩,就是不知天高地厚的左派激进者的自负,妄图以意识形态的一时意气左右人类语言遗产的厚重轨迹。但其实,人类厚重的东西很多。语言遗产很厚重,偏见可能也同样厚重。“刻板印象”、“stereotype”这个词,最早是在18世纪被人用来描述印刷工业中,一些常用词组、句式所组合的“刻板”;后来到1922年,率先被美国作家、评论家沃尔特·李普曼(Walter Lippmann)用来形容“对人与事想当然的、过分简化的类型判断”。李普曼在当年就已经指出,名为刻板印象的偏见,具有持续不断地、不容动摇地进行代际传递的能量,从父母传予子女,从老一辈传予新一代,简直有如生物遗传一样强大。代代相传的语言如此,代代相传的偏见也是如此。语言对于人类的意义绝不仅是表达与沟通而已,它同时还提供了人类思考的框架和工具,我们沿着语言的路径进行思维的探索,我们使用的词汇、说的话定义了一部分的我们。人如其言,我言说,故我在。《好东西》我们所接受的词汇表、我们的语言方式,我们吐出来的词语、说出来的话,跟我们的思想观念如何,跟我们到底是包容还是偏狭、良善还是恶毒,跟我们到底是怎样的人、又想成为怎样的人,大有关系。人心中的偏见,语言词汇中的不公,社会权力结构的不义,这些东西都不会自动消失、自动变好。相反,它们的默认设置就是代代传递。如果它们改变了,那也是因为有人去改变了,而这些改变是需要真实的输入与努力的。 在这个时代,这种努力的其中一个名字,就被人叫作“政治正确”。它也许很多时候吃相不是太好看,但我们需要理解,它确实寄托着人类的善意。*本文整理自看理想音频节目《观念辞典:你身边的政治学》第10期,有编辑删减,完整内容请移步”看理想”收听。 👆看理想小程序全新上线⭐️点击收听节目 音频编辑:hyl、荒井柴 封面图:《坠落的审判》 策划:看理想新媒体部 商业合作:[email protected]投稿或其他事宜:[email protected] 阅读原文 文章原文
新智元报道 编辑:Aeneas 犀牛 【新智元导读】19岁退学哈佛,投身AI创业,跟硅谷大佬称兄道弟,走上人生巅峰!如今,三位00后创始人的这家AI招聘公司,已经估值20亿美元,用时两年成为百亿级独角兽,如今单月收入700万美元,年化收入已达7500万刀。 一位00后退学哈佛,投身AI创业。仅用24个月,就把公司一举打造成百亿级别独角兽! 如今,这家公司已经完成了1亿美元B轮融资,估值已达到20亿美元,成长速度惊人。 这家00后的初创公司,一出手就颠覆了传统的招聘形式,把OpenAI等全球顶尖AI实验室作为大客户收入囊中。 过程中更是一路开挂,获得Peter Thiel这位硅谷创投教父的垂青。而为了抢下他们公司的融资名额,福布斯知名创投人甚至开直升机接送00后创始人。 AI的造福神话,还在不断上演。 当我们19岁创办公司时,我们雄心勃勃,但从未想过会在21岁时,它成为一家价值20亿美元的公司。 发现商机,00后果断退学创业 AI招聘初创公司Mercor的三位00后创始人,在高中阶段就认识了。其中出生于2004年的Brendan Foody,从很小时就是一位连续创业者,在高中时就曾创办一家数字咨询公司。 在高中时,他和另外两人Surya Midha和Adarsh Hiremath一同参加了学校辩论队,曾拿下某场辩论赛冠军的辉煌战绩。 高中毕业后,三人分别考入美国乔治城大学的经济学、外交专业,以及哈佛大学的计算机专业。…
新智元报道 编辑:编辑部 HYj 【新智元导读】Karpathy发出灵魂拷问,评估AI究竟该看哪些指标?答案或许就藏在经典游戏里!最近,加州大学圣迭戈分校Hao AI Lab用超级马里奥等评测AI智能体,Claude 3.7结果令人瞠目结舌。 LLM评估基准的「黄金标准」,正在失效? 一大早,AI大神Karpathy发出质疑,「目前存在一种评估危机,我真的不知道现在该看哪些指标了」。 上下滑动查看 诸如MMLU、SWE-Bench Verified、Chatbot Arena等这些基准,各有自己的优劣之处。如果这些都不够,那么游戏算不算?毕竟,曾经红极一时的AlphaGo是围棋界的头号AI;就连OpenAI也早年涉足游戏领域,拿着自研AI在DOTA国际赛中取得亮眼的成绩。最近,Claude 3.7的出世,让「宝可梦」一时间成为LLM评判的新标杆。UCSD Hao AI Lab再次出手,开源了一种全新的「游戏智能体」,能够实时让计算机使用智能体(CUA)运行解谜、益智等类型的游戏。结果显示,Claude 3.7…