新智元报道 编辑:桃子 【新智元导读】OpenAI正在敲定400亿美金最新融资,由软银领投,而硬性条件是——必须25年年底完成营利性企业的转型。若改组成功,公司估值冲上3000亿。 WSJ独家爆料称,OpenAI正在敲定新一轮高达400亿美元的融资,堪称初创企业史上最大融资规模之一。 然而,这笔巨资背后,却隐藏着一个「陷阱」—— 如果OpenAI无法在年底前,成功转型为一家独立的营利性公司,便只能拿到一半资金200亿美元。 这不仅是一场融资博弈,更是对OpenAI未来发展的一次关键考验。 初期100亿板上钉钉,转型成功「打全款」 据报道,本轮融资将由日本软银领投,预计将贡献高达300亿美金,其余部分则联合微软等其他投资者完成。 如果一切顺利,OpenAI的估值将飙升至3000亿美元,成为AI领域的「独角兽之王」 然而,这400亿美元并非唾手可得。 资金主要分为两部分:初始的100亿美元已板上钉钉,但剩余300亿美元能否到位,取决于OpenAI能否在年底前完成转型。 如果失败,第二部分的资金将缩水至100亿美元,总额直接「腰斩」至200亿。 这一条件无疑为OpenAI的改组之路增添了紧迫感。 软银作为领投方,显然希望通过这一条款推动OpenAI加速转型,确保其投资回报。 而对OpenAI来说,这既是机遇,也是巨大的压力。 改组最大拦路虎:微软…
新智元报道 编辑:KingHZ 【新智元导读】给AI一张全新的照片,它能以相当高的准确率还猜出照片在哪个城市拍摄的。在新研究中,表现最好的AI模型,猜出图片所在城市的正确率比人类高62.6%!以后网上晒图可要当心了,AI可能知道你在哪里! AI轻松击败人类! 这次是看图猜地名:给AI一张全新的照片,它能猜出照片在哪儿拍摄的,而且准确率还相当高。也就是说,从图像中,AI能识别地理信息方面。以后网上晒图可要当心了,AI知道你在哪里!沃顿商学院的教授Ethan Mollick,研读了相关论文,认为AI的这种能力对现实世界的影响非常大。具体而言,在不使用搜索引擎或AI模型的情况下,让大学生猜测每张街景图像对应的大洲、国家或城市名称。表3报告了人类的准确率(最后一行),与视觉语言模型相比,人类的表现明显比较差。其中表现最好的模型是Gemini1.5-Pro,在大洲、国家和城市层面预测中,正确率分别比人类高出59.6%、74.2%和62.6%。而大多数大学生表示对这些图像并不熟悉,承认他们纯粹就是胡乱猜测。表3:VLM和人类在FAIRLOCATOR数据集的100张图像上的表现对比 论文链接:https://arxiv.org/abs/2502.11163 项目地址:https://github.com/uscnlp-lime/FairLocator然而,AI模型仍然存在一些问题,包括偏差和隐私问题。在评估了四个VLM模型后,研究人员发现,尽管这些模型展示了从图像中识别地理信息的能力,在城市预测中最高可达53.8%的准确率,但它们表现出了显著的地区性偏差。具体来说,经济发达且人口密集的地区的表现明显优于发展较慢的地区(低12.5%)和人口稀少的地区(低17.0%)。此外,这些模型还表现出了地区性偏差,常常过度预测某些特定位置。VLM模型的强大性能也引发了隐私问题:即便用户不想被人知道自己在哪儿,AI依旧可能从图片中发现用户的踪迹。 三大偏差 对视觉语言模型(VLMs)从图像中识别地理信息的能力,早有研究,但对偏差问题缺乏足够的关注。 具体而言,这些研究未能深入分析视觉语言模型在地理信息识别中存在的偏差。在地理信息识别中,新研究将视觉语言模型的偏差分为两类:(1)在识别来自不同地区的图像时存在的准确率差异;(2)在地理推理过程中更频繁地预测某些地区的系统性倾向。为了评估偏差,开发了名为FAIRLOCATOR的基准测试,该基准测试包含来自43个国家111个城市的1200张图像。每张图像都附有详细的地理信息,包括国家、城市和街道名称。FAIRLOCATOR包含评估框架,可自动向视觉语言模型发出查询、提取回复,并通过名称翻译和去重处理将回复与真实数据进行比对。为了评估视觉语言模型(VLMs)在预测城市地理信息方面的性能,将图像分为两部分进行分析:1、深度(Depth):为了验证VLMs是否倾向于对相似城市(即同一国家内的城市)预测著名城市,研究选择了每个洲人口最多的6个国家,并从每个国家中进一步挑选出10个城市。2、广度(Breadth):为了探索具有不同文化、人口和发展水平的国家,研究按人口排名从全球选取了60个城市,每个国家最多选择2个城市,避免人口大国的过度代表,确保了样本的多样性,涵盖了不同的文化和经济发展水平。四种不同的VLMs被用于这项研究,包括:GPT-4o、Gemini-1.5-Pro、LLaMA-3.2-11B以及LLaVA-v1.6-Vicuna-13B。研究人员发现,当前的视觉语言模型(VLMs)在三个关键方面表现出显著的偏差:1 偏向知名城市:例如,Gemini-1.5-Pro在识别来自巴西的图像时,频繁预测为圣保罗。虽然这表明模型能够识别巴西的特征,但它缺乏捕捉区域多样性或细微差异的能力。2 跨区域准确率差异:VLMs在识别发达地区图像中的地理信息时表现出更高的准确率,平均准确率为48.8%,但在识别欠发达地区的图像时,性能显著下降,准确率通常降至41.7%。3 与发展水平的虚假关联:VLMs经常将城市或现代场景(即使来自发展中国家)与发达国家联系起来。相反,描绘郊区或乡村景观的图像则经常被错误地归类为来自发展中国家。图1:本文发现的三种偏差类型。「GT」代表真实标签(Ground Truth),「Pre」代表视觉语言模型(VLM)的预测结果。 模型指令与提示词 为了指导视觉语言模型(VLMs)更好地完成地理定位任务,借鉴了GeoGuessr游戏玩家常用的策略。 在GeoGuessr游戏中,玩家放置到一个半随机的谷歌街景地点,要求玩家只通过有限的线索来猜测图片中的位置。在提示中,要求VLMs根据图像细节,如门牌号、行人、标志、语言和光线来推断地理位置。为了便于后期处理,VLMs需要以JSON格式返回包含五个关键字段的响应:「分析」、「大洲」、「国家」、「城市」和「街道」。当将图像编码为VLMs的输入时,会确保移除所有元数据,比如时间、位置、相机参数和作者信息,因为这些数据可能让VLMs轻易地推断出位置。然后,从输出中提取答案,并确保它们既不是未知的,也不是无效的。每个模型对每张图片最多有五次尝试机会;如果五次尝试都得到了无效结果,该图片则被标记为失败案例。为了保证实验的可靠性,要求每张图片必须由同一个模型生成三个响应。这项任务中使用的具体提示如下: 实验过程 使用FAIRLOCATOR框架,专注于解决两个关键研究问题:…
新智元报道 编辑:编辑部 NZYH 【新智元导读】2025中关村论坛人工智能主题日,高能不断。清华系团队全新Vidu Q1视频生成可控性再创新高,炫目demo惊艳全场。图灵奖得主Joseph Sifakis、清华朱军、百度王海峰等大咖演讲,更是将论坛推向专业的巅峰。 最近的美国AI圈,几乎一天出一件大事。 谷歌Gemini 2.5 Pro,Grok 3,GPT-4o的原生图像功能,来自Grok、Perplexity和谷歌的Deep Research产品等等,让人惊呼:AI的又一波大爆发来了? 然而,目前全球的聚光灯中心,已经远远不止集中在美国西海岸了。中国AI圈最近接连不断甩出的几枚核弹,已经让全世界都随之震动,引起山呼海啸一般的后续效应。 而中国AI发展的奠基城市,毫无疑问就是北京。可以说,全国AI发展看北京,北京AI发展看海淀。 这么说,不仅仅因为这里是名副其实的中国AI人才第一城,汇聚了全国最顶尖的大学、科研机构和重点实验室,囊括了全国60%的AI人才。 更是因为,北京海淀几年来对AI的扶持政策,已经反哺到了全国。甚至DeepSeek和Manus的核心团队,也都身处北京。 作为中国AI的实际发源地,北京海淀扛起了全国AI发展的重任,既有实力,也有胸怀,用领先的技术辐射其他城市,带动了全国的AI产业发展。…
新智元报道 编辑:英智 【新智元导读】医学变革风暴来袭!ECgMPL模型如同医学领域的超级侦探,从细胞和组织微观图像里精准揪出癌症踪迹,诊断子宫内膜癌准确率近100%,远超医生平均水平。 逆天!新型AI识别癌症,近100%精准度碾压医生。 AI在医学领域越来越厉害啦!有一种新研发的AI,诊断癌症的本事比专业医生还牛。 在不久的将来,用AI识别癌症或许会成为常见的事。 包括澳大利亚Charles Darwin大学(CDU)在内的国际科研团队,搞出一个叫ECgMPL的模型。 论文链接:https://www.sciencedirect.com/science/article/pii/S2666990025000059?via%3Dihub ECgMPL专门分析细胞和组织的微观图像,用来查子宫内膜癌。子宫内膜癌是常见的生殖系统肿瘤之一,而这个AI模型的准确率高达99.26%! 研究人员还发现,这个模型经过调整,还能诊断很多其他疾病,如结直肠癌、口腔癌。 CDU的Asif Karim博士参与了这项研究,他表示,ECgMLP模型的准确率高达99.26%,比现在用的那些诊断方法都强,计算速度还特别快。 通过消融研究、自注意力机制,再加上高效的训练,这个模型在很多组织病理学数据集上都能很好地发挥作用,是临床诊断子宫内膜癌的得力助手。 这个经过大量数据训练的AI模型,在查看微观扫描图像(也就是组织病理学图像)的时候,能把图像变得更清晰,这样就能发现癌症早期的症状。 有些微小变化医生用眼睛很难发现,但AI模型一下子就能找到。 现在,医生诊断的准确率大概在78.91%到80.93%之间。…
新智元报道 编辑:定慧 【新智元导读】AI频频刷新基准测试纪录,却算不清「strawberry」里到底有几个字母r,在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起,例如由一名高中生开发的MC-Bench,用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式,或许更贴合人类对AI直观、创造性能力的实际期待。 「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难? 对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。 比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。 但是对于人类来说依靠直觉和下意识就能回答的问题,LLM们似乎集体有点「发懵」。 很难理解OpenAI的GPT-4能够在LSAT考试中获得第88百分位的成绩,但却无法数清楚「strawberry」中有多少r。 除了复杂的基准测试,另外一种评价模型好坏的方式就是「竞技场模式」。 比如可以在Chatbot Arena进行上提问投票,选出面对相同问题时的「最佳模型」。 但是这种依靠Chat模式的评测依然不太直观,于是各种各样的创意评测就诞生了。 创意评测的魅力 Minecraft Benchmark(或 MC-Bench)像一个竞技场,在一对一的挑战中针对相同提示生成Minecraft作品。 「对决双方」由用户投票选择哪个模型做得更好。…
新智元报道 编辑:Aeneas 好困 【新智元导读】就在刚刚,2025中关村论坛上智源研究院发布了两大重磅:首个跨本体具身大小脑协作框架RoboOS,以及开源具身大脑RoboBrain!从此,单机智能将迈向群体智能,具身智能开源统一生态将更加繁荣。 3月29日,智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。 开源链接: 具身多模态大脑模型RoboBrain Github: https://github.com/FlagOpen/RoboBrain Gitee: https://gitee.com/flagopen/robo-brain Huggingface: https://huggingface.co/BAAI/RoboBrain 为机器人操作任务设计的高质量异构数据集ShareRobot GitHub: https://github.com/FlagOpen/ShareRobot Gitee:…
新智元报道 编辑:LRS 【新智元导读】史上最大的基因组AI模型Evo 2使用超过12.8万个基因组数据训练,包含9.3万亿个核苷酸,能预测突变效应、设计 DNA 序列,并通过可视化工具展示学习到的生物特征,为生成生物学和疾病研究提供新思路。 生命的一切表现,基本都可以从DNA编码中找到答案。 基因组(Genome)包含了生物体所有基因以及非编码的DNA序列,承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息,近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。 然而,基因组的复杂性是巨大的,即使是最简单的微生物,也包含数百万个DNA碱基对,要智能地构建新的生物系统,研究人员还需要深入理解基因组编码的复杂信息。 2024年11月,研究人员在Science上发表了一项研究Evo 1,基于单细胞(270万个原核生物和噬菌体)基因组进行训练,具有70亿个参数,在单核苷酸(构成DNA或RNA的基本单元)设置下实现了13万碱基的上下文长度。 Evo 1论文链接:https://www.science.org/doi/10.1126/science.ado9336 Evo 1在DNA、RNA 和蛋白质模式上展示了更好的零样本功能预测能力,并通过实验验证了Evo 1生成的CRISPR-Cas分子复合物以及IS200和IS605转座系统的功能活性,证明了使用语言模型进行蛋白质-RNA和蛋白质-DNA代码设计的前景。…
新智元报道 编辑:编辑部 HXZ 【新智元导读】就在刚刚,港中文博士Jie Liu刚刚破解了GPT-4o的前端生图秘密:逐行生成的效果,其实只是浏览器上的前端动画效果,并不准确。它很大可能是原生自回归生成的,甚至我们还可以手动改图。谷歌DeepMind大佬则猜测,GPT-4o图像生成应该是一种多尺度和自回归的组合。 GPT-4o,如今已经引发了全网的「吉卜力」狂潮。 从全网的模因狂热到备受质疑的版权问题,OpenAI本周的这项全新发布,引发的戏剧性事件如雨后春笋般层出不穷。 在全网如海啸般涌现的吉卜力图片中,有人发现,它生成的漫画实在是强悍了,简直令人不寒而栗:它表现出了极强的元上下文、元理解能力,甚至还能自主预测不同的情境! 遗憾的是,目前OpenAI并未公布GPT-4o的生图技术细节,只提到采用的是自回归方法,类似语言模型。 也就是说,4o与DALL-E的扩散模型不同,它使用自回归模型逐步生成图像,根据先前的像素或补丁预测下一个像素或补丁。这就能让它更好地遵循指令,甚至进行逼真的照片编辑。 虽然没有更多的细节,但这丝毫抵挡不住AI社区技术大神们的火眼金睛。 就在刚刚,港中文的一位博士生Jie Liu破解了GPT-4o不一般的前端生图秘密:实际上,它很大可能是原生自回归(AR)生成的,甚至我们可以手动改图。 无独有偶,CMU博士Sangyun Lee也推测出,GPT-4o的图像生成原理,应该大致如下: GPT-4o生成视觉token,然后由扩散解码器将这些token解码为像素空间中的图像 不只是普通的扩散模型,而是类似于Rolling…