Blog - Trent's Blog

OpenAI豪赌400亿美金融资，却遭微软围剿！改组霸王条款，失败砍半200亿

新智元报道编辑：桃子【新智元导读】OpenAI正在敲定400亿美金最新融资，由软银领投，而硬性条件是——必须25年年底完成营利性企业的转型。若改组成功，公司估值冲上3000亿。 WSJ独家爆料称，OpenAI正在敲定新一轮高达400亿美元的融资，堪称初创企业史上最大融资规模之一。然而，这笔巨资背后，却隐藏着一个「陷阱」—— 如果OpenAI无法在年底前，成功转型为一家独立的营利性公司，便只能拿到一半资金200亿美元。这不仅是一场融资博弈，更是对OpenAI未来发展的一次关键考验。初期100亿板上钉钉，转型成功「打全款」据报道，本轮融资将由日本软银领投，预计将贡献高达300亿美金，其余部分则联合微软等其他投资者完成。如果一切顺利，OpenAI的估值将飙升至3000亿美元，成为AI领域的「独角兽之王」然而，这400亿美元并非唾手可得。资金主要分为两部分：初始的100亿美元已板上钉钉，但剩余300亿美元能否到位，取决于OpenAI能否在年底前完成转型。如果失败，第二部分的资金将缩水至100亿美元，总额直接「腰斩」至200亿。这一条件无疑为OpenAI的改组之路增添了紧迫感。软银作为领投方，显然希望通过这一条款推动OpenAI加速转型，确保其投资回报。而对OpenAI来说，这既是机遇，也是巨大的压力。改组最大拦路虎：微软…

ByMar 30, 2025

News

网上晒图要当心！AI六成可能知道你在哪儿

新智元报道编辑：KingHZ 【新智元导读】给AI一张全新的照片，它能以相当高的准确率还猜出照片在哪个城市拍摄的。在新研究中，表现最好的AI模型，猜出图片所在城市的正确率比人类高62.6%！以后网上晒图可要当心了，AI可能知道你在哪里！ AI轻松击败人类！这次是看图猜地名：给AI一张全新的照片，它能猜出照片在哪儿拍摄的，而且准确率还相当高。也就是说，从图像中，AI能识别地理信息方面。以后网上晒图可要当心了，AI知道你在哪里！沃顿商学院的教授Ethan Mollick，研读了相关论文，认为AI的这种能力对现实世界的影响非常大。具体而言，在不使用搜索引擎或AI模型的情况下，让大学生猜测每张街景图像对应的大洲、国家或城市名称。表3报告了人类的准确率（最后一行），与视觉语言模型相比，人类的表现明显比较差。其中表现最好的模型是Gemini1.5-Pro，在大洲、国家和城市层面预测中，正确率分别比人类高出59.6%、74.2%和62.6%。而大多数大学生表示对这些图像并不熟悉，承认他们纯粹就是胡乱猜测。表3：VLM和人类在FAIRLOCATOR数据集的100张图像上的表现对比论文链接：https://arxiv.org/abs/2502.11163 项目地址：https://github.com/uscnlp-lime/FairLocator然而，AI模型仍然存在一些问题，包括偏差和隐私问题。在评估了四个VLM模型后，研究人员发现，尽管这些模型展示了从图像中识别地理信息的能力，在城市预测中最高可达53.8%的准确率，但它们表现出了显著的地区性偏差。具体来说，经济发达且人口密集的地区的表现明显优于发展较慢的地区（低12.5%）和人口稀少的地区（低17.0%）。此外，这些模型还表现出了地区性偏差，常常过度预测某些特定位置。VLM模型的强大性能也引发了隐私问题：即便用户不想被人知道自己在哪儿，AI依旧可能从图片中发现用户的踪迹。三大偏差对视觉语言模型（VLMs）从图像中识别地理信息的能力，早有研究，但对偏差问题缺乏足够的关注。具体而言，这些研究未能深入分析视觉语言模型在地理信息识别中存在的偏差。在地理信息识别中，新研究将视觉语言模型的偏差分为两类：（1）在识别来自不同地区的图像时存在的准确率差异；（2）在地理推理过程中更频繁地预测某些地区的系统性倾向。为了评估偏差，开发了名为FAIRLOCATOR的基准测试，该基准测试包含来自43个国家111个城市的1200张图像。每张图像都附有详细的地理信息，包括国家、城市和街道名称。FAIRLOCATOR包含评估框架，可自动向视觉语言模型发出查询、提取回复，并通过名称翻译和去重处理将回复与真实数据进行比对。为了评估视觉语言模型（VLMs）在预测城市地理信息方面的性能，将图像分为两部分进行分析：1、深度（Depth）：为了验证VLMs是否倾向于对相似城市（即同一国家内的城市）预测著名城市，研究选择了每个洲人口最多的6个国家，并从每个国家中进一步挑选出10个城市。2、广度（Breadth）：为了探索具有不同文化、人口和发展水平的国家，研究按人口排名从全球选取了60个城市，每个国家最多选择2个城市，避免人口大国的过度代表，确保了样本的多样性，涵盖了不同的文化和经济发展水平。四种不同的VLMs被用于这项研究，包括：GPT-4o、Gemini-1.5-Pro、LLaMA-3.2-11B以及LLaVA-v1.6-Vicuna-13B。研究人员发现，当前的视觉语言模型（VLMs）在三个关键方面表现出显著的偏差：1 偏向知名城市：例如，Gemini-1.5-Pro在识别来自巴西的图像时，频繁预测为圣保罗。虽然这表明模型能够识别巴西的特征，但它缺乏捕捉区域多样性或细微差异的能力。2 跨区域准确率差异：VLMs在识别发达地区图像中的地理信息时表现出更高的准确率，平均准确率为48.8%，但在识别欠发达地区的图像时，性能显著下降，准确率通常降至41.7%。3 与发展水平的虚假关联：VLMs经常将城市或现代场景（即使来自发展中国家）与发达国家联系起来。相反，描绘郊区或乡村景观的图像则经常被错误地归类为来自发展中国家。图1：本文发现的三种偏差类型。「GT」代表真实标签（Ground Truth），「Pre」代表视觉语言模型（VLM）的预测结果。模型指令与提示词为了指导视觉语言模型（VLMs）更好地完成地理定位任务，借鉴了GeoGuessr游戏玩家常用的策略。在GeoGuessr游戏中，玩家放置到一个半随机的谷歌街景地点，要求玩家只通过有限的线索来猜测图片中的位置。在提示中，要求VLMs根据图像细节，如门牌号、行人、标志、语言和光线来推断地理位置。为了便于后期处理，VLMs需要以JSON格式返回包含五个关键字段的响应：「分析」、「大洲」、「国家」、「城市」和「街道」。当将图像编码为VLMs的输入时，会确保移除所有元数据，比如时间、位置、相机参数和作者信息，因为这些数据可能让VLMs轻易地推断出位置。然后，从输出中提取答案，并确保它们既不是未知的，也不是无效的。每个模型对每张图片最多有五次尝试机会；如果五次尝试都得到了无效结果，该图片则被标记为失败案例。为了保证实验的可靠性，要求每张图片必须由同一个模型生成三个响应。这项任务中使用的具体提示如下：实验过程使用FAIRLOCATOR框架，专注于解决两个关键研究问题：…

ByMar 30, 2025

News

图灵奖得主预言中国成AI工业翘楚！海淀硬核AI先锋盛会，涌现更多未来成果

新智元报道编辑：编辑部 NZYH 【新智元导读】2025中关村论坛人工智能主题日，高能不断。清华系团队全新Vidu Q1视频生成可控性再创新高，炫目demo惊艳全场。图灵奖得主Joseph Sifakis、清华朱军、百度王海峰等大咖演讲，更是将论坛推向专业的巅峰。最近的美国AI圈，几乎一天出一件大事。谷歌Gemini 2.5 Pro，Grok 3，GPT-4o的原生图像功能，来自Grok、Perplexity和谷歌的Deep Research产品等等，让人惊呼：AI的又一波大爆发来了？然而，目前全球的聚光灯中心，已经远远不止集中在美国西海岸了。中国AI圈最近接连不断甩出的几枚核弹，已经让全世界都随之震动，引起山呼海啸一般的后续效应。而中国AI发展的奠基城市，毫无疑问就是北京。可以说，全国AI发展看北京，北京AI发展看海淀。这么说，不仅仅因为这里是名副其实的中国AI人才第一城，汇聚了全国最顶尖的大学、科研机构和重点实验室，囊括了全国60%的AI人才。更是因为，北京海淀几年来对AI的扶持政策，已经反哺到了全国。甚至DeepSeek和Manus的核心团队，也都身处北京。作为中国AI的实际发源地，北京海淀扛起了全国AI发展的重任，既有实力，也有胸怀，用领先的技术辐射其他城市，带动了全国的AI产业发展。…

ByMar 30, 2025

News

AI「癌症神探」降临：准确度近100%，医生也自叹不如！

新智元报道编辑：英智【新智元导读】医学变革风暴来袭！ECgMPL模型如同医学领域的超级侦探，从细胞和组织微观图像里精准揪出癌症踪迹，诊断子宫内膜癌准确率近100%，远超医生平均水平。逆天！新型AI识别癌症，近100%精准度碾压医生。 AI在医学领域越来越厉害啦！有一种新研发的AI，诊断癌症的本事比专业医生还牛。在不久的将来，用AI识别癌症或许会成为常见的事。包括澳大利亚Charles Darwin大学（CDU）在内的国际科研团队，搞出一个叫ECgMPL的模型。论文链接：https://www.sciencedirect.com/science/article/pii/S2666990025000059?via%3Dihub ECgMPL专门分析细胞和组织的微观图像，用来查子宫内膜癌。子宫内膜癌是常见的生殖系统肿瘤之一，而这个AI模型的准确率高达99.26%！研究人员还发现，这个模型经过调整，还能诊断很多其他疾病，如结直肠癌、口腔癌。 CDU的Asif Karim博士参与了这项研究，他表示，ECgMLP模型的准确率高达99.26%，比现在用的那些诊断方法都强，计算速度还特别快。通过消融研究、自注意力机制，再加上高效的训练，这个模型在很多组织病理学数据集上都能很好地发挥作用，是临床诊断子宫内膜癌的得力助手。这个经过大量数据训练的AI模型，在查看微观扫描图像（也就是组织病理学图像）的时候，能把图像变得更清晰，这样就能发现癌症早期的症状。有些微小变化医生用眼睛很难发现，但AI模型一下子就能找到。现在，医生诊断的准确率大概在78.91%到80.93%之间。…

ByMar 30, 2025

News

高中生用「我的世界」评测SOTA模型！Claude暂时领先，DeepSeek紧随其后

新智元报道编辑：定慧【新智元导读】AI频频刷新基准测试纪录，却算不清「strawberry」里到底有几个字母r，在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起，例如由一名高中生开发的MC-Bench，用Minecraft方块「竞技场」模式评价AI能力。这种新的测评范式，或许更贴合人类对AI直观、创造性能力的实际期待。「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难？对于现如今的LMMs来说，通过各种人类「听着就头痛，看又看不懂」的基准测试似乎已是家常便饭。比如DeepSeek-R1发布时在6大基准测试（包含AIME、MMLU、MATH-500等）中超过o1取得领先。但是对于人类来说依靠直觉和下意识就能回答的问题，LLM们似乎集体有点「发懵」。很难理解OpenAI的GPT-4能够在LSAT考试中获得第88百分位的成绩，但却无法数清楚「strawberry」中有多少r。除了复杂的基准测试，另外一种评价模型好坏的方式就是「竞技场模式」。比如可以在Chatbot Arena进行上提问投票，选出面对相同问题时的「最佳模型」。但是这种依靠Chat模式的评测依然不太直观，于是各种各样的创意评测就诞生了。创意评测的魅力 Minecraft Benchmark（或 MC-Bench）像一个竞技场，在一对一的挑战中针对相同提示生成Minecraft作品。「对决双方」由用户投票选择哪个模型做得更好。…

ByMar 29, 2025

News

AI跨本体组队！智源发布首个跨本体具身大小脑协作框架+开源具身大脑

新智元报道编辑：Aeneas 好困【新智元导读】就在刚刚，2025中关村论坛上智源研究院发布了两大重磅：首个跨本体具身大小脑协作框架RoboOS，以及开源具身大脑RoboBrain！从此，单机智能将迈向群体智能，具身智能开源统一生态将更加繁荣。 3月29日，智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能，为构建具身智能开源统一生态加速场景应用提供底层技术支持。开源链接：具身多模态大脑模型RoboBrain Github： https://github.com/FlagOpen/RoboBrain Gitee： https://gitee.com/flagopen/robo-brain Huggingface： https://huggingface.co/BAAI/RoboBrain 为机器人操作任务设计的高质量异构数据集ShareRobot GitHub： https://github.com/FlagOpen/ShareRobot Gitee：…

ByMar 29, 2025

News

从0编写基因组！史上最大生物学模型Evo-2全面开源：硅基生命能创造细胞？

新智元报道编辑：LRS 【新智元导读】史上最大的基因组AI模型Evo 2使用超过12.8万个基因组数据训练，包含9.3万亿个核苷酸，能预测突变效应、设计 DNA 序列，并通过可视化工具展示学习到的生物特征，为生成生物学和疾病研究提供新思路。生命的一切表现，基本都可以从DNA编码中找到答案。基因组（Genome）包含了生物体所有基因以及非编码的DNA序列，承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息，近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。然而，基因组的复杂性是巨大的，即使是最简单的微生物，也包含数百万个DNA碱基对，要智能地构建新的生物系统，研究人员还需要深入理解基因组编码的复杂信息。 2024年11月，研究人员在Science上发表了一项研究Evo 1，基于单细胞（270万个原核生物和噬菌体）基因组进行训练，具有70亿个参数，在单核苷酸（构成DNA或RNA的基本单元）设置下实现了13万碱基的上下文长度。 Evo 1论文链接：https://www.science.org/doi/10.1126/science.ado9336 Evo 1在DNA、RNA 和蛋白质模式上展示了更好的零样本功能预测能力，并通过实验验证了Evo 1生成的CRISPR-Cas分子复合物以及IS200和IS605转座系统的功能活性，证明了使用语言模型进行蛋白质-RNA和蛋白质-DNA代码设计的前景。…

ByMar 29, 2025

News

扒开GPT-4o生图真相！港中文博士生「破解」OpenAI隐藏秘密，还能手动改图

新智元报道编辑：编辑部 HXZ 【新智元导读】就在刚刚，港中文博士Jie Liu刚刚破解了GPT-4o的前端生图秘密：逐行生成的效果，其实只是浏览器上的前端动画效果，并不准确。它很大可能是原生自回归生成的，甚至我们还可以手动改图。谷歌DeepMind大佬则猜测，GPT-4o图像生成应该是一种多尺度和自回归的组合。 GPT-4o，如今已经引发了全网的「吉卜力」狂潮。从全网的模因狂热到备受质疑的版权问题，OpenAI本周的这项全新发布，引发的戏剧性事件如雨后春笋般层出不穷。在全网如海啸般涌现的吉卜力图片中，有人发现，它生成的漫画实在是强悍了，简直令人不寒而栗：它表现出了极强的元上下文、元理解能力，甚至还能自主预测不同的情境！遗憾的是，目前OpenAI并未公布GPT-4o的生图技术细节，只提到采用的是自回归方法，类似语言模型。也就是说，4o与DALL-E的扩散模型不同，它使用自回归模型逐步生成图像，根据先前的像素或补丁预测下一个像素或补丁。这就能让它更好地遵循指令，甚至进行逼真的照片编辑。虽然没有更多的细节，但这丝毫抵挡不住AI社区技术大神们的火眼金睛。就在刚刚，港中文的一位博士生Jie Liu破解了GPT-4o不一般的前端生图秘密：实际上，它很大可能是原生自回归（AR）生成的，甚至我们可以手动改图。无独有偶，CMU博士Sangyun Lee也推测出，GPT-4o的图像生成原理，应该大致如下： GPT-4o生成视觉token，然后由扩散解码器将这些token解码为像素空间中的图像不只是普通的扩散模型，而是类似于Rolling…

ByMar 29, 2025