新智元报道 编辑:乔杨 【新智元导读】Ai2和华盛顿大学联合Meta、CMU、斯坦福等机构发布了最新的OpenScholar系统,使用检索增强的方法帮助科学家进行文献搜索和文献综述工作,而且做到了数据、代码、模型权重的全方位开源。 LLM集成到搜索引擎中,可以说是当下AI产品的一个热门落地方向。 前有Perplexity横空出世,后有谷歌Gemini和OpenAI的SearchGPT纷纷加入。 就在11月23日,有人发现搜索引擎大佬Darin Fisher正式加入OpenAI,这让人更加确信:SearchGPT只是一个开始,OpenAI也许会正式打造以LLM为基础的搜索引擎和浏览器,和谷歌展开一场正面battle。 虽然当下的LLM可以应付大多数场景下的常识问答,但在学术打工人眼中,用AI进行文献搜索依旧缺陷重重,还是传统的谷歌搜索和谷歌学术更好用。 为了填补这方面的空白,华盛顿大学NLP实验室和Ai2、Meta等机构合作,开发了专门服务科研人的学术搜索工具OpenScholar。 本质上,OpenScholar是一个进行过检索增强的语言模型,外接一个包含4500万篇论文的数据库,性能可以优于专有系统,甚至媲美人类专家。 为了方便自动化评估,团队还一道推出了全新的大规模基准ScholarQABench,覆盖了CS、生物、物理等多个学科,用于评价模型在引用准确性、涵盖度和质量的等方面的表现。 由UWNLP和Ai2两大顶流机构联手,OpenScholar在开源方面几乎做到了无懈可击。不仅放出了训练数据、代码和模型检查点,还有ScholarQABench的全部数据,以及用于专家评估的自动化脚本。 仓库地址:https://huggingface.co/collections/OpenScholar/openscholar-v1-67376a89f6a80f448da411a6 仓库地址:https://github.com/AkariAsai/OpenScholar 论文开头就给出了全部网址,此外团队还构建了一个公开可用的搜索demo,基于一个参数量为8B的语言模型,综合了超过100万篇CS领域的专业文献。 demo传送门:https://openscholar.allen.ai/ OpenScholar介绍 论文地址:https://arxiv.org/abs/2411.14199…
新智元报道 编辑:peter东 乔杨 【新智元导读】如果给LLM做MBTI,会得到什么结果?UC伯克利的最新研究就发现,不同模型真的有自己独特的性格 如果你经常在不同大模型之间来回切换,或许会发现不同模型的回复语气有细微差异,如同有不同的性格。 那么,LLM究竟有没有「性格」这种维度的特征?最近加州大学伯克利分校发表的新研究VibeCheck就证实了这种推测。论文地址:https://arxiv.org/abs/2410.12851 评价LLM,不止于准确度 如何更全面地评价大模型在撰写故事、解释概念或编辑文章上的表现?当前的基准测试大多只关心正确性,然而当我们评论一个人类写作者的时候,关注的维度就会扩展到创造力、写作风格等众多维度。 对于那些经常使用不同模型的用户,他们早已熟悉不同模型回复时表达方式上的差异,比如下面这张图中,ChatGLM的文字显得非常全面且严谨,透着浓浓的学术风。 但对于同一个问题,kimi的回复会包含更多具体的例子,但解释的语言更为简洁。 了解这些差异,对于那些使用基座大模型进行下游应用的开发者,会有所帮助。 例如,若我们发现Llama的回复更加友好,那么说明Llama更适合进行客服类任务,而回复更为正式的Claude则更适合编程类任务。 然而该如何系统性地了解这些差异?自然是「用魔法战胜魔法」,也就是用大模型来评价不同大模型的表现,而这正是VibeCheck在做的事。 下图展示了VibeCheck的核心模块,包括给出提示词、不同大模型做出回复,以及定性评价三部分。 VibeCheck的核心模块 给出了一组约200个的提示词后,研究者收集了不同大模型及人类的回复,并招募了200名人类评审员,两两比较这些回复并对「友好性」进行打分后计算平均分。 此外,人类评审员还会对大模型和人类回复的细微差异进行描述,例如,他们发现: 大模型的回答通常很正式,而人类的回答则更口语化…
本 文 约 4700 字 阅 读 需 要 14 分 钟 如今的古装影视剧中,女性策马的镜头几乎成了标配。无论是沙场上英勇无畏的女将军,还是山水间优雅从容的贵族佳人,马背上的身影总能为角色增添一份英气与魅力。但在裙裾飘飘的古代,女子真的能这样自如地骑马吗? 从骑行姿势到服饰装束的演变,我们能看到古人如何将实用与风尚完美结合。 如何“优雅”地骑马? 如果穿着裙子不方便分开腿骑马,那能否并着腿侧骑呢?在中世纪的欧洲,贵族女性骑马的主要方式就是侧骑(side saddle)。最初,侧骑是出于礼仪需求,后来逐渐发展为体现女性优雅的标志。侧骑专用马鞍设计独特,右腿放在前面的“卡腿装置”上,左腿则自然下垂,以保证女性穿着长裙骑马时既不失优雅,又避免衣物暴露。在19世纪的维多利亚时代,侧骑逐渐成为女性教育的一部分,贵族小姐被要求精通这种技巧,以彰显身份与品位。 这种骑法虽然在美学上满足了世俗对女性端庄形象的要求,但限制了骑术的实用性,用这种骑法骑马的稳定性和控制力远不及跨骑。因此,侧骑更多地服务于社交场合和贵族活动,而非战争或长途跋涉。 到了19世纪后期,随着女性社会地位的提升和服饰的解放,跨骑逐渐取代了侧骑。尤其是在西部拓荒运动中,美国女性为了更好地驾驭马匹和参与生产活动,不得不舍弃优雅的侧骑,选择更为实用的跨骑方式,这也标志着女性骑马从形象向实用的回归。 相比之下,中国女子骑马从一开始就表现出更多的实用性。汉景帝阳陵出土的一批女骑兵俑为我们还原了这一形象。…
本 文 约 4500 字 阅 读 需 要 13 分 钟 盛唐时期的长安城有多繁华,想必不用再多说。这座当时的国际大都市,不但是中国的政治、经济、文化中心,还比同时期同为国际首都的君士坦丁堡面积大七倍。据学者徐畅估算,唐天宝年间京畿乡村的人口总数可多达150万。即便除去周边乡村的人口数量,长安城内的人口想必也十分可观。 规模如此庞大的城市,每天对于粮食的消耗肯定是巨大的。尽管唐前期的皇帝不时带着众臣去东都洛阳就食,但留在长安的人口数量依然不可小觑。那么长安到底是如何保障粮食供应的呢? 或许,我们可以从粮仓上找找答案。 太仓:唐代粮仓的明珠 唐朝主要有五种粮仓,分别是太仓(正仓)、转运仓、军仓、常平仓、义仓。太仓是都城的大型粮仓,正仓设在地方各州县,由各州县官员管理,储存地方粮食,太仓其实就相当于长安城的正仓。转运仓一般沿交通要道设立,负责粮食的临时搬转、水路互换和临时存放等。军仓顾名思义就是储存军用粮食的仓库,一般位于军事重地。常平仓是稳定市场的隐形助手,丰收时,常平仓会以合理的价格将粮食收购并储存,歉收时再以正常价格出售储粮,以防通货膨胀。义仓则一般在饥荒灾荒时出面,负责稳定粮价,救济灾民。这五种分布在各个地区不同形式的粮仓相辅相成,共同保障大唐百姓的温饱问题。 既然太仓属于正仓,那么首要任务就是为皇室服务,《唐六典》卷十九载,“凡京官之祿”均由隶属司农寺的太仓署按其品级发放,并在其中详细记载“受领粟官吏姓名”“与某年日月”,除了朝廷百官,当时国子监和医学院的学生的口粮、调味品也是在太仓署领取的。可见太仓几乎能满足宫廷内所有的粮食需求。 由此,便引发了另外一个问题——这么多的人都要从太仓署领取禄米,若是集中下发,恐怕场面混杂,很容易发生纰漏。因此为了避免太仓门前排起“长龙”,朝廷规定各级官员按照所属部门不同,于不同日期发放禄米。据《唐六典》附录可查各单位分期支俸的具体时间: “中书,门下,御史台,尚书省,殿中省,内侍省,九寺,三监,左、右春坊,詹事府,京兆、河南府,并第一般(班),上旬给;十八卫,诸王府,率更、家令、仆寺,京、都总监,内坊,并第二般(班),中旬给;诸公主府邑司,东宫十率府,九成宫总监,两京畿府官,并第三般(班),下旬给。余司无额,准下旬。”…
新智元报道 编辑:编辑部 HYZ 【新智元导读】深度学习大牛,GAN之父突然发帖在线求助,透露了自己正同时与两种疾病作斗争,但它们的治疗方案相互冲突,网友们纷纷贡献出自己的建议。 没想到,自2022年突然离职苹果跳槽到谷歌DeepMind并引发业界的震动之后,再次听到「GAN之父」的消息却是因为他的健康问题。最近,Ian Goodfellow在社交媒体上发布了一条特殊的求助信息:有没有人知道同时治疗POTS和美尼尔氏病的好方法?如果您是一位有相关经验的临床医生,或者是一位找到有效解决方案的患者,请联系我。根据Goodfellow的描述,他在2023年初便开始出现了健康问题。当时,他的听力突然下降,经诊断为内淋巴积水,也就是仅累及耳蜗的「美尼尔氏病」(又称梅里埃病)。这种病会导致进行性听力丧失、耳内压力感和耳鸣。虽然目前没有治愈方法,但通过低盐饮食、利尿剂和抗偏头痛药物,能够将病情维持稳定。更不幸的是,今年他因感染新冠后并发了「体位性心动过速综合征」(postural tachycardia syndrome,POTS),让健康状况再次雪上加霜。这是一种身体无法正确调节血流的疾病,当站立时,心脏需要加速跳动才能将血液送到头部。而且,这种病的机制比这更复杂,但这是其主要症状表现。 研究显示,有67%的Long COVID(长新冠)患者都被诊断出了POTS现在,Goodfellow面临的困境是,这两种疾病的治疗方案存在直接冲突。主要有以下三个方面:首先,在药物摄入上,「利尿剂」对POTS非常不利,因此无法服用足够的剂量来保持美尼尔氏病的稳定。其次,在睡眠姿势上,如果枕位太低,会让耳朵产生压力导致听力下降,因此美尼尔氏病需要抬高头部睡眠。但对POTS来说,会加重血液循环问题,难以将身体血液送回到头部。这种冲突给Goodfellow自身的睡眠整体造成了极为不良影响,并带来更严重的恶性循环。第三,在钠的摄入量上,POTS患者需要每天摄入数千毫克的钠,但对于美尼尔氏病,需要将钠摄入量控制在每天1500毫克以下。如果哪顿饭的钠(盐)摄入超标,身体就会受到明显的影响。Goodfellow称当时自己患有美尼尔氏病后,在X上发帖收获到了好的帮助,因此这次决定再次尝试这种方法,征求大家的帮助。 去年求助原帖已删除他表示,美尼尔氏病的医生非常优秀,但他们对POTS以及POTS兼容的治疗方法了解有限。而且,他接触的POTS医生比较少,也对美尼尔氏病不太了解。他面临棘手的问题是,很难找到同时应对这两种疾病的一种方案。最后,他提供了一些可能的线索: 是否有人有使用阿米洛利/氟氢可的松治疗美尼尔氏病的相关经验? 是否有人有治疗因更常见原因需要服用利尿剂的POTS患者的经验?对于Goodfellow来说,这两种疾病的叠加简直是双重打击。由此,也让他对相关领域的研究动向非常关注。几天前,他曾转发推荐了Lief Therapeutics的CEORohan Dixit的关于联合抗病毒新研究。此外,对于疫情蔓延的放任,以及对长新冠患者的忽视,Goodfellow也是十分愤慨。 全网献计,网友:GPT-4o也有潜力 评论区下方,网友们还是一如既往热情地献上了自己的建议。坐标印度的网友表示,神经科医生会为治疗美尼尔氏病开处方「贝他斯汀」。自己每天服用2片24毫克的药,即便是吃了高盐食物,或喝了酒,也得到了很好的控制。Goodfellow回复道,自己曾尝试过「贝他斯汀」,但情况变得更糟了,有可能是没有坚持足够长时间。还有人称自己患有轻微的POTS(不昏倒,站立时bpm大约是100-110,可轻微运动),而且因为克隆氏症(Crohns)的缘故,不能完全使用盐治疗方案。如果你的症状更严重,可以尝试Corlanor等药物。「美尼尔氏病可以进行静脉输液吗?使用输液港/每周输液是一种更为激进的治疗手段,但可以作为最后的选择」。Goodfellow表示,「据我所知,通过静脉输液补充盐分和通过口服补充盐分同样有害,因为当盐分到达内耳时就会造成伤害」。另有网友丢出了一篇The Heartbeat…
新智元报道 编辑:LRST 好困 【新智元导读】Meta全新发布的基准Multi-IF涵盖八种语言、4501个三轮对话任务,全面揭示了当前LLM在复杂多轮、多语言场景中的挑战。所有模型在多轮对话中表现显著衰减,表现最佳的o1-preview模型在三轮对话的准确率从87.7%下降到70.7%;在非拉丁文字语言上,所有模型的表现显著弱于英语。 在大语言模型(LLMs)不断发展的背景下,如何评估这些模型在多轮对话和多语言环境下的指令遵循(instruction following)能力,成为一个重要的研究方向。 现有评估基准多集中于单轮对话和单语言任务,难以揭示复杂场景中的模型表现。 最近,Meta GenAI团队发布了一个全新基准Multi-IF,专门用于评估LLM在多轮对话和多语言指令遵循(instruction following)中的表现,包含了4501个三轮对话的多语言指令任务,覆盖英语、中文、法语、俄语等八种语言,以全面测试模型在多轮、跨语言场景下的指令执行能力。 论文链接:https://arxiv.org/abs/2410.15553 Multi-IF下载链接:https://huggingface.co/datasets/facebook/Multi-IF 实验结果表明,多数LLM在多轮对话中表现出显著的性能衰减。 例如,表现最佳的o1-preview模型在第一轮指令的平均准确率为87.7%,但到第三轮下降至70.7% 此外,非拉丁文字语言(如印地语、俄语和中文)的错误率明显更高,反映出模型在多语言任务中的局限性。这些发现展示了当前LLM在处理复杂多轮和多语言指令任务上的挑战和改进空间。 Multi-IF的发布为研究人员提供了更具挑战性的评估基准,有望推动LLM在全球化、多语言应用中的发展。 数据集构建 Multi-IF数据集的构建过程经过了多轮精细的设计和筛选,既有模型也有人类专家的参与。…
新智元报道 编辑:Aeneas 【新智元导读】Scaling Law撞墙了吗?OpenAI高级研究副总裁Mark Chen正式驳斥了这一观点。他表示,OpenAI已经有o系列和GPT系列两个模型,来让模型继续保持Scaling。 最近,OpenAI高级研究副总裁Mark Chen在炉边谈话中,正式否认「Scaling Law撞墙论」。他表示,并没有看到Scaling Law撞墙,甚至OpenAI还有两个范例——o系列和GPT系列,来保持这种Scaling。用他的话说,「我们准确地掌握了需要解决的技术挑战」。 o1不仅是能力提升,也是安全改进 从经济角度看,OpenAI已经是最有价值的科技公司之一,因为他们为真实用户提供了数十亿美元的价值。两年前,AI最前沿的任务还是小学数学题;而今天,它们已经可以做最难的博士生题目。因此,我们正处于这样一个阶段:AI模型能够解决人类有史以来最困难的考试。一旦这些模型解决了博士级别的问题,下一步,即使为世界提供实用性和价值。当所有基准测试饱和之后,需要考虑的就是是否为最终用户提供了价值。虽然今天AI通过了基准测试,但它并没有完全捕捉到AGI应该做的事。好在,在过去一年里,OpenAI内部发生了最令人兴奋的进展——o1诞生了。这不仅是一种能力上的提升,从根本上来说也是一种安全改进。为什么这么说?想象我们试图对一个模型进行越狱,旧的GPT系统必须立即做出回应,所以可能更容易被触发。但当我们有一个推理器时,模型却会反思:这个问题是不是试图让我做一些与我要做的不一致的事?此时,它获得的额外思考和反思的时间,会让它在很多安全问题上更稳健。这也符合OpenAI研究者最初的预期。当我们谈到推理时,这是一个广泛的概念,不仅仅用于数学或编程。在编程中使用的推理方法,可能也适用于谈判,或者玩一个很难的游戏。而说到基准测试,在安全性上也有同样的挑战。安全性有点类似于这种对抗性攻击框架。在这种情况下,攻击是非常强烈的,因此我们在这方面还有很长的路要走。 如何到达五级AGI AGI从一级到五级,关键推动因素是什么呢?OpenAI提出的框架中,定义了AGI的不同级别,具体来说,就是从基本推理者发展到更智能的系统,再到能在现实世界里采取行动的模型,最终到达更自主、完全自主的系统。在这个过程中,稳健性和推理能力是关键。今天我们还不能依赖很多智能体系统,原因是它们还不够可靠。这就是OpenAI押注推理能力的原因。OpenAI之所以大量投资,就是对此极有信心:推理能力将推动可靠性和稳健性。所以,我们目前正处于哪一阶段呢?OpenAI研究者认为,目前我们正从第一阶段向第二阶段过渡,朝着更智能系统的方向发展。虽然目前,许多智能体系统仍然需要人类监督,但它们已经变得越来越自主。模型可以自行原作,我们对于AI系统的信任也在逐渐增加。 合成数据的力量 合成数据,就是不由人类直接产生的数据,而是模型生成的数据。有没有什么好的方法,来生成用于训练模型的合成数据呢?我们在数据稀缺或数据质量较低的数据集中,可以看到合成数据的力量。比如,在训练像DALL-E这样的模型时,就利用了合成数据。训练图像生成模型的一个核心问题是,当我们去看互联网上带标题的图片时,标题和它所描述的图片之间通常关联性很低。你可能会看到一张热气球的照片,而标题并不是描述气球本身,而是「我度过最好的假期」之类的。在OpenAI研究者看来,在这种情况下,就可以真正利用合成数据,训练一个能为图片生成高保真标题的模型。然后,就可以为整个数据集重新生成捕获了,OpenAI已经证明,这种方法非常有效。数据集中某方面较差的其他领域,也可以采用这个办法。 Scaling Law没有撞墙 最近很火热的一个观点是,Scaling…
新智元报道 编辑:alan 【新智元导读】近日,人形机器人公司1X公布了世界模型挑战赛的二阶段:Sampling。一同登场的还有合作伙伴英伟达新发布的Cosmos视频分词器,超高质量和压缩率助力构建虚拟世界。 AI时代的机器人怎么训练? 去年3月,挪威人形机器人公司1X拿到了OpenAI领投的2350万美元,今年初又完成了1亿美元的B轮融资。 作为OpenAI投资的第一家硬件公司,1X给出的答案是:世界模型(World Model)。 在这个时代,世界模型将成为解决通用仿真和评估问题,实现安全、可靠、智能机器人的有效途径。 英伟达也表示,视频AI模型有望彻底改变机器人、汽车和零售等行业。 今年9月,1X介绍了自己的世界模型、新的高分辨率机器人数据集,并开启了一个三阶段的世界模型挑战赛。 10000美元挑战赛 第一个挑战是Compression,关于在极其多样化的机器人数据集上如何最大限度地减少训练损失。损失越低,模型就越能理解训练数据。 本阶段奖金10000美元,胜者为在给定的测试集实现损失8.0的第一个提交者。 截至小编码字的时刻,挑战依然有效。 第二个挑战Sampling于近日公布,侧重于通过给定前一帧序列来预测下一帧,从而产生连贯且合理的视频延续,准确反映场景的动态。 1X鼓励参赛者探索传统next-logit预测之外的各种未来预测方法。比如Generative Adversarial Networks(GAN)、Diffusion…