新智元报道 编辑:LRS 【新智元导读】Nemotron-H模型混合了Transformer和Mamba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用FP8训练和压缩技术,进一步提高了20%推理速度 过去几年,Transformer虽稳坐AI架构「铁王座」,但其二次方复杂度带来的算力消耗和长序列处理瓶颈,限制了大模型在推理阶段处理长文本。 Mamba凭借「线性复杂度」异军突起,非常适合长序列任务,有望成为Transformer架构的替代品,但在处理全局关系上偏弱。 Mamba+Transformer混合架构可以将二者的优势互补,实现「效率」和「性能」的双丰收。 最近英伟达发布了Nemotron-H系列模型,模型尺寸为8B和56B(蒸馏版本47B),用Mamba-2层替换了Transformer中的自注意力层,关键创新在于对Transformer和Mamba的平衡,实现了高效处理长上下文的同时,还不牺牲模型性能,显著提高了推理速度,并且内存占用更少。 论文链接:https://arxiv.org/pdf/2504.03624 实验结果表明,Nemotron-H模型在准确度上优于同尺寸的开源Transformer模型(例如Qwen-2.5-7B/72B和Llama-3.1-8B/70B),同时在推理速度上提速3倍。 为了进一步提高推理速度并降低推理时所需的内存量,研究人员使用一种剪枝和蒸馏压缩技术MiniPuzzle,将56B尺寸的模型蒸馏为NemotronH-47B-Base,在基准的准确率上与56B模型相当,同时推理速度提升20% 论文中还提出了一种基于FP8的训练方案,使56B模型实现了与BF16训练相当的性能。 Nemotron-H架构 Nemotron-H模型由Mamba-2、自注意力层和前馈神经网络(FFN)层组成,其中总层数的8%为自注意力层,均匀分布在模型中。 即,Nemotron-H-8B模型包含52层,其中4层为注意力层;Nemotron-H-56B模型包含118层,其中10层为注意力层,其余层平均分配为FFN层和Mamba-2层。 为了与标准Transformer模块的结构一致,研究人员提出三条设计准则:模型的第一层必须是Mamba-2层,最后一层必须是FFN层,并且自注意力层总是位于FFN层之前。 模型的具体参数 需要注意的是,8B和56B模型在FFN隐藏维度、注意力查询头和状态维度设置上存在差异;…
新智元报道 编辑:KingHZ 【新智元导读】美国就业市场被颠覆:程序员需求45年最低,而文科生被内外夹击。但最近ACM的博客文章,提出了耳目一新的观点:GenAI是文科和计算机科学复兴的唯一希望。顺GenAI则昌,逆之则亡! GenAI日新月异,引发了大众选择职业和大学专业的焦虑。 但最近,美国的国际计算机协会(Association for Computing Machinery,ACM),发布了一篇博客文章,表示:文科和计算机科学,这两个专业最后可能合流,融合在一起才能存活。 在哲学中,「存在危机」指的是质疑自己人生目的、意义和在世界中位置的状态。 如今,这一概念恰如其分地反映了人文学科与计算机科学的现状—— 在生成式人工智能(GenAI)时代,这两个领域都面临着学科相关性、方法论及存在价值的深刻拷问。 文科和CS:危机已现 根据美国艺术与科学学院数据,美国的文科学士学位授予比例已从2005年的近15%骤降至2022年的8.8%。 报告链接:https://www.amacad.org/humanities-indicators/higher-education/bachelors-degrees-humanities 与此同时,计算机科学(Computer Science,CS)领域也遭遇生存危机:GenAI正在威胁程序员在编程等脑力工作的不可替代性。 这种双重危机反而创造了学科融合的契机:AI在颠覆两个看似截然不同的领域,同时也可能为它们注入新生机。…