我们成为热门搜索! Meituan的伟大模特由于“快速”而受欢迎

我们成为热门搜索! Meituan的伟大模特由于“快速”而受欢迎

机器心脏中心的原始编辑:Zhang Qian,Chen Chen Nimentic和外国开发人员:亲自尝试Meituan的新开源模型非常快!当AI与水和电力一样流行时,它不再是模型强大的唯一问题。从十四行诗Claude 3.7到2.5 Flash Gemini,所有车型制造商都在考虑最近的GPT-5和DeepSeek v3.1。换句话说,这是一种不丢失芯片或时间的方法。这种建立最强大的模型以建立更实用和更快的模型的过渡对于在模型中构建应用程序的公司和开发人员来说是个好消息。更令人兴奋的是,有一些与之相关的开源模型。几天前,我们发现了新的Huggingface模型Longcat-Flash-Chaat。该模型来自Meituanand的Longcat-Flash系列,可以直接从官方网站(https://longcat.ai)中使用。自然,我们分配动态重要令牌的预算,因为我们知道“并非所有令牌都是平等的”。这使您可以与当前只有几个参数处于活动状态的当前打开开源模型一起运行。在开源后,Long Cat Flash已成为热门搜索。同时,该模型的速度也给所有人留下了深刻的印象:图形卡H800的推理速率超过每秒100个令牌。国家和外国开发商的真实测试证实了这一点:有些人以95芯片/s的速度跑了,而有些人在最短的时间内获得了与克劳德相当的回应。资料来源:Zhihu Netizen @small Oko。资料来源:X Netizen @slavamorozov。 Meituan开源模型还发布了一份技术报告Onlongcat-Flash。在那里,您会找到许多技术细节。技术报告:Longcat-Flash技术报告链接报告:https://github.com/meituan-longcat/longcat-flash-cat/blob/main/main/main/main/main/tech_report.pdfhuggingface:https://huggingface.co/meituan-co/meituan-longongcithub:artICLE,详细。如何将计算机食品保存在更大的型号中?参见Longcat-F睫毛,Longcat-Flash建筑创新方法和建筑培训是一种混合专家模型,总参数为5600亿。根据上下文需求,可以激活186亿个参数(平均为270亿)的参数。用于训练模型的数据超过了20亿个令牌,但是训练时间不到30天。此外,在此期间,该系统达到的每小时可用性率为98.48%,几乎不需要手动干预即可解决故障。这意味着整个培训过程基本上是通过“无人干预”自动完成的。更令人印象深刻的是,以这种方式训练的模型如何在实际发展中同样效果。如下图所示,作为一种非思想模型,Longcat-Flash提供了与SOTA的非思想模型相当的性能,包括DeepSeek-V3.1和KIMI-K2,参数较少,推断速度更快。这通常使其非常有竞争力和实用性,从而可以编程和使用代理工具。此外,成本令人印象深刻,只有每百万美元0.7美元。与市场上相同规模的模型相比,这个价格非常有利可图。从技术上讲,Longcat-Flash针对语言模型的两个主要目标:整合了代理的计算效率和能力,将建筑创新和培训方法集成到几种ETAPA中,以执行可扩展且智能的模型系统。关于该模型的架构,Longcat-Flash采用了新的MoE体系结构(图2),具有两个突出的方面。 MOE直接访问连接(SCMOE)。零计算专家零计算专家的核心思想是,并非所有令牌都是“相等的”。这种方法使您可以理解几个单词,例如“个人名称”,需要许多计算才能准确预测,例如“和“”是的。通过零计算机专家,每个令牌都会激活几个专家(馈电网络),从而根据上下文的重要性分配了更合理的计算复杂性。另一个计算l未引入L多载。闪存长CAT的MOE模块可以正式化如下:其中X_T表示入口序列中的令牌t-th,R表示软磁路由器,B_I表示与该II和K的专家相对应的补偿项,代表每个标记中选择的专家的数量。路由器将每个令牌分配给K专家,而FFN OFIT的激活专家的数量则依赖于令牌的上下文重要性。通过这种自适应分配的机制,该模型可以学会将更多的计算机资源分配给令牌最重要的计算机资源的代币,以在图3A所示的相同计算量条件下实现更好的性能。此外,在处理门票时,该模型基于不同令牌的重要性,并且您必须学会决定是否使用Ting Resources。如果未控制选定的零计算机专家的频率,则该模型倾向于忽略零C的作用。选定计算的Omputer专家和专家。这提供了效率低下的计算机资源。为了解决这个问题,Meituan改善了该策略的专家偏见机制而不会丢失AUX。我们介绍了专家的特定偏见条款,这些条款允许根据最新的专家使用,同时与语言模型的培训目标隔离,可以动态调整路由分数。更新规则使用控制理论的PID控制器来调整实际时间专家偏见。因此,在处理每个令牌时,该模型必须获得最佳的资源分配,其中大量参数从186亿至313亿至313亿(平均激活能力在约270亿亿)。快速连接Moelongcat-Flash另一个突出显示的是快速连接MOE机构。通常,大规模MOE模型的效率在很大程度上受到通信超负荷的限制。在传统的执行范式中,专家拼图Elism引入了连续的工作流程,在该工作流程必须在计算开始之前通过全球通信操作指定的专家将令牌路由。首先,该沟通的顺序(然后计算出来)带来了额外的延迟,尤其是在大规模分布式培训中。沟通延迟急剧增加,导致性能瓶颈。以前,一些研究人员试图使用共享的专家体系结构来减轻问题,以重叠单个专家的计算和通信,但是他们的效率受到单个专家的小型计算机窗口的限制。当引入SCMOE架构时,Meituan超出了这种限制,该体系结构引入了层之间的网状层的快速连接。这一重要的创新允许计算先前的ffn层层与当前的MOE/通信聚合层的分布操作以及Larg的计算计算进行计算。与专家体系结构相比,E -Scale通信共享了一个Peute叠加窗口。在多个实验中已经验证了设计Arqytectonic。首先,SCMOE设计不会降低模型的质量。如图4所示,SCMOE架构几乎与基线完全一致,而没有训练损耗曲线的SCMOE性能,这表明该订单方法对实施时对模型的性能无害。该结论一直在多种配置中经常测试。更重要的是,这些结果表明,SCMOE的稳定性和性能优势与特定的注意机制选择(即,可以独立于使用的注意机制保持稳定性和优势)。其次,SCMOE体系结构在系统级别上提供了许多效率提高,以进行培训和推理。它变得特别出色。从大规模训练的角度来看:机智h一个扩展重叠的salena,大坝块的计算与MOE层的总分布和通信阶段完全平行。当涉及高效推断时,SCMOE承认独特的批次重叠管。与诸如DeepSeek-V3之类的主要模型相比,这将理论输出令牌时间(TPOT)降低了近50%。更重要的是,它允许同时执行不同的通信模式。张紧器(通过NVLink)在密集的FFN中的平行通信与节点之间的专家并行通信(通过RDMA)完全重叠,从而最大程度地利用了网络的一般使用。总而言之,SCMOE在不牺牲模型质量的情况下提供了大量的性能改进。模型扩展策略和在多个阶段的培训也提出了有效的模型扩展策略。随着量表的增加,这将改善模型的性能。第一个是超参数迁移离子。在训练Hyperscala模型时,直接尝试不同的超参数配置非常昂贵且不稳定。因此,Meituan首先在一个小型模型中进行了实验,以找到高参数的最佳组合。然后,要使用这些参数,我们的尺寸很大。这样可以节省成本并保证结果。迁移规则如表1所示。该模型将继续增长初始化。 Meituan从先前训练有素的半尺度模型开始,具有数万个令牌,并在训练后具有控制点。据此,我们全面扩展模型并继续培训。根据这种方法,该模型显示了典型的损失曲线。损失首先暂时增加,然后它们迅速汇聚,最终在随机初始化的基线之上均高于“显着”。图5b显示了6B激活参数实验的代表性结果,反映了模型生长初始化的优势。第三点是E稳定性套件多个级别。 Meituan通过三个方面提高了猫的长闪存训练的稳定性:路由器的稳定性,激活稳定性和优化器的稳定性。第四点是确定性计算。该方法确保实验结果是完全可重现的,并允许在训练过程中检测无声数据损坏(SDC)。通过这些措施,长CAT闪存训练过程始终非常稳定,而没有无法恢复的损失峰。根据训练稳定性的维护,Meituan还仔细设计了训练管。这使Longcat-Flash可以操作高级代理。该过程涵盖了大规模培训,针对推理和代码功能的中期培训以及专注于对话和工具的培训后的培训。在早期阶段,建立了一个基本模型,该模型更适合在代理后训练。因此,Meituan设计了数据融合策略在两个阶段状态之前,并集中在密集的推理数据中。在培训期间,Meituan进一步提高了模型的推论和代码功能。同时,环境的持续时间增加到128K,以满足代理商后的培训需求。最后,迈图安(Meituan)经过多次培训。鉴于代理领域的高质量和困难训练数据的罕见性,Meituan设计了多代理合成框架。该框架定义了三个维度任务的难度:信息处理,工具的复杂性,用户交互和专用控制器来生成需要迭代推理和环境交互的复杂任务。在执行需要呼叫工具并与环境互动的复杂任务时,此设计非常出色。 Longcat-Flash如何?如上所述,Longcat-Flash可以在H800图形卡上推断出每秒100个令牌或更多令牌,该卡的价格为每百万美元0.7美元。何W完成了吗?首先,存在与模型架构合作设计的平行推理体系结构。其次,他们还添加了优化方法,例如量化和个性化核。假设“无问题的工作”模型。建立有效的推理系统需要解决两个重要问题:一个是计算和通信的协调,另一个是读取,编写和存储KV缓存。为了应对第一个挑战,现有方法经常将并行性与三种传统粒度相关:操作员重复,专家级别的复制和等级重复。 Longcat-Flash SCMOE体系结构提出了第四维:模块级别的叠加。为此,团队设计了一种SBO编程策略(单个批次克服)来优化延迟和性能。 SBO是执行四个阶段管的方法模块级别,如图9所示。SBO和TBO之间的区别在于,它将通信超载隐藏在一个批次中。在第一阶段进行MLA计算,并为以后的阶段提供进入。第二阶段与密集的FFN和ATTN 0(QKV投影)重叠了所有SPACHO的通信。第三阶段独立执行MUE GEMM,从延迟中受益,以各种EP实施策略。第四阶段是ATTN 1(中心注意力和出口投影),所有组合都会导致密集的FFN重叠。这种设计有效地减少了通信超负荷,并保证了长长的猫的有效推断。对于阅读,写作和存储KV缓存的第二个挑战,Longcat-Flash通过其注意力和MTP体系结构中的建筑创新机制解决了这些问题,从而减少了I/O I/O I/O I/O I/O I/O I/O有效的超载。首先是猜测解码速度。 Longcat-Flash使用MTP作为MO模型的DEL通过系统分析加速估计的解码方程来优化三个关键因素。优化预期接受的持续时间,它将目标模型草案的成本与目标验证和解码的成本比率相关联。合并单个MTP标头并在训练前将其引入时,我们的接受率约为90%。为了平衡草稿的质量和速度,我们使用轻型MTP体系结构来减少参数,同时使用C2T方法通过分类模型来过滤令牌。第二个是通过64个MLA头机构实现的KV缓存优化。 MLA在保持性能和效率之间保持平衡,可显着减少计算负载,实现出色的KV高速缓存压缩并降低存储压力和带宽。这对于调整长猫的管道很重要。这是因为模型总是有仔细的计算不能与通信相覆盖。在系统级别的优化:为了最大程度地减少硬件“设备协作”和一般费用编程,Longcat-Flash Research团队解决了由于LLM推理系统的核心重载而引起的射击问题。对核的独立编程和正向通行的草稿的验证,尤其是在投机解码引入后,验证了大量的一般费用。通过TVD Fusion策略,这些目标在单个CUDA图中融合,验证并合并了草稿。为了进一步改善GPU的使用,已经实施了多个步骤的重叠和重叠的程序员,以在单个编程迭代中启动多个核心,有效地隐藏了CPU的编程和同步超载。推论的自我束缚造成的独特效率挑战个性化CLM核心优化的E。填充之前的阶段是集中计算的,但是解码阶段通常与记忆相关,由于交通模式,由于交通模式,小且不规则的地块大小。对于Moe Gemm,我们使用Swapab技术将重量视为左手矩阵并将其作为右手矩阵激活,并使用8个N维元素的农民灵活性来最大程度地利用Tensorcore。通信核利用了加速的NVLINK尖锐的硬件传输和切换中的减少,以最大程度地减少数据移动和SM职业,并仅在四个子过程块的96 MB时使用4KB。继续超过NCCL和MSCCL ++的范围。从量化的角度来看,Longcat-Flash采用了与DeepSeek-V3相同的血块量化固定砂奶酪。为了实现绩效状况的最佳补偿,我们基于TW实施了层次混合精度量化o计划。第一个方案识别特定线性层的进入激活(尤其是降幅度),其极高幅度为10^6。在第二个方案中,FP8量化误差层的层是在每个层的块级别上计算的,在特定专家层中找到重要的量化错误。通过取下两种溶液的交集,可以显着提高精度。实用数据:您可以运行多快?它有多便宜?经过验证的性能表明,长CAT Flash在各种配置中都可以很好地工作。与DeepSeek-V3相比,Longcat-Flash具有相似的上下文长度的更高发电和更快的生成速度。代理的合并包括推理内容的差异需求(用户可以看到,必须与大约20个令牌/s的人类阅读速度相吻合)和动作命令(用户不能改变,但是,闪存的能量生成速度为将近100个令牌/s,并对单轮控制进行了分类。在GPU H800的每小时2美元的成本下,这意味着这意味着每百万个生产代币的价格为0.7美元。 MS为30毫秒DeepSeek-V3和Qwen3-235b-a22b。长猫为每百万美元0.09美元,远低于DeepSeek-V3的0.17美元。但是,这些价值仅仅是理论上的局限性。我还在Longcat-Flash免费体验页面上尝试了它。首先,让我们在这个伟大的模型中写大约1000个关于秋天的字。我提出了一个请求,只需单击录制屏幕,Longcat-Flash编写了答案,但是录制屏幕还不算太晚。如果仔细观察,您会发现第一个长猫闪光令牌非常快。当您谈论以前使用过其他对的模型时,您经常知道并在圈子中等待。这证明了用户的耐心,好像他急于阅读微信一样,但电话上的信号表示“呼叫”。 Longcat-Flash正在改变这一经验,基本上是ES在第一个令牌中不会感到任何延迟。令牌生成率也非常快,远远超过了眼睛的速度,然后打开“互联网搜索”并验证长CAT闪存功能是否足够快。我们要求Longcat-Flash推荐Wangjing附近的一家美味餐厅。测试后,长时间思考了长的猫闪光,然后慢慢感到自己可以立即给出答案,尽管它不会说话。在线搜索还可以使人们“快速”的情绪。不仅在提供参考资源的同时,还可以提供快速退出,从而确保信息的可靠性和可追溯性。可以在本地执行有条件下载该模型的读者,以查看长猫闪光灯的速度是否同样令人惊讶。近年来,每当一个伟大的模型进入现实世界时,每次出现一个伟大的模型时,每个人都在乎。参考数据是什么?已更新了多少列表?是sota吗?S只是改变了。当他们的技能相似时,每个人都会更加担心:它会花更多的钱吗?多快?在使用开源模型的公司和开发人员中尤其如此。许多用户对能源需求,推理速度,压缩和量化效果更敏感,因为他们使用开源模型来降低封闭代码API的依赖性和成本。 Meituan Longcat-Flash的开源是遵循这一趋势的杰作。他们专注于如何制作出色的真正负担得起的模型并更快地工作。这是普及技术的关键。这种实用路线的选择与我们对梅图恩的悠久印象相吻合。过去,大多数技术投资已用于解决真正的商业问题。例如,Edplvo在2022年赢得了最佳的ICR导航文档,这是关于解决各种意外情况的无人机在交付过程中真正找到的(例如,过多的建筑物,信号损失)。 ISO Standa避免全球无人机障碍的RD最近参与了全球无人机障碍的发展。这是诸如避免飞行中彗星或清洁玻璃安全条的无人机等案件的技术经验积累。这次,开源Flash Long Cat实际上是“ Nocode”编程工具背后的模型。该工具为公司提供服务,并为外界免费。每个人都可以使用振动的编码来实现成本和提高有效效率。绩效能力到实践取向的这种变化实际上反映了AI行业的自然发展定律。随着Modelo的能力逐渐改变,工程效率和实施成本成为重要的区别。长CAT Flash的开源只是这种趋势的一种情况,但实际上,它为社区提供了参考技术。这是一种减少通过建筑创新和系统OP使用的阈值的方法圆润,同时保持模型的质量。对于预算有限的开发人员和公司来说,这绝对值得,但他们希望使用AI的高级能力。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由合作伙伴网络的NetEase Hao的用户收取和发布,并且仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注