加码大模子开源：腾讯掏出真金白银换来的教养

发布日期：2024-11-07 19:52 点击次数：91

（原标题：加码大模子开源：腾讯掏出真金白银换来的教养）

21世纪经济报谈记者白杨北京报谈

近日，HuggingFace、Github等开源社区又迎来大模子新品上架。

11月5日，腾讯秘书开源“Hunyuan-Large”以及“ Hunyuan3D-1.0”两个大模子。前者是诳言语模子，总参数目为389B，这亦然咫尺开源范围参数限制最大的MoE模子；后者则是业界首个同期维持笔墨、图像生成3D的开源大模子。

本年，业界对于大模子要不要开源曾出现过认识不对。百度创举东谈主李彦宏明确暗示，大模子开源莫得闭源好，开源大模子会越来越过期。

但也有一众行业东谈主士维持开源，以为许多技巧的发展齐收获于开源，这成心于悉数行业发展。而腾讯，是开源执意的拥护者。

咫尺，腾讯如故把开源看成混元大模子的一个计谋采选，畴昔也将捏续推出更多模态、更多尺寸的开源模子。

腾讯机器学习平台总监、腾讯混元诳言语模子算法肃穆东谈主康战辉向21世纪经济报谈记者暗示，腾讯的大模子不会为了开源而开源，而是要把那些如故在业务场景中得到纯属和打磨的东西拿出来，是以腾讯开源的大模子齐是公司里面在用的模子。

据其流露，腾讯这次开源的是模子参数权重，不触及数据和代码，下一步，腾讯筹商把考验代码也进行开源。

架构采选

在这次开源的模子上线后，HuggingFace首席科学家Thomas Wolf也对Hunyuan-Large进行了评价，以为该模子有三个亮点：

一是数学发扬坚强；二是使用了无数合成数据（在7万亿tokens中，有1.5万亿来自合成数据）；三是长远的大师混杂（MoE）考验，包括使用分享大师以及纪念了MoE的Scaling Law等。

本年年头，腾讯混元完成了架构升级，从原先的Dense架构升级为MoE架构，并将模子彭胀至万亿级参数限制。

MoE架构的中枢逻辑是将输入数据分拨给最顺应处理该数据的大师。是以，这种架构允许模子通过增多大师的数目来彭胀，从而提供模子处理特定任务的才能。

更遑急的是，MoE架构在处理输入数据时，只须激活少数大师模子，其他大部分大师模子齐会原地待命，静待我方擅长的范围到来。

是以，MoE是一种更高效的模子，它在领有很大参数的同期，只需要很小的本体激活量就不错完成任务，进而显赫缩小考验和推理资本。比如Hunyuan-Large，总参数目是389B，但它的激活参数目是52B。

康战辉暗示，在雷同资本下，MoE的恶果会优于dnese模子。但他也暗示，这并不虞味着统统排除了Dense架构，“在一些相比小的场景，不需要太大的模子参数时，dense模子照旧具有一定竞争力的。”

不外，MoE架构也带来了更多的挑战。在Dense架构中，模子变量很少，而MoE架构要磋议大师激活量，比如大师选多大、选几个以及何如激活，这些就触及十分多的参数变量。

以前一年半，腾讯参加无数资本，全面探索了MoE架构下诳言语模子中大师个数、激活参数目和考验tokens之间的ScalingLaw联系。腾讯这次开源最大的价值，便是把这些必须参加无数资本才能喂出来的教养齐灵通了出来。

合成数据是趋势

除了纪念MoE架构的ScalingLaw除外，腾讯在这次开源模子中还夺目强调了合成数据。

康战辉告诉记者，合成数据如故成为大模子的一个共鸣。“以前的AI考验照旧以当然数据为主，但跟着模子越来越大，尤其是袭取MoE架构后，它的参数不错作念的十分大，当然数据如故跟不上模子的增长需求了。”

业界有种说法是，到2026年，当然数据将被大模子一升引完。而措置数据缺少问题的遑急智力，便是使用合成数据。

有揣摸数据高傲，到2030年，东谈主工智能使用的合成数据将朝上圈套然数据，这将大大缓解数据短缺的问题。

康战辉暗示，除了从总量角度需要合成数据，在一些特定的考验场景，使用合成数据亦然势必趋势。“比如数学数据，若是惟一问题和谜底，莫得解题进程，这种数据就无法用于考验，是以需要通过合成的模式赢得解题进程。”

因此，对于大模子考验而言，有些数据是自然缺失的，若是思提高，就只可愚弄合成数据。康战辉称，腾讯咫尺对合成数据的应用，就主要侧重于对专项数据的补充。

对于合成数据，业界也有担忧，以为无数使用合成数据考验大模子，可能会导致模子崩溃。对此，康战辉以为，咫尺咱们以为的当然数据，许多亦然以前用其他器用合成的数据，是以使用合成数据笃定没问题，重要是看何如用。

“我以为合成数据最遑急的，是要有一套齐全的数据获取、评估、清洗链路，进而保证合成数据的质料可控，这么合成数据就能施展它的价值。”康战辉说。