昆仑万维「天工大模子4.0」o1版（Skywork o1）精致启动邀请测试

发布日期：2024-11-27 10:37 点击次数：158

（原标题：昆仑万维「天工大模子4.0」o1版（Skywork o1）精致启动邀请测试）

今天，昆仑万维精致推出具有复杂念念考推理能力的系列模子——「天工大模子4.0」 o1版（Skywork o1）。

Skywork o1是由昆仑万维集团发布的具有慢念念考推理能力的系列模子。这是国内第一款汉文逻辑推理能力的o1模子。不同于现存的复现OpenAI o1模子的服务，Skywork o1不仅在模子输出上内生了念念考、筹备、反念念等能力，同期，该开源模子在模范评测集上，对比平方模子推理能力大幅上涨，确切让模子领有了念念考和反念念带来的推理能力的升迁。团队复现o1的技艺阶梯，使得驱动推理能力较差的基座模子在基准测试集上成为生态位SOTA。

这次发布的Skywork o1包括三款模子，既有回馈开源社区的盛开版块，也有能力更强的专用版块：

Skywork o1 Open：一款基于Llama 3.1 8B的开源模子，该模子在同生态位开源模子中评测想法大幅升迁达到SOTA水平，并解锁了许多轻量级模子无法处分的复杂数学任务。该模子的发布也将匡助加快国内开源社区复现o1的程度。Skywork o1 Lite：该模子具备完满的念念考能力，具有更好的汉文扶直和更快的推理和念念考速率。在数学、汉文逻辑和推理类问题上弘扬凸起。Skywork o1 Preview：这款模子是本次完满版的推理模子，搭配自研的线上推理算法，对比Skywork o1 Lite有着更各类和“深度”的念念考历程，更完善和更高质地的推理。

其中，咱们开源的Skywork o1 Open，在各项数学和代码想法上均有大幅提高，将Llama-3.1-8B的性能拉到同生态位SOTA（超越Qwen-2.5-7B instruct）。同期，8B的Skywork o1 Open也解锁了好多较多量级模子，如GPT 4o，无法完成的数学推理任务（如24点计较）。这也为推理模子在轻量级设立上部署提供了可能性。

同期，咱们也将开源两个推理任务的Process Reward Model（PRM）：Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B，比较此前开源的Skywork-Reward-Model仅对通盘这个词模子恢复进行打分，Skywork o1 Open-PRM能给模子恢复中的每个技艺进行打分。

对比开源社区现存的PRM，Skywork o1 Open-PRM-1.5B能达到开源社区8B的模子服从，举例RLHFlow的Llama3.1-8B-PRM-Deepseek-Data，OpenR的Math-psa-7B，Skywork o1 Open-PRM-7B能同期在大部分benchamrk上接近/高出10倍量级的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM亦然第一款适配代码类任务的开源PRM。底下表格为以Skywork-o1-Open-8B动作基础模子，使用不同PRM在数学和代码评测集上的评估戒指。

除Skywork-o1-Open-PRM外，其他开源PRM均未针对代码类任务进行成心优化，故不进行代码任务的有关对比。

详备技艺施展也将在不久后发布。刻下模子和有关先容在Huggingface开源。

开源地址：https://tinyurl.com/skywork-o1

01.强推理以及自我反念念的能力是如何炼就的？

Skywork o1在逻辑推理任务上性能的大幅升迁收货于天工三阶段自研的老师决议：

推理反念念能力老师：通过自研的多智能体体系构造高质地的分步念念考，反念念和考证数据。通过高质地的、各类性的长念念考数据对基座模子进行赓续预老师和监督微调。

推理能力强化学习：团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model（PRM）。实考证明注解Skywork-PRM可有用的捕捉到复杂推理任务中间技艺和念念考技艺对最终谜底的影响。集会自研分步推理强化算法进一步加强模子推理和念念考能力。

推理planning：基于天工自研的Q*线上推理算法结合模子在线念念考，并寻找最好推理旅途。这亦然公共初次将Q*算法齐备和公开。Q*算法落地也大大升迁了模子线上推理能力。

对于天工 Q*算法，更多细目可见：https://arxiv.org/abs/2406.14283

02.亮点功能与实测

Skywork o1模子具有以下能力和亮点功能：

模子念念考和打算能力

模子自我反念念能力

模子自我考证能力

相较于此前（长文本任务）大模子，不管是学问推理问题、逻辑推理问题、数学推理问题、伦理决策问题、仍是“弱智”（访佛脑筋急转弯）逻辑陷坑问题等，Skywork o1齐处理的鸿篇巨制。全体来说，Skywork o1 Lite和Skywork o1 Preview线上版块在复杂问题分析、念念考反念念历程、输出谜底质地上均有大幅升迁。

领先，咱们拿一齐「2024年宇宙硕士征询生入学和谐历练数学(一)试题」考考它（如下图所示），测试一下它的“才气水平”。

濒临难度不小的最新考研数学题，Skywork o1 Preview尽管浮滥了一些时刻，但仍是一步步推理出了正确戒指。

那么，之前大模子频繁翻车的比大小问题，Skywork o1刻下的恢复水平如何了？

从它的念念考历程不错看出，Skywork o1的模子念念考和打算能力大幅升迁。这个解题逻辑稀薄像东谈主类的念念考法度了，“若是整数部分调换，那么就要入手比较极少部分了”。通过严谨的推理历程，准确得出8.8大于8.11，且多给出了一步差值计较。

此外，模子自我反念念能力和自我考证能力也齐有长足朝上。Skywork o1不错准确识别出“nǐ hǎo hěn gāo xìng rèn shí nǐ”，还不错给出后续对话提倡。

尽管咱们让它恢复存在汉文读音“陷坑”的问题——“请将qíng rén yǎn lǐ chū xī shī调养为汉文”，它也莫得被咱们绕进去。充分展示了汉文逻辑问题念念选取的反念念能力，它主动发现了“西诗”是辩认的说法，而是“西施”。

雷同的，对于之前的大模子来说，“算24点”的游戏很容易把模子搞崩溃了，可是对于Skywork o1来说，可谓是小菜一碟。它不仅给出了正确谜底，重心是它在历程中进行了「自我考证」。它在计较事后，又检查了一遍，说明历程和谜底全部合适命题条目，才给出最终谜底。

除了上述给出的数学推理、比大小、汉文逻辑以及24点计较的任务外，Skywork o1在其他复杂的场景也有较好弘扬：

竞赛数学：Skywork o1拿到2024 AIME第一题（如下图所示），也闲隙布置。计较逻辑明晰、公式展示流通，计较时长也显明具有上风。

密码解密：在复杂密码解密任务中，Skywork o1领有雄伟的自我探索和推理能力。

在已知「原文→密文」的前提下，经过一系列复杂推理后得手给出谜底（如下图所示）。

若是反过来呢？已知一段「密文→原文」，能否找出新密文所对应的原文。Skywork o1示意小菜一碟。

才气问答：在复杂的汉文推理问题上，Skywork o1弘扬优异，并给出了完满的念念考链路。

终末，再让咱们再给他出一些道理的“弱智”问题，来望望它的恢复是不是合理。

为什么我爸妈成亲的时候没邀请我参预婚典?

被门夹过的核桃，还能补脑吗？

午餐肉，我不错晚上吃吗?

令东谈主惊喜的是，Skywork o1不但莫得被问题绕进去，还分析的头头是谈，以致显败露“大奢睿”，延迟出了一些更底层的念念考。

进阶版的复杂东谈主类念念考能力的解锁也将进一步在垂类范围增雄伟模子的垄断，举例：

中英文常见逻辑推理和复杂任务，如数学/代码类任务，科学征询

高质地试验生成，如创意写稿，行业施展写稿

深度搜索，解锁复杂搜索任务的拆解

2024年以来，昆仑万维天工AI合手续进化，持续发布了「天工2.0」、「天工3.0」、「天工大模子4.0」4o版——Skywork 4o，以及今天精致发布的「天工大模子4.0」 o1版（Skywork o1），不仅是咱们贯彻“All in AGI 与 AIGC” 计策的紧迫举措，更是咱们构建AI技艺栈的紧迫一步。咱们将秉合手“齐备通用东谈主工智能，让每个东谈主更好地塑造和抒发自我”的责任，从模子层、垄断层等全标的、多维度来构建公司技艺竞争力和生态矩阵。

测试地址

「天工大模子4.0」 o1版（Skywork o1）开启测试

尝鲜地址：www.tiangong.cn

点击下方阅读原文，可奏凯进中计址

fund

上一篇：最低不收钱，欢喜产物又掀“降费”潮，要买吗？
下一篇：协力泰等被强制实行2.8亿

让建站和SEO变得简单

昆仑万维「天工大模子4.0」o1版（Skywork o1）精致启动邀请测试

热点资讯

相关资讯