EMU3.5突破第三种Scaling范式？AI新范式来了？

咔咔 11-06 4 抢沙发

默认

摘要： 您提出的这个观点非常敏锐,切中了近期人工智能领域，特别是大模型发展中最核心的议题之一，智源研究院发布的 EMU3.5 模型，确实在业界引发了关于“AI的第三种Scaling范式”的...

您提出的这个观点非常敏锐,切中了近期人工智能领域，特别是大模型发展中最核心的议题之一，智源研究院发布的 EMU3.5 模型，确实在业界引发了关于“AI的第三种Scaling范式”的广泛讨论。

这个“第三种范式”的核心思想是：AI的能力提升，不应再仅仅依赖于无休止地扩大模型参数和数据量（算力驱动），而是应该转向更高效、更智能的“数据质量”和“模型架构”创新。

下面我们来详细拆解这个概念,并理解为什么说 EMU3.5 是这一范式的探索者和代表。

回顾：AI 的“前两种 Scaling 范式”

在 EMU3.5 之前，AI 大模型的发展主要遵循两种 Scaling 范式：

规模至上

这是最经典的范式,以 OpenAI 的 GPT 系列为代表，其核心逻辑是：

更大模型： 不断增加模型的参数量（从亿级到千亿、万亿级）。
更多数据： 使用海量的、无标注的文本数据进行训练。
更强算力： 依赖更强大的计算集群来支撑训练。

核心理念： “大力出奇迹”，通过在参数和数据两个维度上进行暴力式扩展，模型的涌现能力会自然产生，这种方法简单粗暴，但确实非常有效，奠定了当前大模型的基础。

局限性：

成本高昂： 训练和部署万亿参数模型的成本是天文数字，形成了极高的技术壁垒。
效率低下： 大量的计算资源可能被用于学习数据中的噪声或冗余信息。
边际效益递减： 当模型规模达到一定程度后，单纯增加规模带来的性能提升会越来越不明显。

指令微调与对齐

这是对“规模至上”范式的优化和补充，以 InstructGPT 和 ChatGPT 为代表，其核心逻辑是：

预训练 + 微调： 先用海量数据做预训练，得到一个基础模型。
高质量指令数据： 使用人工标注的高质量指令-回答数据对模型进行微调。
人类反馈强化学习： 引入人类偏好来对齐模型行为，使其输出更符合人类期望（更安全、更 helpful、更无害）。

核心理念： “让模型学会如何更好地完成任务”，通过精调，模型可以更好地理解用户意图，并以更结构化、更符合人类习惯的方式输出结果，极大地提升了模型的实用性和交互体验。

局限性：

依赖高质量数据： 依赖昂贵且难以规模化的人工标注数据。
“对齐税”： 过度追求对齐可能会抑制模型的某些创造性或探索性能力。
泛化能力瓶颈： 微调主要在特定任务分布上有效，模型的“世界知识”和推理能力天花板依然受限于预训练阶段。

EMU3.5 的探索——从“量变”到“质变”的智能飞跃

智源研究院提出的“第三种 Scaling 范式”，正是在前两种范式的基础上，寻求一种更根本性的突破，其核心可以概括为 “智能的 Scaling” 或 “效率的 Scaling”。

EMU3.5 的核心创新点：

高质量、多样化的多模态数据是基石
- 超越文本： EMU3.5 的训练数据不仅仅是文本，而是包含了图像、视频、音频等多种模态的“图文音”混合数据，这迫使模型学习一个更统一、更接近现实世界表征的“世界模型”。
- 数据质量优先： 智源研究院强调，他们不仅追求数据量，更注重数据的多样性、高质量和无偏性，这就像给模型一个更丰富、更均衡的“营养餐”，而不是单一的“垃圾食品”。
创新的模型架构是引擎
- 统一架构： EMU3.5 采用了一个统一的架构来处理和融合多模态信息，这与一些“拼接式”的多模态模型不同，它让不同模态的数据在模型的深层能够进行更深层次的交互和融合，从而产生“1+1>2”的效果。
- 高效设计： 在追求能力的同时，EMU3.5 的架构设计也考虑了计算效率，它试图在模型能力和部署成本之间找到更好的平衡点，这本身就是对“规模至上”范式的反思。
“涌现”能力的质变
- EMU3.5 展现出了强大的多模态理解和生成能力，它不仅能理解复杂的图文指令，还能生成高质量、细节丰富的图像和视频内容。
- 更关键的是,它表现出了一些超越简单任务调度的“类人”智能，
  - 更强的推理能力： 解决需要多步逻辑推理的问题。
  - 更好的世界模型： 对物理世界、社会常识有更深刻的理解。
  - 创造力： 能够进行艺术创作、构思复杂场景。

这种能力不再是简单的“参数堆砌”或“指令模仿”，而是模型在吸收了高质量、多模态信息后，内部知识结构发生质变后“涌现”出来的。

为什么说这是“第三种范式”？

我们可以用一个表格来清晰地对比这三种范式：

特征	规模至上	指令对齐	智能Scaling (EMU3.5)
核心驱动力	算力、参数量、数据量	高质量指令数据、人类反馈	高质量/多模态数据、创新架构、智能设计
目标	模型基础能力的涌现	提升模型交互的可用性和安全性	实现通用、高效、类人的智能
关键指标	参数量、训练Token数	指令遵循准确率、对齐分数	多模态能力、推理效率、智能水平
比喻	盖楼：用最多的砖块和水泥，盖最高的楼。	精装修：在毛坯房基础上，进行豪华装修，使其宜居。	打造一个“通才”：不只让他会读书（文本），还要会画画（图像）、会作曲（音频），并具备深刻的理解力和创造力。