来你清听的 AI 讲座,科普向。

# 王井东 —— 可控人像视频生成

演讲标题为 Controllable Human Video Generation.

# 研究的方向

  • 唇动 (lip sync)
  • 表情 (expression)
  • 半身动作 (half-body)

今天主要介绍唇动的相关内容。

目前有两种方法,一种是需要人像来进行中间表达的两阶段方法,另一种是 end2end. 目前还是在用 GAN 和 Diffusion 方法。

这里介绍了百度和复旦合作的 paper, 是 Hallo 系列的文章。这是用 diffusion 实现 end2end 的方法,其中 Hallo2 相比于 Hallo 做到了更长、更高分辨率的生成。生成的视频长度可以达到几十分钟级别。Hallo3 则实现了更高动作变化的视频生成。

# QA

视频生成的商业场景?

数字人直播。

感觉视频生成的商业场景还是有待开发的样子。

# 刘知远 —— 大模型的知识密度定律、推论与预测

大模型密度定律:模型知识密度随时间呈指数级增强。2023 年以来大模型知识密度平均每 3.3 个月翻一番。

推论 1:模型推理开销随时间指数级下降。(这个似乎建立在所有神经元都有效的假设上)

但是推理的技术本身也在发展。总之大模型正在逐渐平价化。

推论 2:大模型的知识密度正在加速增强。

推论 3:模型小型化揭示端侧智能的巨大潜力。

推论 4:模型压缩算法无法增强模型知识密度。

比如 LlaMa-3.2-3B/1B 等小模型的知识密度比原始模型还要低。因此现有的模型压缩算法在后训练不充分的情况下,不会得到更有的模型效果。

推论 5:模型高性价比有效使用期正在不断缩短。

因此,目前要做的是大模型的基础理论,实现大模型科学化。这里需要研究三个重点问题:

  1. 模型的架构
  2. 数据治理(模型的知识来源
  3. 如何让模型学习数据,即模型的成长规律(就是课程学习等学习范式的规律研究

# QA

模型训练和推理中,将来的发展重点到底是哪一个?

训练是出现高质量模型的基础。目前的数据仍然不能称得上 “用完了”,仍然可以探索许多高效的利用数据的方法,也可以使用数据合成的方法。