社交平台 Soul 开源实时数字人生成模型 SoulX-FlashHead,单卡 4090 可实现 96FPS 流式推理

艾奇百科 百科资讯 2

2 月 13 日消息,社交平台 Soul 官方今天在公众号宣布开源实时数字人生成模型 SoulX-FlashHead,能够在单张消费级显卡上实现“高质量高画质”实时数字人。

SoulX-FlashHead 在 RTX 4090、5090 显卡上的表现如下:

  • Lite 版本(高速率):单卡 4090 推理帧率可达 96 FPS,只需要 6.4G 显存,最高支持 3 路并发。

  • Pro 版本(高画质):单卡 5090 推理帧率 16.8 FPS,双卡可实现 25 FPS+,FID(视觉质量指标)和 Lip-sync(唇形一致指标)在跑分中上达到 SOTA,解决“小模型没好画质”的行业痛点。

据介绍,这款模型的参数量为 1.3B,在训练时使用了双向蒸馏机制(Oracle-Guided Distillation),利用 Ground Truth 作为先知锚点进行强约束,能够让人物特征始终保持稳定,就像给模型装上了校准器一样。

同时,这款模型还在 10000+ 小时训练素材中精炼出 782 小时的高质量音画数据,经过切分、DWpose 关键点、唇形一致分数过滤等多个处理步骤,为模型提供纯净“养料”。

应用方面,这款模型可以用于 7x24h 矩阵直播、游戏 NPC 引擎以及 AI 一对一外教等场景,附上开源地址如下:

  • 论文:https://www.arxiv.org/pdf/2602.07449

  • 项目:https://soul-ailab.github.io/soulx-flashhead/

  • 代码:https://github.com/Soul-AILab/SoulX-FlashHead

  • 模型:https://huggingface.co/Soul-AILab/SoulX-FlashHead-1_3B

  • 数据集:https://huggingface.co/datasets/Soul-AILab/VividHead