9.4 秒生成 512×512 图像,Bonsai Image 4B 生图 AI 登陆苹果 iPhone 17 Pro Max

艾奇百科 百科资讯 1

5 月 27 日消息,PrismML 昨日(5 月 26 日)发布公告,宣布推出 Bonsai Image 4B 系列图像生成模型,在 iPhone 17 Pro Max 生成 512×512 图像约需 9.4 秒。

该系列模型分为 1-bit Bonsai Image 4B 与 Ternary Bonsai Image 4B 2 个版本,前者更强调极致压缩,后者在保持小体积的同时,进一步提升画面质量与提示词还原度。

该系列模型基于 FLUX.2 Klein 4B 构建,整体架构保持不变,主要调整集中在扩散 Transformer 的权重表示方式:

  • 1-bit 版本采用二值权重,权重集合为 {−1,+1},配合 FP16 分组缩放后,单权重等效位宽为 1.125bit;

  • Ternary 版本采用三值权重,权重集合为 {−1,0,+1},等效位宽为 1.71bit,因此拥有更高的表示灵活性。

在体积方面,1-bit 版本的二值层相对全精度 Transformer 权重缩小至 14 分之一,最终 Transformer 体积压到 0.93GB,较 7.75GB 的全精度 FLUX.2 Klein 4B 缩小至 8.3 分之一。

运行时内存占用也明显下降。生成 512×512 图像时,1-bit 与 Ternary 版本平均活跃内存分别为 1.5GB 与 1.96GB,全精度 FLUX.2 Klein 4B 则高达 11.74GB。

生成 1024×1024 图像时,这 2 个版本分别为 1.95GB 与 2.38GB,而原模型达到 14.39GB。

速度与效果方面,Bonsai Image 4B 在 iPhone 17 Pro Max 生成 512×512 图像约需 9.4 秒,在 Mac M4 Pro 上约 6 秒;在 Mac M4 Pro 平台,最高可比全精度 MFLUX 流水线快 5.6 倍。

质量评测覆盖 GenEval、HPSv3、DPG-Bench 3 项基准,其中 Ternary 版本在 1.21GB 体积下保留 FLUX.2 Klein 4B 约 95%准确性,1-bit 版本在不足 1GB 的前提下保留约 88%准确性。

附上参考地址

  • Introducing 1-bit and Ternary Bonsai Image 4B: Image Generation for Local Devices