提示工程技术(Prompt Engineering Techniques)
北大与字节跳动联合突破:VAR图像生成技术超越DiT,引领AI新潮流
来源: | 作者:DE.News | 发布时间: 2024-04-17 | 1332 次浏览 | 分享到:

关键字:北京大学,字节跳动,VAR,图像生成,Visual Autoregressive Modeling,DiT,自回归模型,VQ-VAE,Transformer,FID,IS,GitHub,AI社区,机器学习,计算机视觉

北京,2024年4月17日 —— 北京大学与字节跳动公司携手取得重大科研突破,共同开发出一种全新的图像生成技术——Visual Autoregressive Modeling(VAR),在图像生成领域实现了对现有技术的重大超越。这项技术不仅在图像生成质量上超越了包括Diffusion Transformer(DiT)在内的传统最先进方法,而且在推理速度上实现了20倍以上的提升,为AI领域带来了新的活力。

VAR技术的核心创新在于,它放弃了传统的自回归方法中预测下一个token的方式,转而预测下一级分辨率,从而更高效地生成图像。VAR的训练过程分为两个阶段:首先是使用VQ-VAE将连续图像编码为一系列不同分辨率的离散token map;其次是通过VAR Transformer训练,预测更高分辨率的图像,以优化模型性能。

在实验数据上,VAR在ImageNet 256×256的测试中,将Fréchet Inception Distance(FID)从18.65降至1.8,同时将Inception Score(IS)从80.4提升至356.4,显著提高了图像生成的质量和多样性。此外,VAR在推理速度上相比传统自回归模型提升了约20倍,而DiT的耗时则是VAR的45倍。

VAR技术的另一个显著特点是其在数据效率和可扩展性上的优势。VAR仅需350个训练周期即可达到优异的性能,远少于DiT-XL/2所需的1400个周期。研究人员还观察到,VAR展现出了类似于大型语言模型的Scaling Laws,即随着模型尺寸和计算资源的增加,模型性能持续提升。

VAR技术的开源代码已经在GitHub上发布,短时间内就获得了1.3k的标星,显示出其在AI社区中的受欢迎程度。VAR的论文和相关讨论也引起了广泛关注,许多专业人士对其给予了高度评价。

VAR技术的开发者团队由字节跳动AI Lab和北京大学王立威团队联合组成。项目的主要贡献者包括北京大学信息科学技术学院的研究生田柯宇,以及字节跳动AI Lab的研究员袁泽寰和王立威教授。项目主管是字节跳动广告生成AI研究主管Yi jiang。

尽管VAR技术在图像生成领域取得了显著进步,但也存在一些挑战,如在分辨率扩展方面的局限性。然而,VAR技术的突破性进展无疑为AI图像生成领域开辟了新的道路,预示着未来在这一领域的更多可能性。


友情链接