这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法,或者说一些猜测。最近Google的Gemini 1.5和OpenAI的Sora再次点燃了不少人对多模态的热情,只言片语的技术报告也引起...| kexue.fm
盘点主流的图像扩散模型作品,我们会发现一个特点:当前多数做高分辨率图像生成(下面简称“大图生成”)的工作,都是先通过Encoder变换到Latent空间进行的(即LDM,Latent Diffu...| kexue.fm