如何将传统网站成功转化为微信小程序以增加销售?
摘要:网站建设怎么销售,网站转化微信小程序,印章在线制作软件,如何做内网站的宣传栏基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。 文本生成图像&a
网站建设怎么销售,网站转化微信小程序,印章在线制作软件,如何做内网站的宣传栏基于近年来图像处理和语言理解方面的技术突破#xff0c;融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。
文本生成图像#xff08;text-to-image#xff09;是图像和文本处理的多模态任务的一项子任务#xff0c;其根据给定文本生成符合描述的真实图像…基于近年来图像处理和语言理解方面的技术突破融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。
文本生成图像text-to-image是图像和文本处理的多模态任务的一项子任务其根据给定文本生成符合描述的真实图像具有巨大的应用潜力如视觉推理、图像编辑、视频游戏、动画制作和计算机辅助设计。
目前各种各样的模型已经开发用于文本到图像的生成模型主要可以分为三大类扩散模型Diffusion Model、自回归模型Autoregressive Model、生成对抗网络模型Generative Adversarial Networks下面梳理一些近几年重要的模型并对比这三种方法的优劣
一、基本原理
1.1、扩散模型Diffusion Model
扩散模型是一类生成模型其通过迭代去噪过程将高斯噪声转换为已知数据分布的样本生成的图片具有较好的多样性和写实性。 扩散过程逐步向原始图像添加高斯噪声是一个固定的马尔科夫链过程最后图像也被渐进变换为一个高斯噪声。而逆向过程则通过去噪一步步恢复原始图像从而实现图像的生成。
随机输入一张高斯噪声显然不能按照人的意愿生成我们想要的内容我们需要将一些具体的指导融入扩散模型中去如Classifier Guidance、Semantic Diffusion Guidance、Classifier-Free Guidance。 扩散模型在实现文本生成图像上大概有以下策略
使用外部模型分类器 or 广义的判别器的输出作为引导条件来指导扩散模型的去噪过程从而得到我们想要的输出直接把我们想要的引导条件 condition 也作为模型输入的一部分从而让扩散模型见到这个条件后就可以直接生成我们想要的内容。
这两种想法可以将普通扩散模型改进为引导扩散模型Guided Diffusion并对生成的图像进行一定程度上的细粒度控制。
1.2、自回归模型Autoregressive Model
自回归模型模型利用其强大的注意力机制已成为序列相关建模的范例受GPT模型在自然语言建模中的成功启发图像GPTiGPT通过将展平图像序列视为离散标记采用Transformer进行自回归图像生成。生成图像的合理性表明Transformer模型能够模拟像素和高级属性纹理、语义和比例之间的空间关系。Transformer整体主要分为Encoder和Decoder两大部分利用多头自注意力机制进行编码和解码。 自回归模型在实现文本生成图像上大概有以下策略
和VQ-VAE矢量量化变分自动编码器进行结合首先将文本部分转换成token利用的是已经比较成熟的SentencePiece模型然后将图像部分通过一个离散化的AE(Auto-Encoder)转换为token将文本token和图像token拼接到一起之后输入到GPT模型中学习生成图像。和CLIP结合。首先对于一幅没有文本标签的图像使用 CLIP 的图像编码器在语言-视觉language-vision联合嵌入空间中提取图像的 embedding。接着将图像转换为 VQGAN 码本空间codebook space中的一系列离散标记token。最后再训练一个自回归 Transformer用它来将图像标记从 Transformer 的语言-视觉统一表示中映射出对应图像。经过这样的训练后面对一串文本描述Transformer 就可以根据从 CLIP 的文本编码器中提取的文本嵌入text embedding生成对应的图像标记image tokens了。
1.3、生成对抗网络模型Generative Adversarial Networks
生成对抗网络包含一个生成模型和一个判别模型。其中生成模型负责捕捉样本数据的分布而判别模型一般情况下是一个二分类器判别输入是真实数据还是生成的样本。整个训练过程都是两者不断地进行相互博弈和优化。生成器不断得生成图像的分布不断接近真实图像分布来达到欺骗判别器的目的提高判别器的判别能力。判别器对真实图像和生成图像进行判别来提高生成器的生成能力。
生成对抗网络实现文本生成图像主要分为三大部分文本编码器、生成器和鉴别器。文本编码器由RNN或者Bi-LSTM组成生成器可以做成堆叠结构或者单阶段生成结构主要用于在满足文本信息语义的基础上生成图像鉴别器用于鉴别生成器生成的图像是否为真和是否符合文本语义。
