Vertex AI 上的其他图像模型 | AI生成和翻译
虽然Imagen是谷歌在Vertex AI上的旗舰级图像生成模型系列,但如果您需要不同功能或开源替代方案,仍有其他选择。
以下是您可以在Vertex AI上使用的其他图像相关模型概览:
Gemini模型(适用于多模态场景)
Gemini系列模型具备多模态能力,能够处理和理解文本、图像、视频及音频等多种数据类型。虽然它们主要以文本输出著称,但部分Gemini模型具备专门的图像处理功能,例如:
- 根据文本提示生成图像
- 通过对话指令编辑图像
- 执行视觉问答:可针对图像提问并获得文本答案
- 为指定图像生成描述(图像字幕生成)
如果您正在构建需要以对话或集成方式同时处理文本和图像的应用程序(而非仅通过简单提示生成图像),这将是非常理想的选择。
Model Garden中的开源模型
Vertex AI的Model Garden是一个集中式平台,您可以在此探索、测试、定制和部署各类模型,既包含谷歌专有模型,也涵盖精选的开源模型。在这里您可以找到Imagen的替代方案,例如:
- Llama 3-Vision:专注于视觉识别、图像推理和字幕生成的多模态模型系列
- Flux:基于修正流变换器架构的文本到图像生成模型,可生成高质量图像
- Instant ID:支持身份保持的文本到图像生成模型,适用于在保持关键身份特征的前提下生成特定人物或主体的新图像
这些开源模型通常具有不同的许可条款、性能特征和定制选项,能为特定使用场景提供更大灵活性。
其他视觉相关模型
除图像生成外,Vertex AI还提供多种预训练视觉任务模型,这些模型可能对您有所帮助:
- 多模态嵌入:生成图像的向量表示,可用于图像搜索(查找相似图像)、分类或聚类等任务
- Vertex AI AutoML Image:无需编写代码即可训练自定义的图像分类、目标检测和图像分割机器学习模型
- 视频模型:虽然不属于图像模型,但支持通过文本或图像提示生成高质量视频,是超越静态图像的强大媒体创作工具