模型筛选
全部模型

文本生成

文本生成

图片生成

图片生成

语音生成

语音合成

视频生成

视频生成
ERNIE-X1.1-Preview

模型简介

文心大模型X1.1在问答、工具调用、智能体、指令遵循、逻辑推理、数学、代码任务的效果显著提升,事实性显著提升;上下文长度扩展到64K tokens,支持更长的输入与对话历史,在保持响应速度的同时,提高了长链路推理的连贯性。

DeepSeek-R1

模型简介

由杭州深度求索人工智能基础技术研究有限公司自研,在数学、代码、自然语言推理等任务上性能表现优异。

DeepSeek-V3.2

模型简介

DeepSeek-V3.2-Exp 模型,这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。

Kimi-K2

模型简介

月之暗面提供的国内首个开源万亿参数MoE模型,具有 320 亿个激活参数和 1 万亿个总参数,具有卓越的编码和工具调用能力。

QWEN-Image

模型简介

Qwen 系列中的一个图像生成基础模型,在 复杂文本渲染 和 精确图像编辑 方面取得了显著进展。实验显示,该模型在图像生成和编辑方面具有强大的通用能力,尤其是在文本渲染方面表现尤为出色,特别是对于中文。

MuseSteamer-Air-Image

模型简介

musesteamer-air-image是百度搜索团队旨在提供极致性价比而研发的文生图模型。能够基于用户输入的提示词快速生成清晰、动作连贯的图片,让用户描述轻松转化为图像。

FLUX.1-schnell

模型简介

FLUX是一个具有120亿参数的修正流变换器,能够根据文本描述生成图像。

ERNIE iRAG

模型简介

百度自研的iRAG(image based RAG),检索增强的文生图技术,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,就可以生成各种超真实的图片,整体效果远远超过文生图原生系统,去掉了AI味儿,而且成本很低。iRAG具备无幻觉、超真实、立等可取等特点。

语音合成

模型简介

本接口支持将短文本转换为音频,适用于对于实时性要求较高的业务场景,例如实时播报、智能硬件、数字人等。

MuseSteamer-2.0-Lite-I2V

模型简介

百度蒸汽机(MuseSteamer)音视一体化视频生成模型,支持单人、多人对话,实现多角色、场景、人声和环境音的协同生成和融合,并可唇形同步。影视级画面质感、丝滑运镜、以及逼真的人物情绪。

MuseSteamer-2.0-Pro-I2V

模型简介

百度蒸汽机(MuseSteamer)音视一体化视频生成模型,支持单人、多人对话,实现多角色、场景、人声和环境音的协同生成和融合,并可唇形同步。影视级画面质感、丝滑运镜、以及逼真的人物情绪。

MuseSteamer-2.0-Turbo-I2V

模型简介

百度蒸汽机(MuseSteamer)音视一体化视频生成模型,支持单人、多人对话,实现多角色、场景、人声和环境音的协同生成和融合,并可唇形同步。影视级画面质感、丝滑运镜、以及逼真的人物情绪。