ERNIE 5.1 发布:百度多模态模型助力创作者工具
ERNIE 5.1 发布时的技术升级
自2026年5月11日起,百度推出了ERNIE 5.1,在推理深度、文本连贯性和代理任务处理方面有明显提升。该模型比前代更紧密地整合了搜索功能,并在复杂的多步骤问题上表现出更强的性能。早期基准测试结果使其与前沿系统竞争,同时保持了适中的推理成本。多模态输入支持也得到了改进,允许文本、图像和视频数据流之间更顺畅的交接。这是中国实验室最近交付的那种迭代跳跃,旨在针对实际可用性,而不是标题参数数量。
这些变化对生成创作者意味着什么
更好的推理和代理功能让创作者能够构建更长、更可靠的工作流程,而无需持续的手动干预。提示优化变得更快,图像和视频中的场景一致性得到改善,交互式故事分支也更容易维护。老实说,在自己运行了一些测试链之后,减少每隔几步就重新提示的需求感觉确实有用。像ERNIE 5.1这样的多模态推理升级,正是推动更可控、高效和创造性的下一代AI视频和图像生成器的基础改进之一,正如Happy Horse 1.0 NSFW Video等工具的报道中所见及其局限性。
生成工作流程的突出功能
对于构建图像或视频管道的任何人来说,有三种能力脱颖而出。
- 增强的代理任务链让模型无需持续用户干预即可规划和执行多阶段提示,这对于在静止图像和短片中生成一致的角色序列很有用。
- 改进的多模态融合更可靠地处理混合文本和图像输入,在从参考帧迭代到视频时减少漂移。
- 更强的原生文本生成产生更清晰、更详细的提示,下游工具可以遵循更少的修正。
- 成本高效的扩展即使在链接多个创意步骤时也能保持较长的会话实用。这些本身并不革命性,但它们共同减少了日常创作者工作的摩擦。
ERNIE 5.1 与 GPT-5.5 Instant 和 Gemini 变体的比较
在速度方面,ERNIE 5.1 与最新的GPT-5.5 Instant版本持平,并在代理式任务中略胜一些Gemini变体。每个token的成本对扩展创意会话仍具吸引力。创意灵活性是差距最小的方面:西方模型在原始风格范围上仍领先,但ERNIE 5.1更紧密的搜索整合在创作者需要在虚构场景中进行事实依据时提供了优势。老实说,我完全不科学的单一样本表明,差异往往取决于你已经生活在哪个生态系统中,而不是绝对的优越性。
创作者关于ERNIE 5.1的问题
如何开始使用ERNIE 5.1进行图像和视频提示?
访问通过百度的开发者平台和选定的合作伙伴API进行。从注重推理的端点开始,并将参考图像或短视频剪辑与您的文本指令一起输入。
ERNIE 5.1 是否能提高生成工具的提示质量?
是的。它更强的文本生成能产生更长、更结构化的提示,下游图像和视频模型可以用更少的迭代来遵循。许多创作者已经在使用它作为提示精炼器,然后再将输出反馈到其他地方。
ERNIE 5.1 能否集成到现有的多模态管道中?
更新的代理功能支持通过API调用与其他服务链接。早期采用者报告说,在文本规划、图像生成和视频扩展步骤之间的交接更顺畅。
视频相关任务的当前限制是什么?
直接视频输出仍然有限,但该模型擅长规划序列并为专业视频工具生成详细指令。预计在未来几个月内会有迭代改进。