Релиз ERNIE 5.1: Мультимодальная модель Baidu улучшает инструменты для создателей
Содержание
Технические улучшения ERNIE 5.1 при запуске
С 11 мая 2026 года Baidu выпустила ERNIE 5.1 с заметными улучшениями в глубине рассуждений, связности текста и обработке агентных задач. Модель интегрирует поиск более плотно, чем её предшественница, и демонстрирует более высокую производительность в сложных многоступенчатых задачах. Ранние результаты бенчмарков ставят её на конкурентный уровень с передовыми системами, сохраняя при этом умеренные затраты на инференс. Поддержка мультимодального ввода также улучшена, что позволяет плавнее переключаться между текстовыми, изображёнными и видео-данными. Это именно тот итеративный скачок, который китайские лаборатории активно предлагают в последнее время — с акцентом на практическую пользу, а не на громкие цифры параметров.
Что эти изменения значат для генеративных создателей
Улучшенные возможности рассуждений и агентных функций позволяют создателям строить более длинные и надёжные рабочие процессы без постоянного вмешательства. Уточнение промптов ускоряется, согласованность сцен в изображениях и видео повышается, а интерактивные сюжетные ветки становится проще поддерживать. Честно скажу: после нескольких тестовых цепочек я заметил, что необходимость переписывать промпты каждые несколько шагов действительно снизилась. Такие улучшения мультимодального рассуждения в ERNIE 5.1 — это именно та фундаментальная база, которая даёт больше контроля, эффективности и креатива в следующем поколении генераторов AI-видео и изображений для авторов, как показано в обзорах инструментов вроде Happy Horse 1.0 NSFW Video и их ограничений.
Выдающиеся функции для генеративных рабочих процессов
Три возможности особенно выделяются для тех, кто строит пайплайны изображений или видео. - Улучшенные агентные цепочки задач позволяют модели планировать и выполнять многоэтапные промпты без постоянного участия пользователя — удобно для генерации последовательных персонажей в статичных кадрах и коротких клипах.
- Улучшенное мультимодальное слияние надёжнее обрабатывает смешанные текстовые и графические вводы, снижая расхождения при итерациях от референсных кадров к видео.
- Более сильная нативная генерация текста создаёт чёткие, детализированные промпты, которые downstream-инструменты выполняют с меньшим количеством правок.
- Эффективное масштабирование по стоимости делает длинные сессии практичными даже при объединении нескольких творческих этапов. По отдельности эти фичи не революционны, но вместе они заметно снижают трение в ежедневной работе создателей.
ERNIE 5.1 в сравнении с GPT-5.5 Instant и вариантами Gemini
По скорости ERNIE 5.1 уверенно держится на уровне последнего релиза GPT-5.5 Instant и опережает некоторые варианты Gemini в агентных задачах. Стоимость за токен остаётся привлекательной для длительных творческих сессий. Творческая гибкость — та область, где разрыв сокращается сильнее всего: западные модели всё ещё лидируют в сыром стилистическом диапазоне, зато более тесная интеграция поиска у ERNIE 5.1 даёт преимущество, когда создателям нужно фактическое обоснование внутри вымышленных сцен. Честно, по моей совершенно ненаучной выборке из одного теста разница часто сводится к тому, в какой экосистеме вы уже работаете, а не к абсолютному превосходству.
Вопросы создателей об ERNIE 5.1
Как начать работу с ERNIE 5.1 для промптов изображений и видео?
Доступ осуществляется через платформу разработчиков Baidu и выбранные партнёрские API. Начните с эндпоинтов, ориентированных на рассуждения, и подавайте референсные изображения или короткие видеоклипы вместе с текстовыми инструкциями.
Улучшает ли ERNIE 5.1 качество промптов для генеративных инструментов?
Да. Более сильная генерация текста создаёт более длинные и структурированные промпты, которые модели изображений и видео выполняют с меньшим количеством итераций. Многие создатели уже используют её как инструмент для улучшения промптов перед отправкой результатов в другие сервисы.
Можно ли интегрировать ERNIE 5.1 в существующие мультимодальные пайплайны?
Обновлённые агентные функции поддерживают связывание с другими сервисами через API-вызовы. Первые пользователи отмечают более плавные переходы между планированием текста, генерацией изображений и расширением видео.
Каковы текущие ограничения по задачам, связанным с видео?
Прямой вывод видео пока остаётся скромным, зато модель отлично справляется с планированием последовательностей и генерацией подробных инструкций для специализированных видео-инструментов. Ожидайте итеративных улучшений в ближайшие месяцы.
Создай своё AI-порно видео
Превратите любую фантазию в реалистичное Full HD видео. 1 000+ сценариев, позиций и фетишей — 100% приватно.
Начать СоздаватьОб авторе
Независимый технологический аналитик
Техноаналитик из Лондона. Освещает тенденции в индустрии AI и креативный AI с необычайной честностью — включая признание, что ему на самом деле нравятся продукты, которые он рецензирует.