Ra Mắt Gemini 3.5 Flash Omni: Bản Cập Nhật AI Đa Phương Tiện Của Google Dành Cho Nhà Sáng Tạo
Mục lục
Những Gì Google Đã Công Bố Tại I/O 2026
Tính đến ngày 20 tháng 5 năm 2026, những thông báo tại Google I/O 2026 vừa mới kết thúc và đã mang lại bước tiến đáng kể cho các công cụ đa phương thức. Gemini 3.5 Flash hiện là mô hình mặc định trên ứng dụng Gemini và chế độ AI trong Tìm kiếm. Nó mang lại tốc độ nhanh gấp khoảng bốn lần so với phiên bản trước, đồng thời cải thiện hỗ trợ lập trình và khả năng thực hiện tác vụ tự động, tất cả với chi phí suy luận thấp hơn. Tại sự kiện, Google đã giới thiệu Gemini Omni – mô hình thế giới đa phương thức có thể chuyển đổi bất kỳ sự kết hợp nào giữa văn bản, hình ảnh tĩnh, clip video và âm thanh thành video liền mạch. Các bản demo ban đầu cho thấy mô hình ghép lời nhắc văn bản ngắn với ảnh tham chiếu và âm thanh môi trường vài giây thành chuyển động ổn định ấn tượng. Gemini Omni Flash được triển khai ngay cho người dùng Google AI Plus, Pro và Ultra qua ứng dụng chính, Google Flow và YouTube Shorts, trong khi quyền truy cập API rộng hơn dự kiến trong những tuần tới.
Lặp Lại Nhanh Hơn Và Kiểm Soát Chặt Chẽ Hơn Cho Quy Trình Làm Việc Hàng Ngày
Tốc độ và độ ổn định quan trọng hơn thông số kỹ thuật cho người sáng tạo nội dung. Hiệu suất được nâng cấp của Gemini 3.5 Flash sẽ rút ngắn thời gian từ lời nhắc đến kết quả sử dụng được, đặc biệt khi bạn đang tinh chỉnh một chuỗi cảnh qua nhiều lần thử. Các cải tiến agentic cũng cho phép mô hình lập kế hoạch các tác vụ đa bước đơn giản, như tạo bảng phân cảnh rồi mở rộng khung hình đã chọn thành clip ngắn. Cách tiếp cận đầu vào hỗn hợp của Gemini Omni đặc biệt hữu ích cho quy trình image-to-video. Người sáng tạo có thể đưa vào một bức ảnh tĩnh, video tham chiếu phong cách và ghi chú giọng nói ngắn mô tả chuyển động camera, sau đó nhận được đầu ra tôn trọng cả ba tín hiệu cùng lúc. Mức độ kiểm soát này trước đây rất khó đạt được nếu không qua khâu hậu kỳ nặng nề.
Lợi Ích Thực Tế Cho Người Sáng Tạo Hình Ảnh, Video Và Đa Phương Thức
Khả năng tuân thủ lời nhắc tốt hơn và độ nhất quán nhân vật là hai cải tiến được người sáng tạo nhắc đến nhiều nhất trong các bài kiểm tra ban đầu. Khi chuyển động được neo chặt vào cùng một chủ thể qua các cảnh quay, thời gian chỉnh sửa giảm rõ rệt. Các lời nhắc đa phương tiện cũng mở ra những thử nghiệm sáng tạo nhỏ hơn: đặt hình render sản phẩm vào cảnh sống, hoặc ghép thoại lên footage đã tạo mà không cần xây dựng lại toàn bộ cảnh từ đầu. Thành thật mà nói, sau khi chạy một số bài kiểm tra đầu vào hỗn hợp, tôi thấy kết quả khả dụng hơn dự kiến, dù vẫn chưa hoàn hảo với các chuyển động camera phức tạp. Những tiến bộ đa phương thức như vậy đang định hình công cụ video thế hệ tiếp theo, bao gồm cả cuộc thảo luận đang diễn ra về cách Gemini Omni xử lý nội dung khiêu dâm, mà tôi đã khám phá chi tiết hơn tại đây: Gemini omni nsfw: Tại Sao Mô Hình Video AI Của Google Chặn Nội Dung Khiêu Dâm.
Những Câu Hỏi Người Sáng Tạo Đang Hỏi Ngay Bây Giờ
Làm thế nào để truy cập Gemini 3.5 Flash và Gemini Omni ngay hôm nay?
Gemini 3.5 Flash đã hoạt động như mô hình mặc định trong ứng dụng Gemini và chế độ AI Tìm kiếm. Gemini Omni Flash hiện có sẵn ngay cho người dùng Google AI Plus, Pro và Ultra trong ứng dụng, Google Flow và YouTube Shorts.
Kỹ thuật lời nhắc nào hoạt động tốt nhất với các tính năng đa phương thức mới?
Kết hợp mô tả chủ thể rõ ràng với ảnh tham chiếu hoặc clip ngắn và, nếu có thể, tín hiệu âm thanh ngắn để chỉ thời gian hoặc tông màu. Mô hình phản hồi tốt với hướng dẫn rõ ràng về chuyển động camera và độ liên tục ánh sáng.
Gemini 3.5 Flash khác gì so với các phiên bản Gemini trước đây?
Phiên bản 3.5 Flash tập trung vào tốc độ, khả năng lập kế hoạch agentic mạnh mẽ hơn và chi phí giảm. Hỗ trợ lập trình và xử lý tác vụ đa bước đã được cải thiện rõ rệt so với thế hệ trước.
Khi nào API và quyền truy cập doanh nghiệp sẽ được mở?
Quyền truy cập API rộng hơn dự kiến trong những tuần tới, mặc dù Google chưa công bố ngày triển khai doanh nghiệp chính xác.
Tạo video khiêu dâm AI của riêng bạn
Biến mọi tưởng tượng thành video Full HD chân thực. 1.000+ kịch bản, tư thế & sở thích — 100% riêng tư.
Bắt Đầu Tạo NgayVề tác giả
Nhà phân tích công nghệ độc lập
Nhà phân tích công nghệ có trụ sở tại London. Theo dõi xu hướng ngành AI và AI sáng tạo với sự trung thực bất thường — bao gồm thừa nhận ông thực sự thích các sản phẩm ông đánh giá.