Google chính thức ra mắt tính năng mới cho phép bạn biến ảnh tĩnh thành video 8 giây sống động với âm thanh – tất cả nhờ sức mạnh của Veo 3 Fast, tích hợp trong Gemini 2.5. Hiện tính năng này đã triển khai toàn cầu, bao gồm cả Việt Nam, trên web, iOS, Android
Since I/O in May, you've created 40M+ videos with Veo 3!
— Sundar Pichai (@sundarpichai) July 10, 2025
Now our new photo to video feature in the @Geminiapp lets you create clips inspired by the world around you. Here’s how I imagine our resident dino Stan roams the Google campus when we’re not looking:) Ultra/Pro… pic.twitter.com/2VBirMyFtO
🧠 Tính năng mới có gì đặc biệt?
- 📸 Chuyển ảnh thành video 8 giây với hiệu ứng động và âm thanh sinh động
- 🔊 Tạo âm thanh tự động phù hợp ngữ cảnh: tiếng bước chân, tiếng nước, đối thoại, nhạc nền...
- ⚡ Dựa trên mô hình Veo 3 Fast – phiên bản nhẹ, tốc độ cao của Veo 3 (khác với bản điện ảnh dùng trong Google DeepMind Studio)
📌 Xem thêm:
👉 🚀 Veo 3 Fast: Tạo video AI có âm thanh chỉ với 1/5 chi phí!
🪄 Cách sử dụng Gemini tạo video từ ảnh

1⃣ Mở ứng dụng Gemini
2⃣ Nhấn vào “Video” trong thanh công cụ (chỉ xuất hiện nếu bạn có tài khoản Pro/Ultra)
3⃣ Tải ảnh lên (chỉ một ảnh mỗi lần)
4⃣ Nhập mô tả video mong muốn bằng tiếng Anh
5⃣ 🔊 Bật âm thanh và thưởng thức!
🔧 Cách "cứu" video Veo 3 bị mất tiếng và thêm tiếng Việt
✅ Workflow đề xuất:
1️⃣ Tải video Veo 3 về từ Gemini
2️⃣ Dùng CapCut + ElevenLabs/TTSMaker để:
- Thêm nhạc nền hoặc hiệu ứng âm thanh
- Tạo giọng thuyết minh tiếng Việt bằng AI
- Lồng ghép và chỉnh thời gian hợp lý
3️⃣ Xuất lại video hoàn chỉnh, giờ đã có âm thanh đồng bộ + lời thoại tiếng Việt
Video demo sử dụng tính năng hình ảnh thành video trên Gemini
💸 Chi phí rất rẻ nếu bạn dùng công cụ TTS miễn phí hoặc trả phí thấp – hiệu quả hơn rất nhiều so với việc bỏ đi video mất tiếng.
📦 Kết luận
Tính năng ảnh thành video Veo 3 Fast trong Gemini là một bước đột phá. Dù còn một vài hạn chế như tiếng Việt chưa được hỗ trợ hay mất tiếng, bạn vẫn có thể tận dụng AI để tạo ra những video ngắn đầy cảm xúc, chuyển động, và âm thanh chỉ từ một bức ảnh.