top of page

Dành 200 giờ để thử nghiệm các trình tạo video AI tốt nhất

dành 200 giờ để thử nghiệm các trình tạo video AI tốt nhất — đây là những lựa chọn hàng đầu của tôi
Hành trình bắt đầu vào tháng 2 năm 2023 khi Runway giới thiệu Gen-2, trình tạo video AI thương mại đầu tiên, chuyển đổi từ giai đoạn thử nghiệm ban đầu trên Discord. Ngay sau cột mốc này, Pika Labs đã ra mắt Pika 1.0 và sự ra đời của một số dịch vụ dựa trên Stable Video Diffusion. Một bước đột phá đáng kể đã diễn ra vào đầu năm nay với việc OpenAI ra mắt Sora , chứng minh rằng tài nguyên tính toán phong phú và bộ dữ liệu đào tạo khổng lồ là yếu tố then chốt để đạt được độ chân thực và chuyển động mượt mà trong các video do AI tạo ra.

Hiện tại, Sora đã có thể truy cập được, mặc dù ở dạng hạn chế hơn so với dự kiến ban đầu. Tuy nhiên, lĩnh vực này đã chứng kiến sự trỗi dậy của một số mô hình ngang ngửa hoặc vượt trội hơn so với sản phẩm chủ lực của OpenAI. Đáng chú ý, Gen-3 Alpha của Runway mang đến những cải tiến đáng kể về độ trung thực, tính nhất quán và chuyển động so với phiên bản tiền nhiệm.

Tương tự, Ray2 của Luma Labs giới thiệu các tính năng tiên tiến, tạo ra video với chuyển động nhanh, mạch lạc và chi tiết siêu thực, đánh dấu một thế hệ mô hình video mới. Ngoài ra, các mô hình như Kling và Hailuo MiniMax cũng đã xuất hiện, góp phần vào sự đa dạng và phát triển nhanh chóng của lĩnh vực tạo video bằng AI.
ree
Mẹo tạo video bằng AI
Việc tạo nội dung video bằng AI không "khác" so với việc tạo hình ảnh AI. Bạn cần phải mô tả và vẽ nên một bức tranh bằng lời. Điểm khác biệt lớn nhất là bạn cũng cần chỉ định chuyển động và mô tả cách cảnh và các vật thể trong cảnh nên di chuyển.

Cách tốt nhất để tận dụng những công cụ này, đặc biệt là những công cụ tiên tiến hơn có khả năng tạo video dài 10 giây trở lên chỉ với một lời nhắc, là sử dụng ngôn ngữ điện ảnh. Hãy mô tả vị trí và chuyển động của máy quay, phác thảo ánh sáng và giải thích các thay đổi trong cảnh nếu cần.

Ví dụ, bạn có thể tạo video về một cặp đôi đang dùng bữa bằng cách mô tả cảnh máy quay từ từ lia máy từ góc rộng của căn phòng sang cận cảnh nụ cười và cử chỉ của họ. Hãy thêm các chi tiết như ánh nến ấm áp, cảnh thành phố mờ ảo qua cửa sổ, và những chuyển động tự nhiên như một người rót rượu trong khi người kia cười.

Bạn có thể dùng gợi ý này: " Một nhà hàng ấm cúng với ánh đèn vàng mờ ảo. Máy quay bắt đầu bằng một góc rộng, ghi lại phòng ăn sang trọng và cảnh quan thành phố mờ ảo qua cửa sổ. Máy quay từ từ lia đến một cặp đôi đang ngồi ăn, miệng cười nói rôm rả, người này đưa tay rót rượu vào ly của người kia. Ánh nến ấm áp lung linh trên khuôn mặt họ, tạo nên một bầu không khí thân mật và mời gọi."

Sử dụng ngôn ngữ điện ảnh : Bao gồm các thuật ngữ điện ảnh để giúp hướng dẫn AI như góc máy quay, chuyển động và ánh sáng
Chỉ định chuyển động và hành động : Mô tả cách các thành phần trong cảnh sẽ di chuyển bao gồm các đối tượng và nhân vật
Xác định Môi trường và Bầu không khí : Sử dụng các mô tả chi tiết về bối cảnh để thiết lập bối cảnh và tâm trạng bao gồm ánh sáng, thời tiết và các mục nền
Duy trì tính nhất quán về mặt thời gian : Thiết lập một chuỗi sự kiện hợp lý, mạch lạc và phù hợp với diễn biến của video và hành động mà bạn muốn xem
Lặp lại và Tinh chỉnh Lời nhắc : Thử nghiệm với các cấu trúc và chi tiết lời nhắc khác nhau để đạt được kết quả mong muốn. Xem lại các video đã tạo và điều chỉnh lời nhắc cho phù hợp để cải thiện chất lượng và độ liên quan. Quá trình lặp lại này giúp tinh chỉnh đầu ra của AI cho phù hợp với tầm nhìn của bạn.
Nền tảng video AI yêu thích của tôi
Tôi đã tổng hợp một số nền tảng video AI tốt nhất mà tôi đã sử dụng trong gần hai năm qua. Với mỗi nền tảng, tôi đã tạo một video với cùng một lời nhắc để chia sẻ sự khác biệt về chất lượng giữa chúng.

Danh sách này chỉ bao gồm các mô hình tôi đã đích thân thử nghiệm. Danh sách cũng chỉ bao gồm các mô hình video tổng hợp, ngoại trừ các mô hình avatar như Synthesia và Hey Gen.

Gợi ý cho các video tôi chia sẻ với mỗi bài dự thi này là: " Một người đi xe đạp đơn độc trên con đường nông thôn vắng vẻ vào giờ vàng, ánh sáng đổ bóng dài trên mặt đường nhựa. Những cánh đồng cỏ cao xung quanh rực rỡ sắc cam ấm áp, và người đi xe đạp, trong chiếc áo len sáng màu, đang đạp xe đều đặn về phía máy quay. Góc nhìn năng động với chiều sâu điện ảnh."
ree
ree
Kling là một trong những mô hình video AI tốt nhất hiện nay, nổi bật về độ chân thực hình ảnh và chuyển động mượt mà. Nó cung cấp các tính năng tiên tiến như đồng bộ hóa lời thoại, công cụ thử đồ ảo cho các ứng dụng thời trang, và, ít nhất là đối với các phiên bản cũ hơn, khả năng kéo dài clip.

Theo Kling, phiên bản mới nhất có khả năng kỳ lạ trong việc tuân theo các hướng dẫn phức tạp, bao gồm chuyển động camera cụ thể, thay đổi thời gian và cấu trúc hình ảnh của cảnh. Phiên bản Kling 1.6 mang đến độ sắc nét và rõ nét được cải thiện, loại bỏ hiện tượng nhòe mờ trong các phiên bản trước. Độ chính xác màu sắc nâng cao và khả năng điều chỉnh ánh sáng động mang lại hình ảnh sống động hơn. Người dùng cũng sẽ thấy hiệu ứng chuyển động mượt mà và tự nhiên hơn, đặc biệt là trong các cảnh có nước, lửa và hoạt động của con người.

Những cải tiến khác bao gồm đào tạo mô hình khuôn mặt tùy chỉnh để thể hiện nhân vật nhất quán trên nhiều video. Người dùng sẽ nhận thấy khả năng hiển thị biểu cảm khuôn mặt được tinh chỉnh, nắm bắt cảm xúc và chuyển động tinh tế, khả năng đồng bộ hóa môi được cải thiện, căn chỉnh chuyển động miệng chính xác với các mẫu giọng nói.

Các tính năng kiểm soát sáng tạo mới đã được giới thiệu gần đây. "Thanh trượt sáng tạo" cho phép người dùng cân bằng giữa việc tuân thủ nghiêm ngặt lời nhắc và diễn giải nghệ thuật.

Tính năng một cú nhấp chuột cho phép người dùng kéo dài video đã tạo thêm 4,5 giây, duy trì luồng nội dung động và mạch lạc.

Tôi thấy video Kling có vẻ chân thực hơn. Chúng có kết cấu và ánh sáng tốt hơn các mô hình khác với chuyển động nhất quán hơn. Tuy nhiên, nó vẫn còn gặp phải nhiều vấn đề tương tự như hiện tượng nhiễu hạt, hiện tượng ghép người và khó khăn khi chuyển động, nhưng nhìn chung, nó tốt hơn nhiều so với các video khác.

Được phát triển bởi công ty nền tảng video Trung Quốc Kuaishou, Kling cũng đi kèm với mô hình hình ảnh KOLORS. Bạn có thể tạo hình ảnh với chi phí chỉ bằng một phần nhỏ để hình dung hình ảnh cuối cùng sẽ trông như thế nào nếu bạn quyết định chuyển nó thành video.

Gói miễn phí này tặng bạn điểm thưởng hàng ngày khi đăng nhập, còn gói tiêu chuẩn, với 660 điểm thưởng cơ bản, có giá 5 đô la. Video chuyên nghiệp dài 5 giây có giá khoảng 35 điểm thưởng, hoặc 20 điểm thưởng nếu bạn không ngại độ phân giải thấp hơn.

THEO TOM S HARDWARE

Bình luận


bottom of page