Nvidia mở cửa công nghệ AI hoạt hình giọng nói cho tất cả người dùng trải nghiệm

Động thái này đồng nghĩa với việc bất kỳ nhà phát triển nào cũng có thể tải về, sử dụng và tùy biến Audio2Face cho các dự án game, ứng dụng hay nội dung tương tác. Quyết định này cho thấy Nvidia không chỉ tiếp tục mở rộng sức ảnh hưởng trong lĩnh vực phần cứng mà còn từng bước khẳng định vị thế trong hệ sinh thái phần mềm AI mã nguồn mở.

Audio2Face là gì và hoạt động ra sao

Audio2Face là công cụ ứng dụng trí tuệ nhân tạo để phân tích các đặc điểm âm thanh từ giọng nói, sau đó tự động tạo ra chuyển động môi, má, lông mày và toàn bộ biểu cảm khuôn mặt trên mô hình 3D. Công nghệ này có thể hoạt động cả với nội dung được ghi sẵn lẫn các phiên livestream theo thời gian thực. Nhờ vậy, chỉ với một đoạn thoại, nhân vật 3D có thể “sống dậy” mà không cần animator dựng từng khung hình thủ công như trước. Đây được xem là một bước nhảy vọt trong quy trình làm phim hoạt hình, game và các ứng dụng tương tác.

Nvidia mở cửa công nghệ AI hoạt hình giọng nói cho tất cả người dùng trải nghiệm

Audio2Face đã nhanh chóng được các studio game đưa vào sử dụng. Trong số đó có Chernobylite 2 Exclusion Zone do Farm51 phát triển và Alien Rogue Incursion Evolved Edition. Cả hai tựa game đều tận dụng khả năng của công cụ này để nâng tầm biểu cảm nhân vật, mang lại trải nghiệm chân thực hơn cho người chơi. Sự xuất hiện của Audio2Face trong các dự án thương mại cho thấy công nghệ này đã vượt qua giai đoạn thử nghiệm và sẵn sàng trở thành một phần quan trọng trong ngành công nghiệp giải trí số.

Trong lần công bố này, Nvidia không chỉ mở mã công cụ mà còn phát hành toàn bộ model huấn luyện của Audio2Face, bộ SDK dành cho nhà phát triển cùng với khung huấn luyện cho phép tùy biến trí tuệ nhân tạo theo từng ngữ cảnh, nhân vật và ngôn ngữ cụ thể. Điều này mang lại cho cộng đồng phát triển khả năng tích hợp Audio2Face trực tiếp vào các game engine như Unity và Unreal Engine hoặc các hệ thống riêng biệt. Sự cởi mở về công nghệ cũng đồng nghĩa với việc nhiều nhà phát triển độc lập có cơ hội tiếp cận các công cụ từng chỉ thuộc về các studio lớn.

Sự phát triển mạnh mẽ của ngành game, metaverse, nhân vật AI và các avatar trong thế giới thực tế ảo đang đặt ra yêu cầu ngày càng cao về tính chân thực trong biểu cảm nhân vật. Việc đồng bộ chính xác giọng nói và cử động khuôn mặt được dự đoán sẽ trở thành tiêu chuẩn trong tương lai. Audio2Face có thể giúp các nhóm phát triển nhỏ và startup tiếp cận công nghệ vốn đòi hỏi nguồn lực khổng lồ, từ đó mở rộng đáng kể phạm vi sáng tạo.

Xem thêm:

Nguồn: The Verge