Mô hình AI (trí tuệ nhân tạo) Fugatto của Nvidia có thể thay đổi cảm xúc giọng hát, thêm nhạc cụ vào bản nhạc, hoặc tạo ra âm thanh hoàn toàn mới, mở ra nhiều ứng dụng thực tế.
Fugatto có tên đầy đủ là “Foundational Generative Audio Transformer Opus 1”, là mô hình AI có khả năng thực hiện các tác vụ như tạo giai điệu từ mô tả văn bản, thay đổi cảm xúc trong giọng hát, điều chỉnh giọng nói theo các vùng miền, thêm hoặc xóa nhạc cụ trong các bản nhạc hiện có. Nvidia cho biết, mô hình này được phát triển với mục tiêu hỗ trợ sáng tạo nội dung âm thanh nhanh chóng và dễ dàng hơn.
Câu lệnh minh họa cho mô hình AI âm thanh Fugatto: “Tạo ra âm trầm mạnh mẽ kết hợp với tiếng động kỹ thuật số cao vút, như âm thanh của một cỗ máy vừa tỉnh giấc”
Một trong những ứng dụng tiềm năng của Fugatto là trong sản xuất âm nhạc. Các nhà sản xuất có thể sử dụng công cụ này để thử nghiệm ý tưởng mới, từ việc tinh chỉnh giọng hát cho đến điều chỉnh hiệu ứng âm thanh. Ngoài âm nhạc, Fugatto cũng được kỳ vọng sẽ đóng vai trò quan trọng trong nhiều lĩnh vực khác.
Trong ngành quảng cáo, mô hình có thể được sử dụng để chỉnh sửa lồng tiếng, giúp các chiến dịch truyền thông phù hợp hơn với từng khu vực hoặc ngữ cảnh. Trong việc học ngôn ngữ, Fugatto có thể cá nhân hóa giọng nói của người hướng dẫn, mang lại trải nghiệm học tập gần gũi và sinh động hơn.
Trong lĩnh vực trò chơi, Fugatto cho phép tạo ra các tài nguyên âm thanh mới dựa trên hành động của người chơi, hoặc điều chỉnh các âm thanh đã có để phù hợp với nhịp độ và bối cảnh trò chơi. Đây được xem là công cụ hứa hẹn cải thiện đáng kể tính tương tác và chất lượng âm thanh trong game.
Fugatto được Nvidia phát triển qua hơn một năm nghiên cứu, sử dụng 2,5 tỉ tham số và được huấn luyện trên các hệ thống DGX với 32 GPU Nvidia H100 Tensor Core. Tuy nhiên, công ty hiện chưa cung cấp thông tin về thời điểm ra mắt chính thức của mô hình này.