Sự gia tăng đáng kể trong lượng công việc tập trung vào Thị giác máy tính (Computer Vision – CV) và Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP) trong năm trước đã khiến các nhà học thuật trên toàn cầu quan tâm đến tiềm năng mà học sâu và các mô hình ngôn ngữ lớn (Large Language Models – LLMs) có thể mang lại cho việc sáng tác nhạc. Chỉ trong vài tuần qua, đã có bốn bài báo mới được công bố, mỗi bài giới thiệu một mô hình âm thanh tiềm năng có thể giúp cho việc nghiên cứu tiếp theo trong lĩnh vực này dễ dàng hơn.
MusicLM à mô hình đầu tiên được phát triển bởi các nhà nghiên cứu tại Google và IRCAM – Sorbonne Universite. MusicLM là mô hình có khả năng sáng tác nhạc chất lượng cao từ prompt, ví dụ “một giai điệu violon êm dịu được kết hợp với một giai điệu guitar rè (distrostion) ” Mô hình này có thể được huấn luyện trên cả văn bản và giai điệu. MusicCaps là một bộ dữ liệu có sẵn công khai với 5,5 nghìn cặp văn bản nhạc được chú thích bằng các mô tả chi tiết do con người tạo ra.
SingSong là một hệ thống của Google có khả năng sáng tác nhạc không lời (instrumental) để đệm cho giọng hát solo. Nó sử dụng hai phát triển quan trọng trong lĩnh vực công nghệ âm nhạc: phân tách nguồn và mô hình âm thanh sinh. Nhóm nghiên cứu đã chia bộ dữ liệu âm nhạc lớn chứa 1 triệu bản nhạc thành các cặp nguồn giọng hát và nhạc cụ bằng cách sử dụng một kỹ thuật phân tách nguồn thương mại có sẵn đã được phát triển trong các nghiên cứu trước đó. Sau đó, họ sử dụng mô hình AudioLM cho mô hình sinh âm thanh điều kiện “âm thanh sang âm thanh” để tạo ra nhạc cụ dựa trên giọng hát bằng cách huấn luyện nó được giám sát trên dữ liệu đã được phân tách. Khi được sử dụng với các chiến lược đặc trưng giọng hát khác nhau, SingSong đã cải thiện hiệu suất của giọng hát đơn lẻ lên tới 55% so với mô hình AudioLM tiêu chuẩn. Các bản nhạc được tạo ra bởi SingSong được người nghe chọn lựa 66% trong khi 34% người nghe ưa thích bản nhạc của SingSong hơn so với nhạc gốc.
Moûsai là một mô hình tạo ra nhạc dựa trên văn bản mà cho phép chúng ta tạo ra âm nhạc stereo có độ dài liên tục 48kHz dựa trên bối cảnh trên một phút và tạo ra một loạt nhạc cụ khác nhau. Theo bài báo “Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion”, mô hình Moûsai sử dụng mô hình khuếch tán theo chuỗi hai giai đoạn và được sử dụng để nén dạng sóng âm thanh xuống một mức độ thấp hơn nhưng vẫn giữ được chất lượng tương đối cao. Đồng thời, nó học cách tạo ra các biểu diễn latent giảm kích thước này dựa trên việc nhập nhúng văn bản được tạo ra bởi một mô hình ngôn ngữ được tiền huấn luyện.
AudioLDM là một hệ thống TTA (Text-to-Audio) sử dụng các mô hình latent diffussion liên tục để đạt được chất lượng tạo ra âm thanh tốt nhất và có hiệu quả tính toán cũng như những lợi thế của xử lý âm thanh có điều kiện. Nghiên cứu “AudioLDM: Text-to-Audio Generation with Latent Diffusion Models” cho thấy với sự giúp đỡ của một transformer tự động dựa trên một mel-spectrogram, AudioLDM có thể học cách xây dựng dự đoán âm thanh trong một không gian latent. Thay vì phụ thuộc vào các cặp dữ liệu ngôn ngữ âm thanh để huấn luyện các mô hình latent diffussion, các nhà nghiên cứu sử dụng các biến thể của các vectơ embedding có kiến trúc cơ bản (CLAP) để tạo ra các TTA. Khi được thử nghiệm trên tập dữ liệu AudioCaps, AudioLDM đề xuất vượt qua mô hình DiffSound với kết quả tốt hơn rất nhiều, đạt được hiệu suất TTA tốt nhất với khoảng cách freshet (FD) 23,31.
EPIC-SOUNDS là một bộ dữ liệu lớn về những tiếng ồn hàng ngày được tạo ra bởi Đại học Oxford và Đại học Bristol bằng cách sử dụng EPIC-audio KITCHENS100. Bộ dữ liệu bao gồm 100 giờ phim thu thập từ 700 video từ 45 căn bếp cư dân, với tổng cộng 117.553 sự kiện âm thanh. Nó bao gồm 78.366 sự kiện âm thanh được phân loại trong 44 danh mục và 39.187 sự kiện âm thanh không được phân loại.
Việc sử dụng các mô hình sáng tác âm nhạc có khả năng tạo ra sự cách mạng trong ngành âm nhạc và thay đổi cách mà con người thưởng thức và sáng tác âm nhạc. Các mô hình này có thể làm cho quá trình sáng tác nhạc trở nên nhanh hơn, dễ dàng hơn và tiếp cận dễ dàng hơn với mọi người. Tuy nhiên, các nhà nghiên cứu cũng nhận thức được các hậu quả tiêu cực có thể xảy ra từ việc sử dụng các mô hình này, bao gồm nguy cơ đồng hóa và mất đi tính tinh tế trong nghệ thuật.
Để giảm thiểu các rủi ro này, một số nhà nghiên cứu đề xuất sử dụng các mô hình để tăng cường sự sáng tạo của con người thay vì thay thế nó. Bằng cách dựa trên sáng tạo của người dùng, các mô hình này có thể tạo ra nhạc mang tính cá nhân của người sáng tác.
Để không bị thay thế, điều quan trọng là các nhạc sỹ cần hiểu và tận dụng các lợi thế mà AI mang lại. Nếu bạn thích bài viết này, hãy chia sẻ với những người (nhạc sỹ) quan tâm. Hãy tham gia cộng đồng của chúng tôi trên mạng xã hội mà bạn quen thuộc. Hẹn gặp lại các bạn trong các bài viết tiếp theo.