Máy tính giờ đây có thể phát hiện một bài hát tiêu cực hay tích cực, trầm lắng hay sôi động

Ban Biên Tập

6 năm trước

Một nhóm các nhà nghiên cứu đang làm việc cho Deezer đã phát triển thành công trí tuệ nhân tạo có khả năng phán đoán được một bài hát ảnh hưởng tới cảm xúc của người nghe như thế nào.

Deezer là công ty cung cấp dịch vụ nghe nhạc trực tuyến trên Internet có trụ sở tại Paris, Pháp. Các nhà nghiên cứu tại đây vừa phát triển thành công một hệ thống Trí thông minh nhân tạo (AI) có khả năng hiểu được trạng thái cảm xúc của một bài hát, vui vẻ hay sầu não, tích cực hay tiêu cực.

Để làm được điều này, nhóm nghiên cứu dựa vào 2 thành phần: âm thanh và lời bài hát. Đầu tiên, họ đưa phần âm thanh vào một mạng lưới thần kinh nhân tạo, cùng với các mô hình học máy (machine learning) để tái cấu trúc ngữ nghĩa của các từ thu được. Sau đó, họ dạy cho hệ thống cách nhận biết trạng thái cảm xúc của một bài hát bằng cách sử dụng một cơ sở dữ liệu gồm 1 triệu bài hát.

Họ đã sử dụng bộ dữ liệu của Last.fm. Đây là gói dữ liệu cho phép gán các định dạng vào bài hát dựa trên hơn 500.000 từ khóa. Rất nhiều những từ khóa này có liên quan đến trạng thái của bài hát, và hơn 14.000 từ tiếng Anh trong số này đã được áp 2 thang đánh giá mức độ tương quan để huấn luyện hệ thống: tích cực hay tiêu cực và trầm lắng hay sôi động.

Deezer hiện đang có 53 triệu bài hát được cấp phép trong kho nhạc, cùng với hơn 30.000 kênh radio, 14 triệu người dùng hàng tháng, và 6 triệu thuê bao trả phí tính đến ngày 3/4/2018. Deezer khả dụng cho Web, Android, iOS, Windows Phone, BlackBerry và Windows.

Tuy nhiên, cơ sở dữ liệu 1 triệu bài hát này chỉ chứa những thông tin cơ bản về các bài hát mà không chứa bản thân bài hát đó, vì thế cả đội phải đối chiếu tất cả những thông tin này với danh mục sẵn có của công ty bằng cách sử dụng các tiêu chí như tên bài hát, tên ca sĩ, tên album. Họ đã dùng tất cả 18.644 bài hát (60% bộ dữ liệu) để dạy cho hệ thống, số còn lại được dùng cho việc xác thực và thử nghiệm hệ thống trong những lần sau.

Nhóm nghiên cứu đã đưa ra kết luận rằng, cách tiếp cận bằng AI này tỏ ra hiệu quả hơn so với các phương pháp truyền thống không dùng AI trong việc phát hiện một bài hát trầm lắng hay sôi động, và tỏ ra hiệu quả tương đương trong việc phát hiện một bài hát tích cực hay tiêu cực.

Nhóm cũng cho biết thêm, nếu như họ được sử dụng một cơ sở dữ liệu có sự đồng bộ cao giữa phần lời và phần nhạc, họ thậm chí có thể tiến sâu hơn nữa trong việc phát hiện ra bài hát nào có thể gây ra những cảm nhận đa chiều từ người nghe, ví dụ một bài hát có thể vừa tiêu cực đối với người này nhưng lại là tích cực đối với người khác.

Cuối cùng, nhóm nghiên cứu tin rằng công việc này giống như một cách để nhìn sâu hơn vào mối tương quan giữa âm nhạc, lời bài hát và trạng thái của bài hát đó, cũng như khả năng ứng dụng các mô hình học sâu để sắp xếp và tìm ra những dữ liệu chưa được gắn nhãn theo quy mô lớn.

(Tổng hợp)