Vietnamese Accent Recognition

Đề tài: Nhận dạng âm thanh vùng miền bằng phương pháp học sâu

Project Description

Dự án được chạy trên Google Colab, bao gồm các phần:

Đọc dữ liệu âm thanh và trích xuất đặc trưng bằng MFCC (Mel Frequency Cepstral Coefficients)
Sử dụng 2 loại mô hình để huấn luyện và dự đoán: CNN (Convolutional Neural Network) và RNN (Recurrent Neural Network)

Dữ liệu được sử dụng trong dự án có nguồn gốc từ tập dữ liệu Vietnamese Common Voice được cung cấp bởi Mozilla. Mozilla bắt đầu dự án Common Voice nhằm tạo ra một cơ sở dữ liệu miễn phí cho mọi người phát triển các phần mềm nhận dạng giọng nói. Hiện nay, Mozilla đã phát triển các tập dữ liệu (datasets) với nhiều loại ngôn ngữ, trong đó có cả tiếng Việt. Chi tiết tại: Mozilla Common Voice
Dự án sử dụng một phần của bộ dữ liệu Common Voice Corpus 9.0 được cập nhật vào ngày 27/04/2022. Dữ liệu tải về chứa các file ghi âm giọng nói của nhiều người ở nhiều độ tuổi và vùng miền khác nhau, kèm theo file excel chứa thông tin câu nói tương ứng với từng file ghi âm.

Dự án được thực hiện bởi nhóm gồm 2 thành viên: