청각 장애인들은 일상적인 소통에서 다양한 어려움을 겪고 있습니다. 기존의 문자나 비주얼 기반 소통 도구들이 있지만, 이들 도구는 음성 소통이 가진 즉각성과 몰입감을 전달하기에는 한계가 있습니다. 특히 청각 장애인의 목소리를 직접 듣지 못한 타인은 그들의 의사소통 방식에 익숙하지 않아 의사 전달에 장애가 생기곤 합니다. 이러한 배경에서 "들리담"은 청각 장애인들이 자신만의 고유한 음성을 활용해 보다 편리하고 자연스러운 소통을 할 수 있는 방법을 제공하고자 기획되었습니다.
"들리담"은 청각 장애인을 위한 실시간 음성 통신 솔루션을 제공하는 애플리케이션입니다. 먼저 청각 장애인이 자신의 목소리를 초기에 등록하면, 들리담은 이 목소리를 학습하고 개인의 목소리 특성을 가중치로 저장합니다. 이후 청각 장애인이 채팅을 통해 의사소통을 할 때, 상대방은 실제 음성처럼 변조된 청각 장애인의 목소리를 듣게 됩니다. 이로써 청각 장애인이 보다 자연스럽고 개인화된 음성 소통을 할 수 있도록 지원하는 서비스입니다.
Login | Sign-up | Friend list | Search & Add friends | My profile |
---|---|---|---|---|
Chat list | Chat room | Setting | Edit account info | User guide |
---|---|---|---|---|
-
DliDAM/ai-server 다운로드
-
가상환경 생성 및 활성화
conda create -n tortoise python=3.8
conda activate tortoise
- main.py 실행
cd ai-server
cd tortoise
python main.py
- Tortoise-tts
- Multi-voice가 가능하고, 실제같은 prosody & intonation을 제공하는 TTS 프로그램
- Autoregressive transformer & DDPM 기반의 이미지 생성 원리를 TTS에 적용(Joining Autoregressive Decoders & DDPM)
- Autoregressive decoder: 텍스트에 따라 음성 토큰의 확률 분포 예측
- CLIP과 유사한 contrastive 모델을 사용하여 Autoregressive decoder의 ouput ranking
- DDPM: 음성 토큰을 다시 음성 spectogram으로 변환
- 한국어 Fine-tuning
- Korean Single Speaker Speech Dataset 중 임의로 1,000개 데이터 사용
- DL-Art-School를 사용하여 fine-tuning 후, HuggingFace에 fine-tuning한 모델의 가중치를 업로드하여 사용