150
小时的数据不足以训练出稳定的结果,尝试加到 500
/1000
小时的数据去训练
- 当前的实现,韵母和声调放在一起组成建模单元,也增加了对数据量的需求。
cd egs/aishell1
# Those stages are very time-consuming
bash prepare.sh --stage -1 --stop-stage 3
## train
Cut statistics:
╒═══════════════════════════╤═══════════╕
│ Cuts count: │ 120098 │
├───────────────────────────┼───────────┤
│ Total duration (hh:mm:ss) │ 150:51:08 │
├───────────────────────────┼───────────┤
│ mean │ 4.5 │
├───────────────────────────┼───────────┤
│ std │ 1.4 │
├───────────────────────────┼───────────┤
│ min │ 1.2 │
├───────────────────────────┼───────────┤
│ 25% │ 3.5 │
├───────────────────────────┼───────────┤
│ 50% │ 4.3 │
├───────────────────────────┼───────────┤
│ 75% │ 5.3 │
├───────────────────────────┼───────────┤
│ 99% │ 8.5 │
├───────────────────────────┼───────────┤
│ 99.5% │ 9.1 │
├───────────────────────────┼───────────┤
│ 99.9% │ 10.5 │
├───────────────────────────┼───────────┤
│ max │ 14.5 │
├───────────────────────────┼───────────┤
│ Recordings available: │ 120098 │
├───────────────────────────┼───────────┤
│ Features available: │ 120098 │
├───────────────────────────┼───────────┤
│ Supervisions available: │ 120098 │
╘═══════════════════════════╧═══════════╛
SUPERVISION custom fields:
Speech duration statistics:
╒══════════════════════════════╤═══════════╤══════════════════════╕
│ Total speech duration │ 150:51:08 │ 100.00% of recording │
├──────────────────────────────┼───────────┼──────────────────────┤
│ Total speaking time duration │ 150:51:08 │ 100.00% of recording │
├──────────────────────────────┼───────────┼──────────────────────┤
│ Total silence duration │ 00:00:00 │ 0.00% of recording │
╘══════════════════════════════╧═══════════╧══════════════════════╛
## dev
Cut statistics:
╒═══════════════════════════╤══════════╕
│ Cuts count: │ 400 │
├───────────────────────────┼──────────┤
│ Total duration (hh:mm:ss) │ 00:28:37 │
├───────────────────────────┼──────────┤
│ mean │ 4.3 │
├───────────────────────────┼──────────┤
│ std │ 1.1 │
├───────────────────────────┼──────────┤
│ min │ 2.3 │
├───────────────────────────┼──────────┤
│ 25% │ 3.5 │
├───────────────────────────┼──────────┤
│ 50% │ 4.0 │
├───────────────────────────┼──────────┤
│ 75% │ 5.0 │
├───────────────────────────┼──────────┤
│ 99% │ 7.4 │
├───────────────────────────┼──────────┤
│ 99.5% │ 7.5 │
├───────────────────────────┼──────────┤
│ 99.9% │ 8.0 │
├───────────────────────────┼──────────┤
│ max │ 8.0 │
├───────────────────────────┼──────────┤
│ Recordings available: │ 400 │
├───────────────────────────┼──────────┤
│ Features available: │ 400 │
├───────────────────────────┼──────────┤
│ Supervisions available: │ 400 │
╘═══════════════════════════╧══════════╛
SUPERVISION custom fields:
Speech duration statistics:
╒══════════════════════════════╤══════════╤══════════════════════╕
│ Total speech duration │ 00:28:37 │ 100.00% of recording │
├──────────────────────────────┼──────────┼──────────────────────┤
│ Total speaking time duration │ 00:28:37 │ 100.00% of recording │
├──────────────────────────────┼──────────┼──────────────────────┤
│ Total silence duration │ 00:00:00 │ 0.00% of recording │
╘══════════════════════════════╧══════════╧══════════════════════╛
## test
Cut statistics:
╒═══════════════════════════╤══════════╕
│ Cuts count: │ 7176 │
├───────────────────────────┼──────────┤
│ Total duration (hh:mm:ss) │ 10:01:49 │
├───────────────────────────┼──────────┤
│ mean │ 5.0 │
├───────────────────────────┼──────────┤
│ std │ 1.6 │
├───────────────────────────┼──────────┤
│ min │ 1.9 │
├───────────────────────────┼──────────┤
│ 25% │ 3.8 │
├───────────────────────────┼──────────┤
│ 50% │ 4.7 │
├───────────────────────────┼──────────┤
│ 75% │ 5.9 │
├───────────────────────────┼──────────┤
│ 99% │ 9.9 │
├───────────────────────────┼──────────┤
│ 99.5% │ 10.7 │
├───────────────────────────┼──────────┤
│ 99.9% │ 11.9 │
├───────────────────────────┼──────────┤
│ max │ 14.7 │
├───────────────────────────┼──────────┤
│ Recordings available: │ 7176 │
├───────────────────────────┼──────────┤
│ Features available: │ 7176 │
├───────────────────────────┼──────────┤
│ Supervisions available: │ 7176 │
╘═══════════════════════════╧══════════╛
SUPERVISION custom fields:
Speech duration statistics:
╒══════════════════════════════╤══════════╤══════════════════════╕
│ Total speech duration │ 10:01:49 │ 100.00% of recording │
├──────────────────────────────┼──────────┼──────────────────────┤
│ Total speaking time duration │ 10:01:49 │ 100.00% of recording │
├──────────────────────────────┼──────────┼──────────────────────┤
│ Total silence duration │ 00:00:00 │ 0.00% of recording │
╘══════════════════════════════╧══════════╧══════════════════════╛
refer to Training