🔔🔔🔔 visit https://github.com/NTT123/vietTTS for a vietnamese TTS library (included pretrained models). 🔔🔔🔔
The text is from a collection of novels and short stories from the author "Vu Trong Phung." The text is in public domain. The audio is generated by Google Text-to-Speech offline engine on Android. The audio is NOT for commercial use.
Dataset size: 5.4G
.
Total audio duration: 35.9 hours
.
-
Sample 1:
- Audio: file1
- Text:
"Ai" đây tức là một kẻ ăn mày vậy. Anh ta chưa kịp quay đi thì đã thấy mấy con chó vàng chạy xồng xộc ra cứ nhảy xổ vào chân anh.
-
Sample 2:
- Audio: file2
- Text:
Ừ, thế mày đã nuôi được bố mẹ mày bữa nào chưa, hay xưa nay vẫn báo hại cơm cha áo mẹ mãi? Mấy hôm thấy ông đơ mặt không thèm nói, mày lại làm già à?
Get the dataset from here: link. Or, run the following commands:
wget https://huggingface.co/datasets/ntt123/viet-tts-dataset/resolve/main/viet-tts.tar.gz -O viet-tts.tar.gz
mkdir -p dataset
tar -C dataset -xzf viet-tts.tar.gz
dataset
directory structure:
dataset
├── collections.txt
├── meta_data.tsv
└── wav
├── 000000.wav
├── 000001.wav
├── 000002.wav
├── 000003.wav
...
- Number of clips: 22884 clips.
- Shortest audio clip: 0.46 seconds.
- Median clip duration: 5.46 seconds.
- Mean clip duration: 5.65 seconds.
- Longest audio clip: 15.4 seconds.
- Bệnh Lao Chữa Bằng Mồm Hay Là ... Thầy Lang Bất Hủ, 1934?
- Cạm Bẫy Người, 1933.
- Cơm Thầy Cơm Cô, 1936.
- Đời Là Một Cuộc Chiến Đấu,1939.
- Dứt Tình, 1934.
- Giông Tố, 1936.
- Gương Tống Tiền, N/A.
- Hồ Sê Líu, Hồ Líu Sê Sàng, 1936.
- Kỹ Nghệ Lấy Tây, 1934.
- Làm Đĩ, 1936.
- Lấy Nhau Vì Tình, 1937.
- Lấy Vợ Xấu, 1937.
- Lòng Tự Ái, 1937.
- Máu Mê, 1937.
- Một Cái Chết, 1931.
- Một Con Chó Hay Chim Chuột, 1937.
- Một Đồng Bạc, 1939.
- Người Có Quyền, 1937.
- Sao Mày Không Vỡ Nắp Ơi!, 1934.
- Số Đỏ, 1936.
- Sư Cụ Triết Lý, 1935.
- Trúng Số Độc Đắc, 1938.
- Tự Do, 1937.
- Từ Lý Thuyết Đến Thực Hành, N/A.
- Vỡ Đê, 1936.