Speech Synthesis adalah
produk buatan dari pembicaraan manusia. Sebuah sistem komputer yang digunakan
untuk tujuan ini disebut speech synthesizer, dan dapat diterapkan dalam
perangkat lunak atau perangkat keras. Sistem text-to-speech (TTS) mengkonversi
bahasa teks normal ke dalam pembicaraan, sistem lain membuat representasi
bahasa isyarat seperti transkripsi fonetik ke dalam pembicaraan. Speech
synthesis dapat dibuat dengan menggabungkan potongan rekaman pembicaraan yang
tersimpan dalam database. Sistem berbeda dalam ukuran dari unit pembicaraan
yang tersimpan, sebuah sistem yang menyimpan telepon atau diphones menyediakan
berbagai output terbesar, tetapi mungkin kurang jelas. Untuk domain penggunaan
khusus, penyimpanan seluruh kata atau kalimat memungkinkan untuk output
berkualitas tinggi. Atau, synthesizer dapat menggabungkan sebuah model dari
saluran vokal dan karakteristik suara manusia untuk membuat output suara
“sintetik” yang lengkap. Kualitas speech synthesizer dinilai oleh kesamaan
dengan suara manusia dan dengan kemampuannya untuk dipahami. Sebuah program
text-to-speech cerdas memungkinkan orang dengan gangguan penglihatan atau tuna
aksara untuk mendengarkan karya tulis pada komputer rumahan. Banyak sistem
operasi komputer telah menyertakan speech synthesizer sejak awal 1980-an.Sistem
ini dapat digunakan sebagai sistem komunikasi, pada sistem informasi referral,
dapat diterapkan untuk membantu orang-orang yang kehilangan kemampuan melihat
dan membaca.
Kualitas sistem speech
synthesis yang paling penting adalah kealamian dan dimengerti. “Kealamian”
menggambarkan seberapa dekat output suara seperti pembicaraan manusia,
sedangkan “dimengerti” adalah kemudahan dengan suatu output yang dimengerti.
Speech synthesizer yang ideal adalah alami dan dimengerti. Sistem speech
synthesis biasanya mencoba untuk memaksimalkan kedua karakteristik. Dua
teknologi utama untuk menghasilkan bentuk gelombang speech synthesis adalah
concatenative synthesis dan formant synthesis. Setiap teknologi memiliki
kelebihan dan kekurangan, dan maksud penggunaan dari sistem sintesis akan
menentukan pendekatan yang akan digunakan.
Ada beberapa masalah
yang terdapat pada pemaduan suara, yaitu:
- User sangat sensitif terhadap variasi dan informasi suara. Oleh sebab itu, mereka tidak dapat memberikan toleransi atas ketidaksempurnaan pemadu suara.
- Output dalam bentuk suara tidak dapat diulang atau dicari dengan mudah.
- Meningkatkan keberisikan pada lingkungan kantor atau jika menggunakan handphone, maka akan meningkatkan biaya pengeluaran.
Contoh Speech Synthesis
:
- Bagi tunanetra, pemadu suara menawarkan media komunkasi dimana mereka dapat memiliki akses yang tidak terbatas.
- Lingkungan dimana visual dan haptic skill user berfokus pada hal lain. Contohnya: sinyal bahaya pada kokpit pesawat udara.
Sejarah Speech
Synthesis
Upaya yang paling awal
untuk menghasilkan lahirnya pemandu suara, pada abad XVIII. Terlepas dari
kenyataan bahwa upaya pertama adalah
bentuk mesin mekanis, kita dapat mengatakan hari ini bahwa synthesizer sudah berkualitas tinggi.
Pada tahun 1779 di
St Petersburg, Rusia
Profesor Kratzenshtein Kristen
fisiologis menjelaskan perbedaan antara lima vokal panjang (/ A /, / e /, / i /, / o /, dan / u /) dan
membuat alat untuk menghasilkan mereka
artifisial. Tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik
Mesin Speech”. Dalam sekitar pertengahan
1800-an Charles Wheatstone dibangun terkenal
versi mesin berbicara von Kempelen’s.
Generasi dari sistem
pemaduan suara ini dapat dibagi ke dalam 3 masa, yaitu:
♦ Generasi pertama
(1962-1977). Format sintesis dari fonem adalah teknologi dominan. Teknologi ini
memanfaatkan aturan berdasarkan penguraian fonetik pada kalimat untuk kontur
frekuensi forman. Beberapa sintesis masih miskin atau kurang dalam kejelasan dan kealamiannya.
♦ Generasi kedua (1977-1992).
Metode pemadu suara adalah diphone diwakilkan
dengan parameter LPC. Hal tersebut menunujukkan bahwa kejelasan yang
baik pada pemadu suara dapat diperoleh dengan andal dari input teks dengan
menggabungkan diphone yang sesuai dengan unit. Kejelasan meningkat selama
sintesis forman, tetapi kealamian dari pemadu suara masih tetap rendah.
♦ Generasi ketiga
(1992-sekarang). Generasi ini ditandai dengan metode ‘ sintesis pemilihan unit’
yang diperkenalkan dan disempurnakan oelh Sagisaka di Labs ATR Kyoto. Hasil
dari pemandu suara pada periode ini sangat mendekati human-generated speech pada bagian kejelasan
dan kealamian,
Teknologi pemadu suara
modern melibatkan metode dan algoritma yang canggih dan rumit. alat pemadu
suara dari keluarga “Infovox” mungkin
mejadi salah satu multi bahasa TTS yang paling dikenal saat ini. Versi
komersial pertamanya, Infovox-SA 101, dikembangkan pada tahun 1982 di Institute
Teknologi Royal, Swedia dan didasarkan pada sintesis forman.
AT & T Bell
Laboratories (Lucent Technologies) juga memiliki tradisi yang sangat panjang
tentang pemandu suara (speech synthesis). TTS lengkap yang pertama
didemostrasikan di Boston pada tahun 1972 dan diliris pada tahun 1973. Hal ini
didasarkan pada model artikulatoris yang sikembangkan oleh Ceceil Coker (Klatt
1987). Pengembangan proses dari sistem penggabungan sintesis ini dimulai oleh
Joseph Olive pada pertengahan tahun 1970-an (Bell Labs 1997). Sistem ini
sekarang sudah tersedia untuk bahasa Inggris, Perancis, Spanyol, Italia,
Jerman, Rusia, Rumania, Cina, dan Jepang (Mcbius et al 1996).
Sumber :
Tidak ada komentar:
Posting Komentar