Tuesday, July 31, 2012

Speech Synthesis

  1. PENGERTIAN
Speech synthesis adalah hasil kecerdasan buatan yang merupakan transformasi dari teks ke arah suara (speech). Transformasi ini mengkonversi teks ke pemadu suara (speech synthesis) yang sebisa mungkin dibuat menyerupai suara nyata, disesuaikan dengan aturan - aturan pengucapan bahasa. 

TTS (text to speech) dimaksudkan untuk membaca teks elektronik dalam bentuk buku, dan juga untuk menyuarakan teks dengan menggunakan pemaduan suara. Sistem ini dapat digunakan sebagai sistem komunikasi, pada sistem informasi referral, dapat diterapkan untuk membantu orang-orang yang kehilangan kemampuan melihat dan membaca.


  1. SEJARAH
Pada abad XVIII, synthesizer hanya sebuah mesin mekanis biasa. Lalu pada tahun 1779 di St Petersburg, Rusia, Profesor Kratzenshtein Kristen,  fisiologis, menjelaskan perbedaan antara lima vokal panjang  (/ A /, / e /, / i /, / o /, dan / u /) dan membuat alat untuk menghasilkannya secara artifisial. 

Kemudian tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan “Akustik-Mekanik Mesin Speech”. Sekitar pertengahan 1800-an Charles Wheatstone mengenalkannya sebagai mesin berbicara von Kempelen’s. Teknologi pemadu suara modern sudah melibatkan metode dan algoritma yang canggih dan rumit. 

Alat pemadu suara  dari keluarga “Infovox” mungkin mejadi salah satu multi bahasa TTS yang paling dikenal saat ini. Versi komersial pertamanya, Infovox-SA 101, dikembangkan pada tahun 1982 di Institute Teknologi Royal, Swedia dan didasarkan pada sintesis forman.


  1. JENIS TEKNOLOGI HARDWARE
TST terdiri dari dua bagian, yaitu front-end dan back-end. Front-end memiliki dua tugas utama. Pertama, mengubah teks mentah berisi simbol seperti angka dan singkatan menjadi setara dengan kata-kata tertulis. Proses ini sering disebut normalisasi teks, pra-pengolahan, atau tokenization.  

Front-end kemudian menetapkan transkripsi fonetik untuk setiap kata, dan membagi dan menandai teks ke prosodic unit seperti frase dan kalimat. Proses transkripsi fonetik untuk menetapkan kata-kata ini disebut teks-ke-fonem atau grafem-ke-fonem konversi. 

Fonetis transkripsi dan informasi ilmu persajakan bersama-sama membentuk representasi simbolik yang linguistik output dengan front-end. Back-end sering disebut sebagai synthesizer, yakni mengubah representasi linguistik simbolik menjadi suara.


  1. PENERAPAN
Speech synthesis sekarang umum digunakan untuk:
  • Orang-orang dengan disleksia dan kesulitan membaca.
  • Tunanetra, sebagai media komunkasi dimana mereka dapat memiliki akses yang tidak terbatas.
  • Sinyal bahaya pada kokpit pesawat udara.
  • Aplikasi sintesis pidato dan gadget pada bahasa alat belajar.
  • Produksi hiburan seperti game, anime dan yang sejenis, dan banyak digunakan dalam produk telekomunikasi juga.


  1. SUMBER