Selasa, 06 Desember 2011

Speech recognition atau yang dikenal juga sebagai pengenalan suara otomatis bekerja dengan mengkonversi kata yang diucapkan dengan teks. Pengenalan suara adalah sebuah sistem yang dilatih untuk pengguna tertentu sehingga seseorang dapat mengakui ucapan mereka berdasarkan suara vokal mereka yang unik.

Speech recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan. Parameter yang dibandingkan ialah tingkat penekanan suara yangkemudian akan dicocokkan dengan template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan orang yang berbicara dinamakan speaker recognition.

Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan suatu pekerjaan, misalnya penekanan tombol pada telepon genggam yang dilakukan secara otomatis dengan komando suara.

Alat pengenal ucapan, yang sering disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih tergantung kepada pengeras suara. Alat ini hanya dapat mengenal kata yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang sifatnya tidak tergantung pada pengeras suara. Alat ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu, atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.

Pengenalan ucapan dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua, yaitu pengenalan pengguna (identifikasi suara berdasarkan orang yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang diucapkan).

Aplikasi speech recognition diantaranya :
- “Call home”
- “call routing”
- “domotic appliance control and content-based spoken audio search”
- entri data sederhana (misalnya memasukkan nomor kartu kredit)
- penyusunan dokumen terstruktur (misalnya sebuah laporan radiologi)
- pidato-untuk-pengolahan teks (misalnya pengolah kata atau email)
- dalam pesawat terbang cockpits ( biasanya disebut Direct Voice Input)

* Perkembangan alat pengenal ucapan

Sejak tahun 1940, perusahaan American Telephone and Telegraph Company (AT&T) sudah mulai mengembangkan suatu perangkat teknologi yang dapat mengidentifikasi kata yang diucapkan manusia. Sekitar tahun 1960-an, para peneliti dari perusahaan tersebut sudah berhasil membuat suatu perangkat yang dapat mengidentifikasi kata-kata terpisah dan pada tahun 1970-an mereka berhasil membuat perangkat yang dapat mengidentifikasi kata-kata kontinu. Alat pengenal ucapan kemudian menjadi sangat fungsional sejak tahun 1980-an dan masih dikembangkan dan terus ditingkatkan keefektifannya hingga sekarang.

* Jenis-jenis pengenalan ucapan

Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu :

1. Kata-kata yang terisolasi
Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata
2. Kata-kata yang berhubungan
Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat
3. Kata-kata yang berkelanjutan
Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
4. Kata-kata spontan
Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata
5. Verifikasi atau identifikasi suara
Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.


· Proses kerja alat pengenal ucapan

Alat pengenal ucapan memiliki empat tahapan dalam prosesnya, yaitu :

1. Tahap penerimaan masukan
Masukan berupa kata-kata yang diucapkan lewat pengeras suara.



2. Tahapekstraksi
Tahap ini adalah tahap penyimpanaan masukan yang berupa suara sekaligus pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui. Tantangan dalam model statistik ini adalah menentukan parameter-parameter tersembunyi dari parameter yang dapat diamati. Parameter-parameter yang telah kita tentukan kemudian digunakan untuk analisis yang lebih jauh pada proses pengenalan kata yang diucapkan. Berdasarkan HMM, proses pengenalan ucapan secara umum menghasilkan keluaran yang dapat dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit (karakter dalam abjad) maupun kontinu (pengukuran temperatur, alunan musik). Sinyal dapat pula bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai sinyal berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap sinyal secara benar, dapat dilakukan simulasi terhadap masukan dan pelatihan sebanyak mungkin melalui proses simulasi tersebut sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model sinyal dapat dikategorikan menjadi dua golongan, yaitu: model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah sinyal seperti: amplitudo, frekuensi, dan fase dari gelombang sinus. Model statistikal menggunakan nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Markov Tersembunyi. Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:
1. N, yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada implementasi dari model.
2. M, yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian diartikan sebagai huruf dalam kata.
3. Probabilita Perpindahan Bagian { } = ij A a
4. Probabilita Simbol Observasi pada bagian j, { } () = j Bb k
5. Inisial Distribusi Bagian i p p

Setelah memberikan nilai N, M, A, B, dan p , maka proses ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi pengenalan ucapan berdasarkan HMM :

6. Tahap ekstraksi tampilan
Penyaringan sinyal suara dan pengubahan sinyal suara analog ke digital
7. Tahap tugas pemodelan
Pembuatan suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata yang sudah berupa data digital
8. Tahap sistem pengenalan HMM
Penemuan parameter-parameter yang dapat merepresentasikan sinyal suara untuk analisis lebih lanjut.
2. Tahap pembandingan
Tahap ini merupakan tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
0. Transformasi gelombang diskrit menjadi data yang terurut
Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian rincian waktu
1. Menghitung frekuensi pada tiap elemen data yang terurut

Selanjutnya tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan biner. Data biner tersebut nantinya akan dibandingkan dengan pola data suara dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat.

4. Tahap validasi identitas pengguna
Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang diucapkan setelah menerjemahkan suara tersebut menjadi tulisan atau komando.


· Kelebihan alat pengenal ucapan

Kelebihan dari peralatan yang menggunakan teknologi ini adalah :

1. Cepat
Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer sudah memberi umpan balik atas komando kita.
2. Mudah digunakan
Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni dengan komando suara.

* Kekurangan alat pengenal ucapan

Kekurangan dari peralatan yang menggunakan teknologi ini adalah :

1. Rawan terhadap gangguan
Hal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal suara
2. Jumlah kata yang dapat dikenal terbatas
Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.



Latar Belakang Kebutuhan


Voice Recoganition pada bidang Militer seperti di AS sendiri para pejabat militer telah memakai sistem ini untuk mengenali kata / ucapan yang dihasilkan, agar bisa menghemat waktu dokter-dokter yang bertugas dilapangan. Malah di AS telah tercipta “AHLTA,” atau Angkatan Bersenjata Aplikasi Teknologi Kesehatan longitudinal, yang berfungsi sebagai alat pencatat kesehatan elektronik militer.

Dengan cara tersebut para pasukaan militer tidak perlu mengetik atau mengklik mouse setiap menitnya. Sejak program ini dijalankan AS lebih bisa menghemat waktu tanpa mengetik manual, serta diagnosis dan informasi yang menciptakan catatan yang lebih rinci.



>> Pelatihan Penerbangan
Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.

>> Helikopter
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.

Tekhnologi Komunikasi

Dibidang militer untuk menyandikan pesan-pesan panglima perang kepada pasukan yang berada digaris depan. Contohnya Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui. Tantangan dalam model statistik ini adalah menentukan parameter-parameter tersembunyi dari parameter yang dapat diamati.

Parameter-parameter yang telah kita tentukan kemudian digunakan untuk analisis yang lebih jauh pada proses pengenalan kata yang diucapkan. Berdasarkan HMM, proses pengenalan ucapan secara umum menghasilkan keluaran yang dapat dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit (karakter dalam abjad) maupun kontinu (pengukuran temperatur, alunan musik)
Secara garis besar model sinyal dapat dikategorikan menjadi dua golongan, yaitu: model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah sinyal seperti: amplitudo, frekuensi, dan fase dari gelombang sinus. Model statistikal menggunakan nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Markov Tersembunyi.

Pada bidang militer, teknologi kecerdasan buatan dapat diimplementasikan pada sistem yang mensimulasikan kondisi-kondisi perang yang mungkin akan terjadi di lapangan,mengatur strategi serta mengkalkulasi kemungkinanbeberapa strategi terhadap kondisi medan perang secarasimultan dan menampilkan hasilnya.



Algoritma Yang Digunakan

Menggunakan DTW Algorithm. Suara merambat melalu udara sebagai gelombang longitudinal dengan kecepatan yang tergantung densitas udara. Cara yang paling mudah untuk merepresentasikan suara adalah dengan grafik sinusoidal.



Grafik tersebut merepresentasikan variasi dari tekan udara tergantung waktunya.Ada tiga hal yang membentuk gelombang suara, yaitu amplitudo, frekuensi, dan fase. Amplitudo diukur menggunakan satuan decibels (DB), pengukuran dilakukan dengan mengikuti fungsi logaritma sebagai standar suara. Pengukuran amplitudo menggunakan DB sangat penting karena ini representasi langsung bagaimana suara dirasakan oleh orang. Frekuensi adalah banyaknya gelombang per detik, biasa diukur menggunakan skala Hertz (Hz). Kemudian, fase mengukur posisi dari awal gelombang sinus Untuk membuat suara menjadi kurva sinusoidal, digunakanlah teorema Fourier. Word detection.



Teknologi sekarang ini bisa mengidentifikasi secara akurat awal dan akhir satu kata diucapkan dalam audio stream, tergantung pada proses sinyal yang berbeda dengan waktu. Dengan mengevaluasi energi dan rata-rata magnitud dalam waktu yang singkat dan menghitung rata-rata zero-crossing rate. Dalam kasus ini, rasio signal-noise-nya tinggi karena mudah untuk menentukan lokasi dalam stream yang terdiri dari sinyal valid dengan analisis sampel. Dalam kondisi sebenarnya tidak lah sesederhana itu, background-noise memiliki intensitas yang signifikan dan dapat mengganggu proses isolasi kata dalam stream. Algoritma yang paling baik untuk mengisolasi kata adalah Rabiner-Lamel Algorithm.








SUMBER:

http://darkgloves.blogspot.com/2011/10/telematika.html
http://id.wikipedia.org/wiki/Pengenalan_ucapan
http://technews.tmcnet.com/smart-data-centers/topics/applications/articles/26989-us-
military-docs-praise-speech-recognition-software.htm
http://www.informatika.org
http://kyfi.wordpress.com

;;

By :
Free Blog Templates