Sunday, 2 November 2014
PENGERTIAN SPEECH RECOGNITION
Pengenalan ucapan atau pengenalan
wicara—dalam istilah bahasa Inggrisnya, automatic speech recognition (ASR)—adalah
suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk
menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu
perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata
dan mencocokkan sinyal digital tersebut
dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang
diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang
suara menjadi sekumpulan angka yang kemudian disesuaikan dengan
kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. Hasil dari
identifikasi kata yang diucapkan dapat ditampilkan dalam bentuk tulisan atau
dapat dibaca oleh perangkat teknologi sebagai sebuah komando untuk melakukan
suatu pekerjaan, misalnya penekanan tombol pada telepon
genggam yang dilakukan secara otomatis dengan komando suara.
Speech Recognition yang
juga dikenal sebagai Automatic Speech Recognition atau Computer
Speech Recognition, dapat mengkonversikan kata-kata lisan menjadi teks. Istilah
“pengenalan suara” terkadang digunakan untuk merujuk kepada sistem pengenalan
yang harus dilatih untuk pembicara tertentu, sebagai suatu kasus khusus untuk
kebanyakan pengenalan perangkat lunak desktop. Mengenali pembicara dapat
menyederhanakan tugas menerjemahkan pembicaraan.
Speech
recognition adalah solusi yang lebih luas yang mengacu pada teknologi yang
dapat mengenali pembicaraan tanpa ditargetkan pada pembicara tunggal seperti sistem call
center yang dapat mengenali suara dengan sendirinya.
Aplikasi speech recognition mencakup voice user interface seperti voice dialing, call routing, pengendali alat domotic, pencarian, memasukkan data sederhana, persiapan dokumen terstruktur, pemrosesan speech-to-text, dan pesawat.
Aplikasi speech recognition mencakup voice user interface seperti voice dialing, call routing, pengendali alat domotic, pencarian, memasukkan data sederhana, persiapan dokumen terstruktur, pemrosesan speech-to-text, dan pesawat.
Speech Recognition adalah proses
konversi sebuah sinyal akustik, yang ditangkap oleh microphone atau telepon,
untuk merangkai kata kata. Kata - kata yang dikenali bisa jadi sebagai hasil
akhir, untuk sebuah aplikasi seperti command & control, penginputan data,
dan persiapan dokumen. Speech Recognition adalah proses identifikasi suara
berdasarkan kata yang diucapkan dengan melakukan konversi sebuah sinyal
akustik, yang ditangkap oleh audio device (perangkat input suara).
Alat pengenal ucapan, yang sering
disebut dengan speech recognizer, membutuhkan sampel kata sebenarnya yang
diucapkan dari pengguna. Sampel kata akan didigitalisasi, disimpan dalam komputer, dan
kemudian digunakan sebagai basis data dalam mencocokkan kata yang diucapkan
selanjutnya. Sebagian besar alat pengenal ucapan sifatnya
masih tergantung kepada pembicara. Alat ini hanya dapat mengenal kata yang
diucapkan dari satu atau dua orang saja dan hanya bisa mengenal kata-kata
terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat jeda antar kata.
Hanya sebagian kecil dari peralatan yang menggunakan teknologi ini yang
sifatnya tidak tergantung pada pembicara. Alat ini sudah dapat mengenal kata
yang diucapkan oleh banyak orang dan juga dapat mengenal kata-kata kontinu,
atau kata-kata yang dalam penyampaiannya tidak terdapat jeda antar kata.
Pengenalan ucapan dalam
perkembangan teknologinya merupakan bagian dari pengenalan suara (proses
identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi
menjadi dua, yaitu pengenalan pembicara (identifikasi suara berdasarkan orang
yang berbicara) dan pengenalan ucapan (identifikasi suara berdasarkan kata yang
diucapkan).
Speech Recognition juga merupakan
sistem yang digunakan untuk mengenali perintah kata dari suara manusia dan kemudian diterjemahkan menjadi suatu data yang dimengerti oleh komputer. Pada saat ini, sistem ini digunakan untuk menggantikan peranan input dari keyboard dan mouse.
Keuntungan dari sistem ini adalah
pada kecepatan dan kemudahan dalam penggunaannya. Kata – kata yang ditangkap
dan dikenali bisa jadi sebagai hasil akhir, untuk sebuah aplikasi seperti
command & control, penginputan data, dan persiapan dokumen. Parameter yang
dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan
template database yang tersedia. Sedangkan sistem pengenalan suara berdasarkan
orang yang berbicara dinamakan speaker recognition. Pada makalah ini hanya akan
dibahas mengenai speech recognition karena kompleksitas algoritma yang
diimplementasikan lebih sederhana daripada speaker recognition. Algoritma yang
akan diimplementasikan pada bahasan mengenai proses speech recognition ini
adalah algoritma FFT (Fast Fourier Transform), yaitu algoritma yang cukup
efisien dalam pemrosesan sinyal digital (dalam hal ini suara) dalam bentuk
diskrit. Algoritma ini mengimplementasikan algoritma Divide and Conquer untuk
pemrosesannya. Konsep utama algoritma ini adalah mengubah sinyal suara yang
berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi
beberapa upa masalah yang lebih kecil. Kemudian, setiap upa masalah diselesaikan
dengan cara melakukan pencocokan pola digital suara.
Speech recognition atau
pengenalan pembicaraan (juga dikenal sebagai pengenalan suara otomatis atau
pengakuan komputer pidato) mengkonversi diucapkan kata-kata untuk teks. The
"pengenalan suara" istilah kadang-kadang digunakan untuk merujuk
kepada sistem pengakuan yang harus dilatih untuk kasus-speaker tertentu seperti
untuk perangkat lunak pengenal yang paling desktop.Menyadari pembicara dapat menyederhanakan
tugas menerjemahkan pidato. Pengenalan pembicaraan adalah solusi yang lebih
luas yang mengacu pada teknologi yang dapat mengenali pidato tanpa ditargetkan
pada pembicara tunggal seperti sistem call center yang dapat mengenali suara
sewenang-wenang.
Aplikasi pengenalan pembicaraan
termasuk user interface seperti suara panggilan suara (misalnya, "Call
home"), call routing (misalnya, "Saya ingin membuat collect
call"), kontrol alat domotic, pencarian (misalnya, menemukan podcast di mana
tertentu Kata-kata itu diucapkan), sederhana entri data (misalnya, memasukkan
nomor kartu kredit), persiapan dokumen terstruktur (misalnya, sebuah laporan
radiologi), pengolahan pidato-ke-teks (misalnya, kata prosesor atau email), dan
pesawat udara (biasanya disebutInput langsung suara).
Secara umum, speech recognizer
memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasil
proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara
yang akan dianalisa dengan membandingkan dengan template suara pada database
sistem. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu
berdasarkan urutannya. Pemilahan ini dilakukan agar proses analisis dapat
dilakukan secara paralel.
Speech recognition merupakan
salah satu jenis biometric recognition,yaitu proses komputer mengenali apa yang
diucapkan seseorang berdasarkan intonasi suara yang dikonversi ke dalam bentuk
digital print.
Pengenalan pola suara adalah
salah satu aplikasi yang berkembang saat ini. Sistem ini mengijinkan kita untuk
berkomunikasi antara manusia dengan memasukkan data ke komputer. Salah satu
fungsinya adalah untuk meningkatkan efisiensi industri manufaktur, mengontrol
mesin dengan berbicara pada mesin itu. Algoritma yang diimplementasikan untuk
masalah pengenalan suara ini adalah algoritma divide and conquer. Proses
awalnya adalah mengkonversi data spektrum suara ke dalam bentuk digital dan
mengibah dalam bentuk diskrit.
SEJARAH SPEECH RECOGNITION
Sejak tahun 1940, perusahaan American
Telephone and Telegraph Company (AT&T) sudah mulai mengembangkan suatu
perangkat teknologi yang dapat mengidentifikasi kata yang diucapkan manusia.
Sekitar tahun 1960-an, para peneliti dari perusahaan tersebut sudah berhasil
membuat suatu perangkat yang dapat mengidentifikasi kata-kata terpisah dan pada
tahun 1970-an mereka berhasil membuat perangkat yang dapat mengidentifikasi
kata-kata kontinu. Alat pengenal ucapan kemudian menjadi sangat fungsional
sejak tahun 1980-an dan masih dikembangkan dan terus ditingkatkan
keefektifannya hingga sekarang.
Biometrik, termasuk di dalamnya
speech recognition, secara umum digunakan untuk identifikasi dan verifikasi.
Identifikasi ialah mengenali identitas subyek, dilakukan perbandingan kecocokan
antara data biometric subyek dalam database berisi record karakter subyek.
Sedangkan verifikasi adalah menentukan apakah subyek sesuai dengan apa yang
dikatakan terhadap dirinya.
Biometrik merupakan suatu metoda
untuk mengenali manusia berdasarkan pada satu atau lebih ciri-ciri fisik atau
tingkah laku yang unik. Biometric Recognition atau biasa disebut dengan Sistem
pengenalan biometric mengacu pada identifikasi secara otomatis terhadap manusia
berdasarkan psikological atau karakteristik tingkah laku manusia. Ada beberapa
jenis teknologi biometric antara lain suara (speech recognition). Speech
recognizer yang pertama keluar di tahun 1952. Salah satu perangkat speech
recognizer adalah IBM Shoebox, yang dikeluarkan pada 1963 melalui New York
World's Fair.
Metode Hidden Markov Model mulai
diperkenalkan dan dipelajari pada akhir tahun 1960, metode yang berupa model
statistik dari rantai Markov ini semakin banyak dipakai pada tahun-tahun
terakhir terutama dalam bidang speech recognition, seperti dijelaskan oleh
Lawrence R. Rabiner dalam laporannya yang berjudul “A Tutorial on Hidden Markov
Models and Selected Applications in Speech Recognition”
Proses dalam dunia nyata secara
umum menghasilkan observable output yang dapat dikarakterisasikan sebagai
signal. Signal bisa bersifat diskrit (karakter dalam alfabet) maupun kontinu
(pengukuran temperatur, alunan musik). Signal bisa bersifat stabil (nilai
statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai signal
berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap signal secara
benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin
melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem
prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar
model signal dapat dikategorikan menjadi 2 golongan yaitu : model deterministik
dan model statistikal. Model deterministik menggunakan nilai-nilai properti
dari sebuah signal seperti :amplitudo, frekuensi, fase dari gelombang sinus.
Sedangkan model statistikal menggunakan nilai-nilai statistik dari sebuah
signal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses
Hidden Markov.
SKEMA UTAMA DAN ALGORITMA SPEECH RECOGNITION
Terdapat 4 langkah utama dalam
sistem pengenalan suara:
- Penerimaan data input
- Ekstraksi, yaitu penyimpanan data masukan sekaligus pembuatan database untuk template.
- Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
- Validasi identitas pengguna.
Secara umum, speech recognizer
memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasit
proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara
yang akan dianalisa dengan membandingkannya dengan template suara pada database
sistem.
Sebelumnya, data suara masukan
dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilahan ini
dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang
pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke
dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi
menjadi dua bagian :
- Transformasi gelombang diskrit menjadi array data.
- Untuk masing-masing elemen pada aiTay data, hitung "ketinggian" gelombang (frekuensi). Objek permasaiahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara.
Ketika mengkonversi gelombang
suara ke dalam bentuk diskrit, gelombang diperlebar dengan cara memperinci
berdasarkan waktu. Hal ini dilakukan agar proses algontma seianjutnya
(pencocokan) lebih mudah diiakukan. Namun, efek buruknya ialah array of array
data yang terbentuk akan lebih banyak.
Dari tiap elemen array data
tersebut, dikonversi ke dalam bentuk bilangan biner. Data biner tersebut yang
nantinya akan dibandingkan dengan template data suara.
Proses divide and conquer:
Proses divide and conquer:
- Pilih sebuah angkaN, dimana N merupakan bilangan bulat kelipatan 2.Bilangan ini berfungsi untuk menghitung jumlah elemen transformasi FFT.
- Bagi dua data diskrit secara (dengan menerapkan algoritma divide and conquer) menjadi data diskrit yang lebih kecii berukuran N = N,.N2.
- Objek data dimasukkan ke dalam table (sebagai elemen tabel).
- Untuk setiap eiemen data, dicocokkan dengan data pada template (pada data template juga dilakukan pemrosesan digitaiisasi menjadi data diskrit, dengan cara yang sama dengan proses digitaiisasi data masukan bam yang ingin dicocokkan).
- Setiap masalah disatukan kembali dan dianalisis secara keseluruhan, kecocokan dari segi tata bahasa dan apakah data yang diucapkan sesuai dengan kata yang tersedia pada template data.
- Verifikasi data. Jika sesuai, proses iebih lanjut, sesuai dengan aplikasi yang mengimplementasikan algoritma ini.
JENIS-JENIS SPEECH RECOGNITION
Berdasarkan kemampuan dalam
mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu :
- Kata-kata yang terisolasi : Proses pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda waktu pengucapan antar kata
- Kata-kata yang berhubungan : Proses pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan antar kata yang lebih singkat
- Kata-kata yang berkelanjutan : Proses pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
- Kata-kata spontan : Proses pengidentifikasian kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata
- Verifikasi atau identifikasi suara : Proses pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa yang berbicara.
PROSES KERJA ALAT SPEECH RECOGNITION
Alat pengenal ucapan memiliki
empat tahapan dalam prosesnya, yaitu :
- Tahap penerimaan masukan : Masukan berupa kata-kata yang diucapkan lewat pengeras suara.
- Tahap ekstraksi : Tahap ini adalah tahap penyimpanaan masukan yang berupa suara sekaligus pembuatan basis data sebagai pola. Proses ekstraksi dilakukan berdasarkan metode Model Markov Tersembunyi atau Hidden Markov Model (HMM), yang merupakan model statistik dari sebuah sistem yang diasumsikan oleh Markov sebagai suatu proses dengan parameter yang tidak diketahui. Tantangan dalam model statistik ini adalah menentukan parameter-parameter tersembunyi dari parameter yang dapat diamati. Parameter-parameter yang telah kita tentukan kemudian digunakan untuk analisis yang lebih jauh pada proses pengenalan kata yang diucapkan. Berdasarkan HMM, proses pengenalan ucapan secara umum menghasilkan keluaran yang dapat dikarakterisasikan sebagai sinyal. Sinyal dapat bersifat diskrit (karakter dalam abjad) maupun kontinu (pengukuran temperatur, alunan musik). Sinyal dapat pula bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai sinyal berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap sinyal secara benar, dapat dilakukan simulasi terhadap masukan dan pelatihan sebanyak mungkin melalui proses simulasi tersebut sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model sinyal dapat dikategorikan menjadi dua golongan, yaitu: model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah sinyal seperti: amplitudo, frekuensi, dan fase dari gelombang sinus. Model statistikal menggunakan nilai-nilai statistik dari sebuah sinyal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Markov Tersembunyi. Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:
- N, yaitu jumlah bagian dalam model. Secara umum bagian tersebut saling terhubung satu dengan yang lain, dan suatu bagian bisa mencapai semua bagian yang lain, serta sebaliknya (disebut dengan model ergodik). Namun hal tersebut tidak mutlak karena terdapat kondisi lain dimana suatu bagian hanya bisa berputar ke diri sendiri dan berpindah ke satu bagian berikutnya. Hal ini bergantung pada implementasi dari model.
- M, yaitu jumlah simbol observasi secara unik pada tiap bagiannya, misalnya: karakter dalam abjad, dimana bagian diartikan sebagai huruf dalam kata.
- Probabilita Perpindahan Bagian { } = ij A a
- Probabilita Simbol Observasi pada bagian j, { } () = j Bb k
- Inisial Distribusi Bagian i p p . Dengan memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai generator untuk menghasilkan urutan observasi. dimana tiap observasi t o adalah salah satu simbol dari V, dan T adalah jumlah observasi dalam suatu sequence.
- Setelah memberikan nilai N, M, A, B, dan p , maka proses ekstraksi dapat diurutkan. Berikut adalah tahapan ekstraksi pengenalan ucapan berdasarkan HMM :
- Tahap ekstraksi tampilan : Penyaringan sinyal suara dan pengubahan sinyal suara analog ke digital
- Tahap tugas pemodelan : Pembuatan suatu model HMM dari data-data yang berupa sampel ucapan sebuah kata yang sudah berupa data digital
- Tahap sistem pengenalan HMM : Penemuan parameter-parameter yang dapat merepresentasikan sinyal suara untuk analisis lebih lanjut.
- Tahap pembandingan : Tahap ini merupakan tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada pola. Tahap ini dimulai dengan proses konversi sinyal suara digital hasil dari proses ekstraksi ke dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan pola suara pada basis data. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel. Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
- Transformasi gelombang diskrit menjadi data yang terurut : Gelombang diskrit berbentuk masukan berukuran n yang menjadi objek yang akan dibagi pada proses konversi dengan cara pembagian rincian waktu
- Menghitung frekuensi pada tiap elemen data yang terurut
- Selanjutnya tiap elemen dari data yang terurut tersebut dikonversi ke dalam bentuk bilangan biner. Data biner tersebut nantinya akan dibandingkan dengan pola data suara dan kemudian diterjemahkan sebagai keluaran yang dapat berbentuk tulisan ataupun perintah pada perangkat.
- Tahap validasi identitas pengguna: Alat pengenal ucapan yang sudah memiliki sistem verifikasi/identifikasi suara akan melakukan identifikasi orang yang berbicara berdasarkan kata yang diucapkan setelah menerjemahkan suara tersebut menjadi tulisan atau komando.
IMPLEMENTASI SPEECH RECOGNITION
Hardware yang dibutuhkan dalam
implementasi Speech Recognition :
- Sound card : Merupakan perangkat yang ditambahkan dalam suatu Komputer yang fungsinya sebagai perangkat input dan output suara untuk mengubah sinyal elektrik, menjadi analog maupun menjadi digital.
- Microphone : Perangkat input suara yang berfungsi untuk mengubah suara yang melewati udara, air dari benda orang menjadi sinyal elektrik.
- Komputer atau Komputer Server : Dalam proses suara digital menterjemahkan gelombang suara menjadi suatu simbol biasanya menjadi suatu nomor biner yang dapat diproses lagi kemudian diidentifikasikan dan dicocokan dengan database yang berisi berkas suara agar dapat dikenali.
APLIKASI ALAT SPEECH RECOGNITION
- Bidang Komunikasi
- Komando Suara: Komando Suara adalah suatu program pada komputer yang melakukan perintah berdasarkan komando suara dari pengguna. Contohnya pada aplikasi Microsoft Voice yang berbasis bahasa Inggris. Ketika pengguna mengatakan “Mulai kalkulator” dengan intonasi dan tata bahasa yang sesuai, komputer akan segera membuka aplikasi kalkulator. Jika komando suara yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi, pengguna cukup mengatakan “Lakukan” dan komputer akan langsung beroperasi.
- Pendiktean : Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat menuliskan apa yang diucapkan oleh pengguna secara otomatis.
- Telepon : Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.
- Bidang Kesehatan
- Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk membantu para penyandang cacat dalam beraktivitas. Contohnya pada aplikasi Antarmuka Suara Pengguna atau Voice User Interface (VUI) yang menggunakan teknologi pengenal ucapan dimana pengendalian saklar lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk aplikasi-aplikasi kontrol yang lain.
- Peralatan elektronik yang menyimpan riwayat kesehatan atau Electronic Medical Records(EMR) dapat digunakan secara lebih efektif bila menggunakan teknologi speech recognition. Proses pencarian, pertanyaan dan pencarian akan lebih mudah bila menggunakan suara daripada menggunakan keyboard.
- Bidang Militer
- Pelatihan Penerbangan : Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur lalu lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC) yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat pengenal ucapan digunakan sebagai pengganti operator yang memberikan informasi kepada pilot dengan cara berdialog.
- Helikopter : Aplikasi alat pengenal ucapan pada helikopter digunakan untuk berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini sangat diperlukan pada helikopter karena ketika terbang, sangat banyak gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.
- Lain-Lain : Teknologi ini digunakan pada pengoperasian berbagai peralatan pesawat tempur seperti penentuan frekuensi radio, pengaktifan sistem autopilot, penentuan koordinat tuas kendali, parameter peluncuran senjata, pengaktifan sistem navigasi, dan pengaturan tampilan status penerbangan.
- Entertainment
- Pada beberapa games komputer,voice recognition digunakan untuk menyelesaikan misi-misi tertentu seperti pada game Tom Clancy’s End war dan LIfeline. Selain itu teknologi ini juga dapat digunakan untuk membantu proses pengetikan pada orang yang memiliki cacat pada bagian tangan.
- Beberapa software yang menggunakan sistem teknologi speech recognition antara lain Microsoft Voice Command, Nuance Voice Control, VITO Voice2Go, Speereo Voice translator dan SVOX.
Contoh Implementasi teknologi Speech Recognition :
Saat ini pada tahun 2010
Microsoft windows vista dan windows 7 , speech recognition telah disertakan
dalam system operasinya . sebagaimana fungsi dari speech recognition
menterjemahkan pengucapan kata – kata kedalam bentuk teks digital. Salah
satu implementasi speech recognition adalah pada konfrensi PBB dimana seluruh
Negara tergabung dalam keanggotaan nya , fungsi speech recognition dalam hal
ini menterjemahkan bahasa pembicara dari suatu Negara kedalam bahasa yang
dipahami pendengar . Contoh penggunaan lain speech recognition adalah Perawatan
kesehatan.
Dalam perawatan kesehatan domain,
bahkan di bangun meningkatkan teknologi pengenalan suara, transcriptionists
medis (MTs) belum menjadi usang. Layanan yang diberikan dapat didistribusikan
daripada diganti. Pengenalan pembicaraan dapat diimplementasikan di
front-end atau back-end dari proses dokumentasi medis. Front-End SR adalah
salah satu alat untuk mengidentifikasi kata-kata yang ucapkan dan ditampilkan
tepat setelah mereka berbicara Back-End SR atau SR tangguhan adalah di mana
penyedia menentukan menjadi sebuah sistem dikte digital, dan suara yang
diarahkan melalui pidato-mesin pengakuan dan draft dokumen diakui dirutekan
bersama dengan file suara yang asli ke MT / editor, yang mengedit draft dan
memfinalisasi laporan. Ditangguhkan SR sedang banyak digunakan dalam industri
saat ini.
Banyak aplikasi Electronic
Medical Records (EMR) dapat menjadi lebih efektif dan dapat dilakukan lebih
mudah bila digunakan dalam hubungannya dengan pengenalan-mesin bicara. Pencarian,
query, dan pengisian formulir semua bisa lebih cepat untuk melakukan dengan
suara dibandingkan dengan menggunakan keyboard.
Kelebihan
Kelebihan dari peralatan yang menggunakan
teknologi ini adalah :
- Cepat
- Teknologi ini mempercepat transmisi informasi dan umpan balik dari transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah melalui suara, komputer sudah memberi umpan balik atas komando kita.
- Mudah digunakan
- Kemudahan teknologi ini juga dapat dilihat dalam aplikasi komando suara. Komando yang biasanya kita masukkan ke dalam komputer dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya kita lakukan tanpa perangkat keras, yakni dengan komando suara.
Kekurangan
Kekurangan dari peralatan yang
menggunakan teknologi ini adalah :
- Rawan terhadap gangguan
- Hal ini disebabkan oleh proses sinyal suara yang masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara mempunyai komponen frekuensi yang sama banyaknya dengan komponen frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal suara
- Jumlah kata yang dapat dikenal terbatas
- Hal ini disebabkan pengenal ucapan bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.
Kesimpulan:
Suatu pengembangan sistem yang
memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Alat
pengenal ucapan atau yang sering disebut dengan Speech Recognizer, membutuhkan
sampel kata sebenarnya yang diucapkan dari pengguna. Penggunaan speech recognicition telah berkembang di berbagai sistem device seperti pada OS Windows dengan Speech Recognition, smartphone Android, dan yang paling terkenal adalah aplikasi Siri pada iPhone.
Sumber:
Subscribe to:
Post Comments
(Atom)
BLOG ARCHIVE
-
▼
2014
(51)
-
▼
November
(11)
- E-GOVERNMENT (PENGERTIAN, MANFAAT, MODEL, KEUNTUNG...
- 3D Printing : Manfaat, Kelebihan dan Kekurangan
- APA ITU 3D PRINTING?
- Sekilas Tentang Halloween
- Teknologi Canggih Oculus Rift
- Aplikasi SIRI : Ulasan, Cara Setting, Kelebihan da...
- SPEECH SYNTHESIS
- SPEECH RECOGNITION
- BROWSING AUDIO DATA
- Computer Vision
- Tangible User Interface (TUI)
-
▼
November
(11)
CLOCK
MY PROFILE
Powered by Blogger.
bisa bantusaya menerangkan tentang ASR ?? saya akan memberikanbayaran yang setimpal
ReplyDeletejuka berkenan hub saya (hasnoy@gmail.com)