Published on June 14, 2023

Kenali Cara Kerja Speech Recognition dan Manfaatnya di Sini!

Kemampuan AI dalam melakukan pengenalan ciri biometrik telah berkembang demikian pesat, hingga sampai pada titik teknologi ini dapat mengenali suara. Speech recognition yang dimaksud dapat mengenali suara yang mereka ‘dengar’ dan menterjemahkannya ke dalam kata-kata yang bisa dibaca..

Namun sebenarnya bagaimana cara kerja dari teknologi speech recognition ini sendiri? Apakah kecerdasan buatan yang disematkan di dalam perangkat elektronik dapat ‘mendengar’ dan ‘mengenali’ kata-kata seseorang seperti halnya pendengaran manusia bekerja?

Speech recognition sendiri adalah kemampuan sebuah program, mesin, atau teknologi, untuk mengidentifikasi kata-kata yang diucapkan oleh manusia dan mengubahnya menjadi teks yang dapat dibaca. Pada prakteknya teknologi ini juga berevolusi menjadi voice recognition, yang dapat membedakan suara satu orang dengan orang lain dan menjadi salah satu ciri biometrik yang diandalkan.

Cara Kerja dari Speech Recognition

Teknologi pengenalan ucapan secara praktis akan mengubah suara yang direkam dengan menggunakan perangkat terkait seperti mikrofon, ke dalam bahasa tertulis yang dapat dipahami oleh sistem komputer dan manusia.

Secara umum, proses atau cara kerjanya akan terjadi dalam empat poin besar.

Pertama adalah analisis audio, guna memetakan apakah suara yang direkam benar-benar berupa kata-kata yang jelas atau sekedar bunyi noise yang tidak dapat diterjemahkan ke dalam kata-kata riil
Kedua, memecah audio menjadi beberapa bagian sehingga lebih mudah ‘dicerna’ oleh sistem yang digunakan
Ketiga, digitalisasi audio ke dalam format yang dapat dibaca oleh komputer sehingga penerjemahan file audio ini dapat berjalan dengan lancar dan akurat
Keempat, penggunaan algoritma untuk mencocokkan audio dengan representasi teks yang dimiliki pada database, dan yang paling sesuai sehingga dapat ditampilkan dan dipahami oleh sistem dan manusia

Praktis teknologi speech recognition harus memiliki kemampuan untuk mengenali berbagai jenis pola bicara, gaya bicara, bahasa yang ada, dialek, aksen, serta berbagai kata umum yang ada dalam bahasa tertentu. Semakin besar perbendaharaan database sebuah sistem maka dapat dipastikan kemampuan speech recognition-nya akan semakin baik pula.

Nah, untuk memperoleh kemampuan tersebut, teknologi ini akan menggunakan dua jenis model utama. Pertama dikenal dengan metode acoustic model, yakni model yang mewakili hubungan antara unit linguistik ucapan dan sinyal audio, dan yang kedua disebut dengan language model, yakni pencocokan suara dengan urutan kata untuk membedakan antara kata-kata yang terdengar mirip, sehingga kata-kata yang disajikan sesuai dengan konteks pembicaraan.

5 Algoritma Utama dalam Teknologi Pengenalan Ucapan

Untuk algoritma yang digunakan dalam teknologi ini sendiri akan dibagi ke dalam lima jenis besar.

1. Natural Language Process

Atau dikenal dengan sebutan NLP, adalah sub-bidang AI yang fokus pada interaksi antara manusia dan mesin melalui bahasa baik dalam bentuk ucapan atau teks. NLP bukan algoritma khusus, tapi algoritma ini memudahkan dan mempercepat proses pengenalan ucapan.

2. Hidden Markov Model

Atau dikenal dengan istilah HMM. Algoritma ini dibangundi atas Markov chain model yang menetapkan bahwa probabilitas keadaan tertentu bergantung pada keadaan saat ini, bukan keadaan sebelumnya. Algoritma ini memungkinkan sistem dapat menggabungkan peristiwa tersembunyi ke dalam model probabilistik.

3. N-gram

Jenis ini adalah model bahasa atau language model paling sederhana, yang dapat memberikan probabilitas pada kalimat atau frasa tertentu. Tata bahasa dan kemungkinan urutan kata tertentu akan digunakan untuk meningkatkan pengenalan dan akurasi.

4. Neural Network

Algoritma ini banyak dimanfaatkan pada deep learning, dan dapat memproses data training dengan meniru interkonektivitas otak manusia lewat lapisan node. Neural network akan menggunakan tata bahasa, struktur, sintaksis, dan komposisi sinyal audio dan suara untuk memproses ucapan.

5. Speaker Diarization

Atau secara mudah disingkat SD, mengidentifikasi dan mengelompokkan ucapan berdasarkan identitas pembicara. Hal ini bisa membantu program membedakan individu dalam percakapan dengan baik.

Manfaat Pengenalan Ucapan dalam Bisnis dan Kehidupan

Penerapan teknologi ini sendiri cukup luas di berbagai bidang kehidupan dan bisnis. Beberapa manfaat dan contohnya bisa Anda cermati pada bagian berikut ini.

Aktivasi sistem navigasi melalui suara, hal ini diterapkan pada industri otomotif untuk menggunakan fitur hands-free, mengendalikan telepon, radio, dan GPS pada mobil
Perintah suara pada smartphone, tentu hal ini sudah sering Anda gunakan untuk berbagai keperluan, dengan memasukkan perintah suara dan smartphone akan melaksanakannya
Sektor pendidikan bahasa, seperti penerapannya pada aplikasi pembelajaran bahasa baru yang dapat memberikan nilai pada pengucapan yang dilakukan user
Layanan pelanggan dalam bisnis, mampu mengenali kata kunci yang disampaikan oleh pelanggan, dan memberikan respon tepat berdasarkan identifikasi tersebut
Keamanan, protokol keamanan yang diterapkan dapat dibuka dengan kata-kata tertentu yang diucapkan oleh seseorang. Idealnya teknologi ini juga didukung dengan voice recognition
Membantu kaum disabilitas dalam menyampaikan kebutuhan atau keinginannya, serta memberikan informasi sederhana yang penting untuk aktivitas mereka
Verifikasi identitas, semakin optimal jika dikombinasikan dengan voice recognition sehingga dapat menjadi salah satu pengamanan berbasis biometrik pada berbagai konteks

Lihat Blog