Negeri Pengiktirafan Suara Linux

by Gary Newell

Pengenalan

Saya menghabiskan banyak masa untuk meneliti artikel dan agak kerap saya berfikir mengenai masalah untuk artikel ketika berjalan ke stesen kereta api atau ketika keluar dan sekitar secara umum.

Satu petang sambil berjalan sejauh 1.5 batu ke stesen dari kerja saya, saya fikir "tidak akan baik jika saya boleh merakamkan apa yang saya ingin katakan dan kemudian ia disalin secara automatik ke fail teks yang saya boleh edit dan format kemudian" .

Saya telah menghabiskan banyak masa untuk mencari pilihan yang berbeza untuk pengiktirafan suara dan imlak termasuk rakaman secara langsung melalui mikrofon yang menggunakan perisian imlak di Linux, merakam fail ke format MP3 atau WAV dan menukarnya melalui baris arahan, serta menggunakan Chrome dan aplikasi Android.

Artikel ini menyerlahkan penemuan saya selepas hari kerja keras.

Pilihan Linux

Cuba untuk mencari perisian pengiktirafan dan pengiktirafan suara di Linux tidak semudah yang mungkin dan pilihan yang ada tidak begitu bijak.

Halaman wikipedia ini mempunyai senarai kemungkinan pilihan termasuk CMU Sphinx, Julius dan Simon.

Saya menggunakan SparkyLinux yang berdasarkan pada Pengujian Debian pada masa ini dan saya dapat memberitahu anda bahawa satu-satunya pakej pengiktirafan suara yang terdapat di repositori ialah Sphinx.

Program-program Linux asli yang akhirnya saya cuba ialah PocketSphinx, yang saya gunakan untuk menukar fail WAV ke teks dan Freespeech-VR yang merupakan aplikasi python yang membolehkan anda merakam terus dari mikrofon.

Saya juga mencuba beberapa aplikasi Chrome termasuk VoiceNote II dan Dictanote.

Akhirnya saya mencuba aplikasi "Undangan dan E-mel" dan "Bercakap Dan Ceramah" Android Apps.

Freespeech-VR

Freespeech-VR tidak terdapat dalam repositori standard. Saya memuat turun fail dari sini.

Selepas memuat turun dan mengekstrak kandungan fail zip saya membuka terminal dan dilancarkan ke folder di mana fail tersebut diekstrak.

Saya menaip perintah berikut untuk membuka freespeech-vr.

sudo python freespeech-vr

Saya mempunyai sepasang fon kepala dengan mikrofon yang cukup baik dan loghat bahasa Inggeris yang cukup jelas.

Teks berikut muncul dalam tetingkap freespeech-vr:

Selamat datang ke anjing unit hasil Hari Ini Telah memastikan Bagaimana Mengendalikan Ujian Haruskah menguji Kapan Teks menggunakan sistem cara Ucapan Saya Yang satu adalah Hanya Dalam Harapan untuk tinggal Dan Yang Bermaksud Satu ayam emas sebagai sistem Ea itu apabila nama saya panggilan telefon seterusnya akan datang Fail ini Soon cukup kes telefon ke Hands-Space yang sphinx Pergi Itu bukan telefon akan dikongsi A terlatih dan dan alat-alat Gunakan bercakap Apabila anda selesai Katakanlah A used file Last a cerita A Dan gunakan oleh Apabila sangat bagaimana kejayaan Linux ini seperti yang anda elakkan

Saya hanya ingin mengatakan bahawa ini bukan laman web Unit Of Dogs dan tidak ada apa pun yang saya sebutkan mengenai apa-apa kaitan dengan ayam Golden. Saya sebenarnya cuba untuk menerangkan proses menggunakan perisian pengenalan suara.

Saya mencuba perisian beberapa kali termasuk padang dan kelajuan yang berbeza-beza tetapi ketepatannya kurang baik.

PocketSphinx

PocketSphinx dapat mengambil fail WAV dan menukarnya ke teks menggunakan baris arahan.

PocketSphinx boleh didapati melalui repositori Debian dan harus tersedia untuk kebanyakan pengedaran.

Isu utama yang saya dapati dengan PocketSphinx ialah anda hampir memerlukan ijazah dalam konsep pengenalan suara, fail bahasa, kamus dan bagaimana untuk melatih sistem.

Selepas memasang PocketSphinx, anda harus pergi ke laman web CMU Sphinx dan membaca sebanyak mungkin maklumat. Anda juga perlu memuat turun fail model berikut.

Model Bahasa Generik AS AS

(Jika anda bukan seorang penceramah bahasa Inggeris asli pilih model bahasa yang sesuai untuk anda).

Dokumentasi untuk PocketSphinx dan Sphinx pada umumnya sukar difahami untuk orang awam tetapi dari apa yang saya boleh buat fail kamus digunakan untuk menyediakan senarai kemungkinan perkataan dan model bahasa mempunyai senarai sebutan yang potensial.

Untuk menguji PocketSphinx Saya menggunakan rakaman suara saya sendiri, coretan dari Al Pacino dalam "The Devils Advocate" dan coretan dari "Morgan Freeman". Titik ini adalah untuk mencuba suara yang berbeza dan bagi saya tiada siapa yang boleh menceritakan kisah dengan jelas seperti Morgan Freeman dan tiada siapa yang menyampaikan garis seperti Al Pacino.

Untuk PocketSphinx untuk berfungsi ia memerlukan fail WAV dan ia perlu dalam format tertentu. Jika fail dalam format MP3 menggunakan perintah ffmpeg untuk mengubahnya menjadi format WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Untuk menjalankan PocketSphinx gunakan arahan berikut:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous mengambil fail WAV dan menukarnya kepada teks.

Dalam arahan di atas pocketsphinx diberitahu untuk menggunakan fail kamus yang dipanggil "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" dengan model bahasa "cmusphinx-5.0-en-us.lm". Fail yang ditukar ke teks dipanggil voice2.wav (yang merupakan rakaman yang saya buat dengan suara saya). Akhirnya 2> meletakkan semua output verbose yang anda tidak semestinya perlu ke dalam fail yang dipanggil voice2.log. Keputusan sebenar ujian dipaparkan dalam tetingkap terminal.

Keputusan menggunakan suara saya adalah seperti berikut:

selamat datang ke depan tentang perkara ini dan tidak ada subjek minggu mengenai perisian pengiktirafan itu dalam satu minit

Hasilnya tidak begitu mengerikan seperti dengan freespeech-vr tetapi masih tidak dapat digunakan. Saya kemudian cuba menggunakan PocketSphinx dengan Al Pacino tetapi ini tidak menghasilkan keputusan sama sekali.

Akhirnya saya cuba menggunakan suara Morgan Freeman dari filem "Bruce Almighty" dan di sini adalah hasilnya:

000000000: kita akan bersamanya
000000001: semua yang sukar ya hari yang sekarang ya ini adalah yang paling kita telah hidup saya sebahagian oleh panas
000000002: di lif yang kunci keluar dari sedikit jam besbol atau tahu apa yang perlu dilakukan dalam kehidupan
000000003: apa yang akan pulih
000000004: mereka tidak menulisnya
000000005: mereka mempunyai saya dengan betul
000000006: anda mesti menjadi peraturan
000000007: saya menjangkakan anda
000000008: dan dia belajar di sini bahawa ilustrasi adalah parti christmas pembunuh
000000009: ternyata salah satu cara untuk menulis o. keldai saya fikir beberapa orang selalu memakai satu
000000010: seperti masalah bersatu tidak akan memberikan dia yang baik saya menganggarkan mereka pada ketika itu apabila kita tidak semua yang anda fikir saya di dunia akan rumah dan saya telah melihat bahawa
000000011: seorang bapa yang memilikinya
000000012: apa yang banyak tentang ini
000000013: adakah yang diberikan
000000014: semua yang anda tidak banyak jatuh
000000015: betul-betul jatuh
000000016: baik untuk saya
000000017: ia tidak berpuas hati jika saya berfikir juga bahawa mereka akan mempunyai bahawa yang akan semua yang berkahwin di adalah tidak kita lakukan saya suka tidak seperti cara

Ujian saya tidak boleh dianggap saintifik dan pemaju PocketSphinx boleh menyatakan bahawa saya tidak menggunakan perisian dengan betul. Terdapat juga teknik yang dikenali sebagai latihan suara yang boleh digunakan untuk membuat kamus dan fail bahasa yang lebih baik.

Pendapat utama saya adalah bahawa terlalu sukar digunakan sehari-hari.

VoiceNote II

VoiceNote II adalah App Chrome yang menggunakan API pengiktirafan Google Voice.

Jika anda menggunakan pelayar Chrome atau Chromium, anda boleh memasang VoiceNote II melalui Kedai Web .

Ikon pada VoiceNote II diletakkan dalam fikiran yang pelik kerana anda perlu menyiapkan bahasa di bahagian bawah tetingkap dan butang edit juga di bahagian bawah, namun butang rekod berada di kedudukan kanan atas.

Perkara pertama yang perlu anda lakukan ialah memilih bahasa dan ini boleh dicapai dengan mengklik pada ikon dunia.

Untuk memulakan rakaman, klik pada ikon mikrofon dan mulakan bercakap ke mikrofon anda. Untuk hasil terbaik yang saya dapati bercakap dengan perlahan adalah kunci supaya perisian itu berpeluang untuk bersaing.

Hasilnya tidak bagus seperti yang dapat dilihat di bawah:

Halo dan selamat datang untuk berhubung. About.com todays articles about voice to text conversion dunelm farrell resession 2008 as conversions and it said well supported the best way i found addon text voice to show 2014debian or rpm package open it voice type to speech to text open it if you want to choose vs memilih di edinburgh jerman bahasa jerman membawa anda masa di united kingdomstart di laut microphonewhat anda selesai menulis teks anda sebagai fail teks untuk theuccess baik itu aksen bahasa Inggeris yang sangat standard dari selatan england yang terbaik untuk itu tetapi saya akan textvia ini torrentalong dengan dokumen sebenar dan anda boleh melihat kesilapan-kesilapan yang menjejaskan anda untuk mendengar rakan-rakan

Dictanote

Dictanote adalah satu lagi Aplikasi Chrome yang boleh digunakan untuk tujuan pengundian dan menyeberang sebagai lebih intuitif tetapi hasilnya tidak lebih baik daripada VoiceNote II.

Saya hanya menggunakan versi demo Dictanote yang menghalang anda daripada membuat dokumen baru tetapi ia membolehkan anda bercakap melalui teks yang sudah pun berada dalam editor. Saya dapat menguji pengiktirafan suara tetapi hasilnya tidak lebih baik daripada VoiceNote II dan jadi saya tidak mendaftar untuk versi pro.

Dictation And Mail

"Dictation And Mail" adalah Aplikasi Android yang menggunakan API pengiktirafan suara asli Google.

Keputusan dari "Dictation and Mail" jauh lebih baik dari mana-mana program lain yang cuba sampai ke tahap ini.

Halo mengalu-alukan ke Linux tentang., hari ini kita bercakap tentang menukar bunyi ke teks

Caranya dengan "Dictation and Mail" adalah untuk bercakap dengan perlahan dan sebutan dengan serta-merta dengan loghat.

Selepas anda selesai berbual, anda boleh menghantar e-mel kepada anda.

Dictation Talk And Talk

Permohonan Android lain yang saya cuba adalah "Perbualan Dan Ceramah".

Antara muka untuk aplikasi ini adalah yang terbaik dari tandan dan pengiktirafan suara itu berfungsi dengan baik. Selepas merakam imlak, saya dapat berkongsi keputusan dengan pelbagai cara termasuk melalui e-mel.

selamat datang ke linux about.com hari ini kita bercakap tentang menukar ucapan kepada teks

Seperti yang anda dapat lihat teks di atas adalah kira-kira seperti yang anda mungkin jangkakan untuk mendapatkan. Bercakap dengan perlahan adalah kunci.

Ringkasan

Native Linux mempunyai beberapa cara untuk berhubung dengan pengiktirafan Suara dan secara khusus dikte. Terdapat beberapa aplikasi yang menggunakan API Google Voice tetapi mereka belum disenaraikan dalam repositori.

Aplikasi ChromeOS sedikit lebih baik tetapi setakat ini keputusan terbaik dicapai menggunakan telefon Android saya. Mungkin telefon ini mempunyai mikrofon yang lebih baik dan oleh itu perisian pengiktirafan suara menjadi peluang penukaran yang lebih baik.

Untuk pengiktirafan suara untuk menjadi benar-benar boleh digunakan, ia perlu lebih intuitif dengan persediaan yang kurang diperlukan. Anda tidak perlu mengacaukan dengan model bahasa dan kamus untuk menjadikannya mudah difahami.

Tetapi saya menghargai bahawa keseluruhan seni pengenalan suara sangat mencabar kerana semua orang mempunyai suara yang berbeza dan terdapat begitu banyak dialek dari rantau ke rantau di satu negara yang tidak pernah bimbang tentang ratusan bahasa yang digunakan di seluruh dunia.

Oleh itu, analisis saya ialah perisian pengiktirafan suara masih berfungsi.