Cara Menggunakan 'Alat Ngram Viewer' dalam Buku Google

A Ngram, yang juga dikenali sebagai N-gram adalah analisis statistik kandungan teks atau ucapan untuk mencari n (nombor) beberapa jenis item dalam teks. Ia boleh menjadi segala macam perkara, seperti fonem, awalan, frasa, atau huruf. Walaupun N-gram agak kabur di luar penyelidik, ia sebenarnya digunakan dalam pelbagai bidang, dan ia mempunyai banyak implikasi untuk orang-orang yang membuat program komputer yang memahami dan bertindak balas dengan bahasa lisan semula jadi. Itu, secara ringkas, akan menjadi minat Google dalam idea itu.

Dalam kes Google Books Ngram Viewer, teks yang akan dianalisis berasal dari sejumlah besar buku Google telah diimbas dari perpustakaan awam untuk mengisi enjin carian Buku Google mereka. Untuk Buku Google Ngram Viewer, mereka merujuk kepada teks yang akan anda cari sebagai "corpus." Koperal dalam Ngram Viewer dibahagikan dengan bahasa, walaupun anda boleh menganalisis British dan American English secara berasingan atau menggabungkannya bersama. Ia akhirnya menjadi sangat menarik untuk bertukar dari British kepada penggunaan istilah Amerika dan melihat perubahan carta.

Bagaimana Ngram berfungsi

  1. Pergi ke Google Books Ngram Viewer di books.google.com/ngrams.
  2. Item adalah sensitif kepada kes, tidak seperti carian Web Google, jadi pastikan untuk memanfaatkan kata nama yang sesuai.
  3. Taip mana-mana frasa atau frasa yang anda ingin analisa. Pastikan untuk memisahkan setiap frasa dengan koma. Google mencadangkan, "Albert Einstein, Sherlock Holmes, Frankenstein" untuk memulakan anda.
  4. Seterusnya, taip julat tarikh. Lalai adalah 1800 hingga 2000, tetapi terdapat lebih banyak buku baru-baru ini (2011 adalah yang paling baru disenaraikan di dokumentasi Google, tetapi mungkin berubah.)
  5. Pilih corpus. Anda boleh mencari teks bahasa asing atau Bahasa Inggeris, dan sebagai tambahan kepada pilihan standard, anda mungkin melihat perkara seperti "Bahasa Inggeris (2009) atau Bahasa Inggeris Amerika (2009)" di bahagian bawah. Ini adalah korpora yang lebih lama yang telah dikemas kini oleh Google, tetapi anda mungkin mempunyai beberapa sebab untuk membuat perbandingan anda terhadap set data lama. Kebanyakan pengguna boleh mengabaikannya dan memberi tumpuan kepada corpora yang paling terkini.
  6. Tetapkan tahap smoothing anda. Smoothing merujuk kepada betapa lancar graf itu pada akhirnya. Perwakilan yang paling tepat akan menjadi tahap pelepasan 0, tetapi itu mungkin sukar dibaca. Lalai ditetapkan ke 3. Dalam kebanyakan kes, anda tidak perlu menyesuaikan ini.
  1. Tekan butang Carian banyak buku . (Anda juga boleh tekan masuk pada prompt carian.)

Apakah Menunjukkan Ngram?

Google Books Ngram Viewer akan mengeluarkan grafik yang mewakili penggunaan frasa tertentu dalam buku melalui masa. Sekiranya anda telah memasukkan lebih daripada satu perkataan atau frasa, anda akan melihat baris warna untuk membezakan istilah carian yang berlainan. Ini hampir sama dengan Google Trends , hanya carian yang meliputi tempoh masa yang lebih lama.

Berikut adalah contoh kehidupan sebenar. Kami ingin tahu tentang pai cair baru-baru ini. Mereka disebut dalam Little House Laura Ingalls Wilder di siri Prairie , tetapi kami tidak pernah mendengar perkara sedemikian. Kami mula-mula menggunakan carian Web Google untuk mengetahui lebih lanjut tentang pai cuka. Ternyata, mereka dianggap sebahagian daripada masakan Amerika Selatan dan benar-benar dibuat dari cuka. Mereka mendengar kembali ke zaman apabila tidak semua orang mempunyai akses kepada hasil segar pada setiap masa sepanjang tahun. Adakah itu cerita keseluruhan?

Kami mencari Google Ngram Viewer, dan ada beberapa menyebutkan pai itu pada awal dan awal tahun 1800-an, banyak menyebut dalam tahun 1940-an, dan semakin banyak menyebut dalam masa-masa kebelakangan ini (mungkin beberapa nostalgia pie.) Nah, ada beberapa masalah dengan data pada tahap smoothing 3. Ada dataran tinggi yang disebutkan dalam tahun 1800an. Betulkah tidak ada sebilangan sebutan tentang satu kue tertentu setiap tahun selama lima tahun? Apa yang berlaku ialah kerana tidak banyak buku yang diterbitkan pada masa itu, dan kerana data kami ditetapkan untuk kelancaran, ia mengganggu gambar. Mungkin terdapat satu buku yang menyebutkan pai cuka, dan ia hanya mendapat purata untuk mengelakkan kenaikan. Dengan menetapkan smoothing kepada 0, kita dapat melihat bahawa ini adalah kes yang sama. Pusat lonjakan pada tahun 1869, dan terdapat lonjakan lain pada tahun 1897 dan 1900.

Tidak ada yang bercakap tentang cuka pai sepanjang masa? Mereka mungkin bercakap mengenai pai mereka. Terdapat kemungkinan resipi terapung di seluruh tempat. Mereka hanya tidak menulis tentang buku-buku itu, dan itu adalah sekatan pencarian Ngram ini.

Carian Advanced Ngram

Ingat bagaimana kita mengatakan bahawa Ngram boleh terdiri daripada pelbagai jenis pencarian teks yang berbeza? Google membolehkan anda untuk menggerunkan sedikit dengan Ngram Viewer juga. Jika anda ingin mencari ikan kata kerja dan bukannya kata nama ikan, anda boleh melakukannya dengan menggunakan tag. Dalam kes ini, anda akan mencari "fish_VERB"

Google menyediakan senarai lengkap arahan yang anda boleh gunakan dan dokumentasi canggih lain di laman web mereka.