Apa yang Anda Perlu Tahu Mengenai Penapisan Spam Bayesian

by Heinz Tschabitscher

Ketahui bagaimana statistik membantu menyimpan peti masuk anda

Penapis spam Bayesian mengira kebarangkalian mesej menjadi spam berdasarkan kandungannya. Tidak seperti penapis berasaskan kandungan yang mudah, penapisan spam Bayesian belajar dari spam dan dari mel yang baik, menghasilkan pendekatan anti-spam yang sangat mantap, menyesuaikan diri dan efisien yang, paling penting, tidak memberikan sebarang positif palsu.

Bagaimana Anda Mengenali E-mel Junk?

Fikirkan tentang bagaimana anda mengesan spam . Sekilas pandang sering cukup. Anda tahu apa jenis spam, dan anda tahu apa yang kelihatan seperti surat yang baik.

Kebarangkalian spam yang kelihatan seperti mel baik adalah sekitar ... sifar.

Penapis Berdasarkan Kandungan Penapis Tidak Adaptasikan

Adakah ia tidak bagus jika penapis spam automatik berfungsi seperti itu juga?

Menapis penapis spam berasaskan kandungan cuba cuma itu. Mereka mencari kata-kata dan ciri-ciri lain yang tipikal spam. Setiap elemen ciri ditugaskan skor, dan skor spam untuk keseluruhan mesej dikira dari skor individu. Beberapa penapis pemarkahan juga mencari ciri-ciri mel yang sah, menurunkan skor terakhir mesej.

Pendekatan penapis markah tidak berfungsi, tetapi ia juga mempunyai beberapa kekurangan:

Senarai ciri-ciri dibina dari spam (dan mel baik) yang tersedia kepada jurutera penuras. Untuk mendapatkan pemahaman yang baik dari spam biasa yang mungkin diperoleh orang, surat mesti dikumpulkan di beratus-ratus alamat e-mel. Ini melemahkan kecekapan penapis, terutamanya kerana ciri-ciri mel baik akan berbeza bagi setiap orang , tetapi ini tidak diambil kira.
Ciri-ciri untuk mencari adalah lebih kurang set batu . Sekiranya spammer berusaha untuk menyesuaikan diri (dan menjadikan spam mereka kelihatan seperti surat yang baik kepada penapis), ciri penapisan perlu ditapis secara manual - usaha yang lebih besar.
Skor yang diberikan kepada setiap perkataan mungkin berdasarkan anggaran yang baik, tetapi masih sewenang-wenangnya. Dan seperti senarai ciri-ciri, ia tidak menyesuaikan diri dengan perubahan dunia spam secara umum atau kepada keperluan pengguna individu.

Penapis Spam Bayesian tweak Sendiri, Mendapatkan Lebih Baik dan Lebih Baik

Penapis spam Bayesian adalah sejenis penapis berdasarkan penapis kandungan. Pendekatan mereka tidak menimbulkan masalah penapis spam yang mudah, walau bagaimanapun, dan ia sangat radikal. Oleh kerana kelemahan pemarkahan skor adalah dalam senarai ciri-ciri dan markah yang dibuat secara manual, senarai ini dihapuskan.

Sebaliknya, penapis spam Bayesian membina senarai mereka sendiri. Idealnya, anda bermula dengan sekumpulan (besar) e-mel yang anda telah diklasifikasikan sebagai spam, dan sekumpulan surat yang lain. Penapis melihat kedua-duanya dan menganalisis mel yang sah serta spam untuk mengira kebarangkalian pelbagai ciri yang muncul dalam spam, dan dalam mel yang baik.

Bagaimana Penapis Spam Bayesian Memeriksa E-mel

Ciri-ciri penapis spam Bayesian boleh dilihat boleh:

kata-kata dalam tubuh mesej, sudah tentu, dan
pengetua (penghantar dan laluan mesej , sebagai contoh!), tetapi juga
aspek lain seperti kod HTML / CSS (seperti warna dan pemformatan lain), atau bahkan
pasangan kata, frasa dan
maklumat meta (di mana frasa tertentu muncul, sebagai contoh).

Sekiranya perkataan, "Cartesian" sebagai contoh, tidak muncul dalam spam tetapi sering dalam e-mel yang sah yang anda terima, kebarangkalian bahawa "Cartesian" menunjukkan spam adalah hampir sifar. "Toner", sebaliknya, muncul semata-mata, dan sering, dalam spam. "Toner" mempunyai kebarangkalian yang sangat tinggi dijumpai dalam spam, tidak lebih dari 1 (100%).

Apabila mesej baru tiba, ia dianalisis oleh penapis spam Bayesian, dan kebarangkalian mesej lengkap yang spam dikira menggunakan ciri-ciri individu.

Anggapkan mesej mengandungi kedua-dua "Cartesian" dan "toner". Daripada kata-kata ini sahaja, belum jelas sama ada kami mempunyai spam atau mel legit. Ciri-ciri lain akan (mudah-mudahan dan paling mungkin) menunjukkan kebarangkalian yang membolehkan penapis mengklasifikasikan mesej sebagai spam atau mel baik.

Penapis Spam Bayesian Dapat Belajar Secara Automatik

Sekarang kita mempunyai klasifikasi, mesej itu boleh digunakan untuk melatih penapis itu lebih jauh lagi. Dalam kes ini, kebarangkalian "Cartesian" menunjukkan mel baik diturunkan (jika mesej yang mengandungi kedua-dua "Cartesian" dan "toner" didapati spam), atau kebarangkalian "toner" yang menunjukkan spam mesti dipertimbangkan semula.

Menggunakan teknik auto-adaptif ini, penapis Bayesian boleh belajar dari kedua-dua mereka sendiri dan keputusan pengguna (jika dia secara manual membetulkan salah faham oleh penapis). Kesesuaian penapisan Bayesian juga memastikan mereka paling berkesan untuk pengguna e-mel individu. Walaupun kebanyakan spam orang mungkin mempunyai ciri-ciri yang sama, mel yang sah secara tradisinya berbeza untuk semua orang.

Bagaimana Spammer Dapat Penapis Bayesian Terlalu?

Ciri-ciri mel yang sah sama pentingnya dengan proses penapisan spam Bayesian sebagai spam. Sekiranya penapis dilatih khusus untuk setiap pengguna, spammer akan mempunyai masa yang lebih keras untuk bekerja di sekitar penapis spam semua orang (atau kebanyakan orang), dan penapis boleh menyesuaikan diri dengan hampir semua spammer cuba.

Spammers hanya akan melewati penapis Bayesian terlatih jika mereka membuat mesej spam mereka kelihatan seperti biasa e-mel semua orang boleh mendapatkan.

Spammers biasanya tidak menghantar emel biasa seperti itu. Marilah kita menganggap ini kerana e-mel ini tidak berfungsi sebagai e-mel sampah. Oleh itu, kemungkinan mereka tidak akan melakukannya apabila e-mel biasa dan membosankan adalah satu-satunya cara untuk menjadikannya penapis spam yang lalu.

Sekiranya spammer bertukar kepada kebanyakan e-mel yang biasa, kami akan melihat lebih banyak spam di dalam Peti Masuk kami sekali lagi, dan e-mel mungkin menjadi mengecewakan kerana pada hari pra-Bayesian (atau lebih buruk lagi). Ia juga akan merosakkan pasaran untuk kebanyakan jenis spam, dan, oleh itu, tidak akan bertahan lama.

Penunjuk Kuat Bolehkah Penapis Spam Bayesian & # 39; s Achilles & # 39; Tumit

Satu pengecualian boleh dilihat untuk spammer untuk berfungsi melalui penapis Bayesian walaupun dengan kandungan biasa mereka. Ia adalah seperti dalam statistik Bayesian bahawa satu perkataan atau ciri yang sering muncul dalam mel baik boleh menjadi sangat penting untuk mengubah sebarang mesej daripada kelihatan seperti spam untuk dinilai sebagai ham oleh penapis.

Sekiranya spammer mencari jalan untuk menentukan kata-kata selamat dengan kata-kata api anda-dengan menggunakan resit pulangan HTML untuk melihat mesej mana yang anda buka, sebagai contoh-, mereka boleh memasukkan salah satu daripada mereka dalam surat sampah dan mencapai anda walaupun melalui e- penapis Bayesian yang terlatih.

John Graham-Cumming telah mencuba ini dengan membiarkan dua penapis Bayesian berfungsi antara satu sama lain, "yang buruk" yang menyesuaikan dengan mana mesej didapati untuk mendapatkan penapis "baik". Dia mengatakan ia berfungsi, walaupun prosesnya memakan masa dan kompleks. Kami tidak fikir kita akan melihat banyak kejadian ini, sekurang-kurangnya tidak secara besar-besaran, dan tidak disesuaikan dengan ciri-ciri emel individu. Spammers boleh (cuba) memikirkan beberapa kata kunci untuk organisasi (sesuatu seperti "Almaden" untuk sesetengah orang di IBM mungkin?) Sebaliknya.

Biasanya, spam akan sentiasa (ketara) berbeza dari mel biasa atau tidak akan menjadi spam, walaupun.

Garis Bawah: Kekuatan Penyaringan Bayesian Dapat Kekurangannya

Penapis spam Bayesian adalah penapis berasaskan kandungan yang:

secara khusus dilatih untuk mengenali spam pengguna e-mel individu dan mel yang baik , menjadikannya sangat berkesan dan sukar untuk menyesuaikan diri dengan untuk spammer.
boleh secara berterusan dan tanpa usaha atau analisis manual beradaptasi dengan helah terbaru spammer.
mengambil akaun baik pengguna individu dan mempunyai kadar palsu yang sangat rendah .
Malangnya, jika ini menyebabkan kepercayaan buta terhadap penapis anti-spam Bayesian, ia menyebabkan kesilapan kadang - kadang lebih serius . Kes yang berlawanan dengan negatif palsu (spam yang kelihatan seperti surat biasa) berpotensi mengganggu dan menggagalkan pengguna.