Klasifikasi dalam Perlombongan Data

Pengelasan adalah teknik perlombongan data yang menyerahkan kategori kepada kumpulan data untuk membantu ramalan dan analisa yang lebih tepat. Juga dipanggil kadang-kadang dipanggil Pohon Keputusan , klasifikasi adalah salah satu daripada beberapa kaedah yang bertujuan untuk membuat analisis dataset yang sangat besar yang efektif.

Mengapa Pengkelasan?

Pangkalan data yang sangat besar menjadi norma dalam dunia "data besar" hari ini. Bayangkan pangkalan data dengan banyak terabyte data -a terabyte adalah satu trilion bait data.

Facebook sahaja mencecah 600 terabyte data baru setiap hari (sehingga 2014, kali terakhir ia melaporkan spesifikasi ini). Cabaran utama data besar adalah bagaimana untuk memahaminya.

Dan jumlahnya bukan satu-satunya masalah: data besar juga cenderung beragam, tidak terstruktur dan berubah cepat. Pertimbangkan data audio dan video, jawatan media sosial, data 3D atau data geospatial. Data jenis ini tidak mudah dikategorikan atau teratur.

Untuk memenuhi cabaran ini, pelbagai kaedah automatik untuk mengekstrak maklumat berguna telah dikembangkan, di antaranya klasifikasi .

Bagaimana Klasifikasi berfungsi

Sekiranya bahaya bergerak terlalu jauh ke dalam teknologi, mari bincangkan bagaimana klasifikasi berfungsi. Matlamatnya adalah untuk mewujudkan satu set peraturan klasifikasi yang akan menjawab soalan, membuat keputusan, atau meramalkan tingkah laku. Untuk memulakan, satu set data latihan dibangunkan yang mengandungi set ciri-ciri tertentu serta hasil yang mungkin.

Tugas dari algoritma klasifikasi adalah untuk mengetahui bagaimana set atribut tersebut mencapai kesimpulannya.

Senario : Mungkin syarikat kad kredit cuba menentukan prospek mana yang patut menerima tawaran kad kredit.

Ini mungkin satu set data latihan:

Data Latihan
Nama Umur Jantina Pendapatan tahunan Tawaran Kad Kredit
John Doe 25 M $ 39,500 Tidak
Jane Doe 56 F $ 125,000 Ya

Lajur "ramalan" Umur , Jantina , dan Pendapatan Tahunan menentukan nilai "sifat peramal" Tawaran Kad Kredit . Dalam set latihan, atribut ramalan diketahui. Algoritma pengelasan kemudiannya cuba untuk menentukan bagaimana nilai sifat peramal dicapai: apakah hubungan antara peramal dan keputusan? Ia akan membangunkan satu set peraturan ramalan, biasanya suatu pernyataan IF / THEN, contohnya:

JIKA (Umur> 18 ATAU Umur <75) DAN Pendapatan Tahunan> 40,000 THEN Tawaran Kad Kredit = ya

Jelas sekali, ini adalah contoh yang mudah, dan algoritma memerlukan persampelan data yang jauh lebih besar daripada dua rekod yang ditunjukkan di sini. Selanjutnya, peraturan ramalan mungkin jauh lebih kompleks, termasuk sub-peraturan untuk menangkap butiran atribut.

Seterusnya, algoritma diberikan "ramalan" data untuk menganalisis, tetapi set ini tidak mempunyai atribut ramalan (atau keputusan):

Data Predictor
Nama Umur Jantina Pendapatan tahunan Tawaran Kad Kredit
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Data ramalan ini membantu menganggarkan ketepatan peraturan ramalan, dan peraturan kemudian tweak sehingga pembangun mempertimbangkan ramalan yang berkesan dan berguna.

Contoh-contoh Pengelasan Hari ke Hari

Klasifikasi, dan teknik perlombongan data lain, berada di belakang banyak pengalaman sehari-hari kami sebagai pengguna.

Ramalan cuaca mungkin menggunakan klasifikasi untuk melaporkan sama ada hari akan menjadi hujan, cerah atau mendung. Profesi perubatan mungkin menganalisis keadaan kesihatan untuk meramalkan hasil perubatan. Jenis kaedah klasifikasi, Naive Bayesian, menggunakan kemungkinan bersyarat untuk mengkategorikan e-mel spam. Dari pengesanan penipuan kepada tawaran produk, klasifikasi berada di belakang tabir setiap hari menganalisis data dan menghasilkan ramalan.