Apakah k-bermakna Clustering?

Perlombongan data dengan algoritma k-berarti

Algoritma k- means clustering adalah perlombongan data dan alat pembelajaran mesin yang digunakan untuk pemerhatian cluster ke dalam kumpulan pemerhatian yang berkaitan tanpa pengetahuan terlebih dahulu mengenai hubungan tersebut. Dengan pensampelan, algoritma cuba untuk menunjukkan di mana kategori, atau cluster, data tergolong, dengan bilangan kluster yang ditakrifkan oleh nilai k.

Algoritma k- adalah salah satu teknik kluster paling mudah dan biasanya digunakan dalam pengimejan perubatan, biometrik, dan bidang yang berkaitan. Kelebihan k- means clustering ialah ia menceritakan tentang data anda (menggunakan bentuk tanpa pengawasannya) daripada anda harus mengarahkan algoritma mengenai data pada permulaan (menggunakan bentuk penyeliaan algoritma).

Ia kadang-kadang dirujuk sebagai Algoritma Lloyd, terutamanya dalam kalangan sains komputer kerana algoritma standard dicadangkan oleh Stuart Lloyd pada tahun 1957. Istilah "k-means" dicipta pada tahun 1967 oleh James McQueen.

Bagaimana k-bermaksud Fungsi Algoritma

Algoritma k- berarti adalah algoritma evolusi yang mendapat nama dari kaedah pengoperasiannya. Pengamatan kluster algoritma ke dalam kumpulan k , di mana k disediakan sebagai parameter input. Ia kemudian menyerahkan setiap pemerhatian kepada kluster berdasarkan jarak dekat pemerhatian dengan purata kluster. Maksud kluster kemudiannya dikitar semula dan proses bermula semula. Inilah cara algoritma berfungsi:

  1. Algoritma sewenang-wenangnya memilih k poin sebagai pusat kluster awal (cara).
  2. Setiap titik dalam dataset ditugaskan ke cluster tertutup, berdasarkan jarak Euclidean antara setiap titik dan setiap pusat cluster.
  3. Setiap pusat kluster dikira semula sebagai purata mata dalam kelompok itu.
  4. Langkah 2 dan 3 ulangi sehingga kumpulan berkumpul. Konvergensi boleh ditakrifkan dengan berlainan bergantung kepada pelaksanaannya, tetapi biasanya bererti bahawa tidak ada pengamatan mengubah kluster apabila langkah 2 dan 3 diulang, atau perubahan tidak membuat perbedaan material dalam definisi klaster.

Memilih Bilangan Kluster

Salah satu kelemahan utama untuk k- bermakna clustering adalah hakikat bahawa anda mesti menentukan bilangan kluster sebagai input kepada algoritma. Seperti yang direka, algoritma tidak dapat menentukan bilangan kluster yang sesuai dan bergantung kepada pengguna untuk mengenal pasti ini terlebih dahulu.

Sebagai contoh, jika anda mempunyai sekumpulan orang yang akan dikelompokkan berdasarkan identiti jantina binari sebagai lelaki atau perempuan, memanggil algoritma k- means menggunakan input k = 3 akan memaksa orang menjadi tiga kelompok apabila hanya dua atau input k = 2, akan memberi kesan yang lebih semula jadi.

Begitu juga, sekiranya sekumpulan individu mudah dikelompokkan berdasarkan negeri asal dan anda memanggil algoritma k- means dengan input k = 20, hasilnya mungkin terlalu umum untuk menjadi berkesan.

Atas sebab ini, sering kali idea yang baik untuk bereksperimen dengan nilai k yang berbeza untuk mengenal pasti nilai yang sesuai dengan data anda. Anda juga mungkin ingin meneroka penggunaan algoritma perlombongan data lain dalam pencarian anda untuk pengetahuan mesin yang dipelajari.