Skip to main content

Data Pagmimina Gamit ang K-Means Clustering

Machine Learning Basics | What Is Machine Learning? | Introduction To Machine Learning | Simplilearn (Mayo 2025)

Machine Learning Basics | What Is Machine Learning? | Introduction To Machine Learning | Simplilearn (Mayo 2025)
Anonim

Ang k- nangangahulugan ng clustering algorithm ay isang pagmimina ng data at kagamitan sa pag-aaral ng makina na ginagamit sa mga obserbasyon ng kumpol sa mga grupo ng mga kaugnay na obserbasyon nang walang anumang naunang kaalaman sa mga relasyon na iyon. Sa pamamagitan ng sampling, ang algorithm ay nagtatangka upang ipakita kung saan ang kategorya, o kumpol, ang data ay nabibilang sa, sa bilang ng mga kumpol na tinukoy ng halaga k.

Ang k- Ang ibig sabihin ng algorithm ay isa sa pinakasimpleng pamamaraan ng clustering at kadalasang ginagamit ito sa medikal na imaging, biometrics, at mga kaugnay na larangan. Ang bentahe ng k- ay nangangahulugan ng clustering na ito ay nagsasabi tungkol sa iyong data (gamit ang unsupervised form nito) sa halip na ikaw ay may upang turuan ang algorithm tungkol sa data sa simula (gamit ang pinangangasiwaang paraan ng algorithm).

Minsan tinutukoy ito bilang Lloyd's Algorithm, lalo na sa mga computer science circle dahil ang karaniwang algorithm ay unang iminungkahi ni Stuart Lloyd noong 1957. Ang terminong "k-means" ay likha noong 1967 ni James McQueen.

Kung paano ang K-Means Algorithm Function

Ang k- Ang ibig sabihin ng algorithm ay isang ebolusyonaryong algorithm na nakakuha ng pangalan nito mula sa paraan ng operasyon nito. Ang mga algorithm ay nagpapakita ng mga obserbasyon k mga grupo, kung saan k ay ibinigay bilang parameter ng pag-input. Pagkatapos nito ay nagtatalaga ng bawat pagmamasid sa mga kumpol batay sa kalapitan ng pagmamasid sa kahulugan ng kumpol. Ang ibig sabihin ng ibig sabihin ng cluster ay recomputed at ang proseso ay nagsisimula muli. Narito kung paano gumagana ang algorithm:

  1. Ang algorithm ay pumipili k puntos bilang unang mga cluster center (ang ibig sabihin nito).
  2. Ang bawat punto sa dataset ay itinalaga sa closed cluster, batay sa distansya ng Euclidean sa pagitan ng bawat punto at bawat kumpol na sentro.
  3. Ang bawat cluster center ay recomputed bilang ang average ng mga puntos sa cluster na iyon.
  4. Ulitin ang mga hakbang 2 at 3 hanggang magkatipon ang mga kumpol. Maaaring tukuyin ang pagkakaiba ng pagkakaiba-iba depende sa pagpapatupad, ngunit karaniwan ay nangangahulugan na walang mga obserbasyon baguhin ang mga kumpol kapag ang mga hakbang 2 at 3 ay paulit-ulit, o ang mga pagbabago ay hindi gumagawa ng isang materyal na pagkakaiba sa kahulugan ng mga kumpol.

Pagpili ng Bilang ng mga Klusters

Isa sa mga pangunahing disadvantages sa k- nangangahulugan ng clustering ay ang katunayan na dapat mong tukuyin ang bilang ng mga kumpol bilang isang input sa algorithm. Tulad ng idinisenyo, ang algorithm ay hindi kakayahang matukoy ang angkop na bilang ng mga kumpol at nakasalalay sa gumagamit upang makilala ito nang maaga.

Halimbawa, kung mayroon kang isang pangkat ng mga tao na dapat na clustered batay sa pagkakakilanlan ng binary na kasarian bilang lalaki o babae, tinatawagan ang k- ay nangangahulugang algorithm gamit ang input k = 3 ay puwersahin ang mga tao sa tatlong mga kumpol kung dalawa lamang, o isang input ng k = 2, ay nagbibigay ng isang mas natural na magkasya.

Katulad nito, kung ang isang grupo ng mga indibidwal ay madaling clustered batay sa estado ng bahay at tinatawag mo ang k- ay nangangahulugang algorithm gamit ang input k = 20, ang mga resulta ay maaaring masyadong pangkalahatan upang maging epektibo.

Para sa kadahilanang ito, madalas na isang magandang ideya na mag-eksperimento sa iba't ibang mga halaga ng k upang makilala ang halagang pinakamahusay na nababagay sa iyong data. Maaari mo ring hilingin na tuklasin ang paggamit ng iba pang mga algorithm sa pagmimina ng data sa iyong paghahanap para sa kaalaman sa makina.