Różnica między klastrowaniem hierarchicznym a partycjonowanym

Różnica między klastrowaniem hierarchicznym a partycjonowanym
Różnica między klastrowaniem hierarchicznym a partycjonowanym

Wideo: Różnica między klastrowaniem hierarchicznym a partycjonowanym

Wideo: Różnica między klastrowaniem hierarchicznym a partycjonowanym
Wideo: 8 różnic między ludźmi z pieniędzmi i ludźmi z długami. [Biznes 2.0] 2024, Listopad
Anonim

Hierarchiczne a partycjonowanie

Clustering to technika uczenia maszynowego służąca do analizowania danych i dzielenia na grupy podobnych danych. Te grupy lub zestawy podobnych danych są znane jako klastry. Analiza klastrów analizuje algorytmy klastrowania, które mogą automatycznie identyfikować klastry. Hierarchiczny i Częściowy to dwie takie klasy algorytmów klastrowania. Hierarchiczne algorytmy grupowania dzielą dane na hierarchię klastrów. Algorytmy partycjonowania dzielą zbiór danych na wzajemnie rozłączne partycje.

Co to jest klastrowanie hierarchiczne?

Hierarchiczne algorytmy grupowania powtarzają cykl łączenia mniejszych klastrów w większe lub dzielenia większych klastrów na mniejsze. Tak czy inaczej, tworzy hierarchię klastrów zwaną dendogramem. Strategia klastrowania aglomeracyjnego wykorzystuje podejście oddolne polegające na łączeniu klastrów w większe, podczas gdy strategia klastrowania dzielącego wykorzystuje podejście odgórne polegające na podziale na mniejsze klastry. Zazwyczaj podejście zachłanne jest stosowane przy podejmowaniu decyzji, które większe/mniejsze klastry zostaną użyte do połączenia/podziału. Odległość euklidesowa, odległość Manhattanu i podobieństwo cosinusów to jedne z najczęściej używanych miar podobieństwa dla danych liczbowych. W przypadku danych nienumerycznych używane są metryki, takie jak odległość Hamminga. Należy zauważyć, że rzeczywiste obserwacje (instancje) nie są potrzebne do hierarchicznego grupowania, ponieważ wystarcza tylko macierz odległości. Dendogram to wizualna reprezentacja klastrów, która bardzo wyraźnie pokazuje hierarchię. Użytkownik może uzyskać różne klastry w zależności od poziomu, na którym dendogram jest cięty.

Co to jest klastrowanie częściowe?

Algorytmy grupowania partycyjnego generują różne partycje, a następnie oceniają je według pewnego kryterium. Są one również określane jako niehierarchiczne, ponieważ każda instancja jest umieszczona dokładnie w jednym z k wzajemnie wykluczających się klastrów. Ponieważ tylko jeden zestaw klastrów jest wynikiem typowego algorytmu grupowania partycjonującego, użytkownik musi wprowadzić żądaną liczbę klastrów (zwykle nazywaną k). Jednym z najczęściej używanych algorytmów grupowania partycjonującego jest algorytm grupowania k-średnich. Użytkownik jest zobowiązany do podania liczby klastrów (k) przed rozpoczęciem, a algorytm najpierw inicjuje centra (lub centroidy) k partycji. W skrócie, algorytm grupowania k-średnich przypisuje członków na podstawie obecnych ośrodków i ponownie szacuje ośrodki na podstawie obecnych członków. Te dwa kroki są powtarzane aż do zoptymalizowania określonej funkcji celu podobieństwa wewnątrz klastra i funkcji celu rozbieżności między klastrami. Dlatego rozsądna inicjalizacja centrów jest bardzo ważnym czynnikiem w uzyskiwaniu wyników jakościowych z algorytmów grupowania partycjonującego.

Jaka jest różnica między klastrowaniem hierarchicznym a partycjonowanym?

Klastrowanie hierarchiczne i częściowe ma kluczowe różnice w czasie działania, założeniach, parametrach wejściowych i klastrach wynikowych. Zazwyczaj klastrowanie partycjonowane jest szybsze niż klastrowanie hierarchiczne. Klastrowanie hierarchiczne wymaga jedynie miary podobieństwa, podczas gdy klasteryzacja partycyjna wymaga silniejszych założeń, takich jak liczba klastrów i początkowe centra. Klastrowanie hierarchiczne nie wymaga żadnych parametrów wejściowych, podczas gdy algorytmy klastrowania partycyjnego wymagają określonej liczby klastrów do uruchomienia. Klastrowanie hierarchiczne zwraca znacznie bardziej znaczący i subiektywny podział skupień, ale grupowanie z podziałem daje dokładnie k skupień. Hierarchiczne algorytmy grupowania są bardziej odpowiednie dla danych kategorycznych, o ile można odpowiednio zdefiniować miarę podobieństwa.

Zalecana: