Różnica między KDD a eksploracją danych

Różnica między KDD a eksploracją danych
Różnica między KDD a eksploracją danych

Wideo: Różnica między KDD a eksploracją danych

Wideo: Różnica między KDD a eksploracją danych
Wideo: Struktura biznesplanu – projekcje finansowe 2024, Lipiec
Anonim

KDD a eksploracja danych

KDD (Knowledge Discovery in Databases) to dziedzina informatyki, która obejmuje narzędzia i teorie pomagające ludziom w wydobywaniu przydatnych i wcześniej nieznanych informacji (tj. wiedzy) z dużych zbiorów danych cyfrowych. KDD składa się z kilku kroków, a jednym z nich jest Data Mining. Data Mining to zastosowanie określonego algorytmu w celu wydobycia wzorców z danych. Niemniej jednak KDD i Data Mining są używane zamiennie.

Co to jest KDD?

Jak wspomniano powyżej, KDD to dziedzina informatyki, która zajmuje się wydobywaniem nieznanych wcześniej i interesujących informacji z surowych danych. KDD to cały proces próby zrozumienia danych poprzez opracowanie odpowiednich metod lub technik. Proces ten zajmuje się mapowaniem danych niskiego poziomu na inne formy, które są bardziej zwarte, abstrakcyjne i użyteczne. Osiąga się to poprzez tworzenie krótkich raportów, modelowanie procesu generowania danych oraz opracowywanie modeli predykcyjnych, które mogą przewidywać przyszłe przypadki. Ze względu na wykładniczy wzrost danych, zwłaszcza w obszarach takich jak biznes, KDD stał się bardzo ważnym procesem przekształcania tego ogromnego bogactwa danych w inteligencję biznesową, ponieważ ręczne wyodrębnianie wzorców stało się pozornie niemożliwe w ciągu ostatnich kilku dekad. Na przykład jest obecnie używany do różnych zastosowań, takich jak analiza sieci społecznościowych, wykrywanie oszustw, nauka, inwestycje, produkcja, telekomunikacja, czyszczenie danych, sport, wyszukiwanie informacji i głównie w marketingu. KDD jest zwykle używany do odpowiadania na pytania, takie jak jakie są główne produkty, które mogą pomóc w osiągnięciu wysokiego zysku w przyszłym roku w Wal-Marcie?. Ten proces składa się z kilku etapów. Zaczyna się od zrozumienia domeny aplikacji i celu, a następnie stworzenia docelowego zestawu danych. Następnie następuje czyszczenie, wstępne przetwarzanie, redukcja i projekcja danych. Następnym krokiem jest wykorzystanie Data Mining (wyjaśnione poniżej) do identyfikacji wzorca. Wreszcie odkryta wiedza jest konsolidowana poprzez wizualizację i/lub interpretację.

Co to jest eksploracja danych?

Jak wspomniano powyżej, Data Mining to tylko krok w ramach całego procesu KDD. Istnieją dwa główne cele eksploracji danych zdefiniowane przez cel aplikacji, a mianowicie weryfikacja lub odkrycie. Weryfikacja to weryfikacja hipotezy użytkownika na temat danych, a odkrycie to automatyczne odnalezienie interesujących wzorców. Istnieją cztery główne zadania eksploracji danych: grupowanie, klasyfikacja, regresja i asocjacja (podsumowanie). Klastrowanie polega na identyfikowaniu podobnych grup na podstawie nieustrukturyzowanych danych. Klasyfikacja to nauka reguł, które można zastosować do nowych danych. Regresja to znajdowanie funkcji z minimalnym błędem w modelowaniu danych. A asocjacja szuka relacji między zmiennymi. Następnie należy wybrać konkretny algorytm eksploracji danych. W zależności od celu można wybrać różne algorytmy, takie jak regresja liniowa, regresja logistyczna, drzewa decyzyjne i Naïve Bayes. Następnie przeszukiwane są wzorce zainteresowania w jednej lub kilku formach reprezentacyjnych. Wreszcie modele są oceniane przy użyciu dokładności predykcyjnej lub zrozumiałości.

Jaka jest różnica między KDD a eksploracją danych?

Chociaż dwa terminy KDD i Data Mining są często używane zamiennie, odnoszą się do dwóch powiązanych, ale nieco odmiennych koncepcji. KDD to ogólny proces wydobywania wiedzy z danych, podczas gdy Data Mining to krok wewnątrz procesu KDD, który zajmuje się identyfikacją wzorców w danych. Innymi słowy, Data Mining to tylko zastosowanie określonego algorytmu opartego na ogólnym celu procesu KDD.

Zalecana: