Eksploracja danych a magazynowanie danych
Eksploracja danych i hurtownia danych to bardzo wydajne i popularne techniki analizy danych. Użytkownicy skłonni do statystyk korzystają z Data Mining. Wykorzystują modele statystyczne do wyszukiwania ukrytych wzorców w danych. Eksperci danych są zainteresowani znalezieniem użytecznych relacji między różnymi elementami danych, co jest ostatecznie opłacalne dla firm. Ale z drugiej strony eksperci ds. danych, którzy mogą bezpośrednio analizować wymiary firmy, zwykle korzystają z hurtowni danych.
Eksploracja danych jest również znana jako odkrywanie wiedzy w danych (KDD). Jak wspomniano powyżej, jest to dziedzina informatyki, która zajmuje się wydobywaniem nieznanych wcześniej i interesujących informacji z surowych danych. Ze względu na wykładniczy wzrost danych, zwłaszcza w obszarach takich jak biznes, eksploracja danych stała się bardzo ważnym narzędziem do przekształcania tego ogromnego bogactwa danych w inteligencję biznesową, ponieważ ręczne wyodrębnianie wzorców stało się pozornie niemożliwe w ciągu ostatnich kilku dekad. Na przykład jest obecnie używany do różnych zastosowań, takich jak analiza sieci społecznościowych, wykrywanie oszustw i marketing. Eksploracja danych zwykle zajmuje się następującymi czterema zadaniami: grupowaniem, klasyfikacją, regresją i asocjacją. Klastrowanie polega na identyfikowaniu podobnych grup na podstawie nieustrukturyzowanych danych. Klasyfikacja to zasady uczenia się, które można zastosować do nowych danych i zazwyczaj obejmuje następujące etapy: wstępne przetwarzanie danych, projektowanie modelowania, uczenie się/wybór funkcji oraz ocena/walidacja. Regresja to znajdowanie funkcji z minimalnym błędem w modelowaniu danych. A asocjacja szuka relacji między zmiennymi. Eksploracja danych jest zwykle wykorzystywana do odpowiadania na pytania, takie jak jakie są główne produkty, które mogą pomóc w osiągnięciu wysokiego zysku w przyszłym roku w Wal-Marcie?
Jak wspomniano powyżej, hurtownia danych jest również wykorzystywana do analizy danych, ale przez różne zestawy użytkowników i nieco inny cel. Na przykład, jeśli chodzi o sektor detaliczny, użytkownicy hurtowni danych są bardziej zainteresowani tym, jakie rodzaje zakupów są popularne wśród klientów, więc wyniki analizy mogą pomóc klientowi poprzez poprawę doświadczenia klienta. Jednak eksploratorzy danych najpierw wymyślają hipotezę, na przykład, którzy klienci kupują określony rodzaj produktu i analizują dane, aby przetestować hipotezę. Magazynowanie danych może być prowadzone przez dużego detalistę, który początkowo zaopatruje swoje sklepy w produkty o tych samych rozmiarach, aby później dowiedzieć się, że sklepy w Nowym Jorku sprzedają mniejsze zapasy znacznie szybciej niż w sklepach w Chicago. Tak więc, patrząc na ten wynik, sprzedawca detaliczny może zaopatrzyć sklep w Nowym Jorku w mniejszych rozmiarach w porównaniu do sklepów w Chicago.
Więc, jak widać wyraźnie, te dwa rodzaje analizy wydają się mieć tę samą naturę gołym okiem. Obaj obawiają się zwiększania zysków w oparciu o dane historyczne. Ale oczywiście istnieją kluczowe różnice. Mówiąc prościej, Data Mining i Data Warehousing są przeznaczone do dostarczania różnych rodzajów analiz, ale zdecydowanie dla różnych typów użytkowników. Innymi słowy, Data Mining szuka korelacji, wzorców wspierających hipotezę statystyczną. Ale hurtownia danych odpowiada na stosunkowo szersze pytanie i od tego momentu dzieli dane, aby rozpoznać sposoby poprawy w przyszłości.