Tendencja centralna a rozproszenie
W statystyce opisowej i inferencyjnej używa się kilku wskaźników do opisania zbioru danych odpowiadającego jego centralnej tendencji, rozproszeniu i skośności: trzem najważniejszym właściwościom, które określają względny kształt rozkładu zbioru danych.
Jaka jest główna tendencja?
Centralna tendencja odnosi się i lokalizuje centrum rozkładu wartości. Średnia, moda i mediana są najczęściej używanymi wskaźnikami do opisu centralnej tendencji zbioru danych. Jeśli zestaw danych jest symetryczny, to zarówno mediana, jak i średnia zestawu danych pokrywają się ze sobą.
Biorąc pod uwagę zestaw danych, średnią oblicza się, biorąc sumę wszystkich wartości danych, a następnie dzieląc ją przez liczbę danych. Na przykład waga 10 osób (w kilogramach) jest mierzona jako 70, 62, 65, 72, 80, 70, 63, 72, 77 i 79. Wtedy średnia waga dziesięciu osób (w kilogramach) może być obliczone w następujący sposób. Suma wag wynosi 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Średnia=(suma) / (liczba danych)=710 / 10=71 (w kilogramach). Rozumie się, że wartości odstające (punkty danych odbiegające od normalnego trendu) mają tendencję do wpływania na średnią. Zatem w obecności wartości odstających sam środek nie da poprawnego obrazu środka zbioru danych.
Mediana to punkt danych znaleziony dokładnie w środku zbioru danych. Jednym ze sposobów obliczenia mediany jest uporządkowanie punktów danych w porządku rosnącym, a następnie zlokalizowanie punktu danych pośrodku. Na przykład, jeśli raz zamówiony poprzedni zestaw danych wygląda tak: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Dlatego (70+72)/2=71 jest pośrodku. Z tego wynika, że mediana nie musi znajdować się w zbiorze danych. Na medianę nie ma wpływu obecność wartości odstających. W związku z tym mediana będzie służyć jako lepsza miara tendencji centralnej w obecności wartości odstających.
Tryb to najczęściej występująca wartość w zestawie danych. W poprzednim przykładzie wartości 70 i 72 występują dwukrotnie, a zatem obie są trybami. To pokazuje, że w niektórych dystrybucjach istnieje więcej niż jedna wartość modalna. Jeśli istnieje tylko jeden tryb, zestaw danych jest określany jako unimodalny, w tym przypadku zestaw danych jest bimodalny.
Co to jest dyspersja?
Rozproszenie to ilość rozproszenia danych o centrum rozkładu. Najczęściej stosowanymi miarami dyspersji są zakres i odchylenie standardowe.
Zakres to po prostu najwyższa wartość minus najniższa wartość. W poprzednim przykładzie najwyższa wartość to 80, a najniższa to 62, więc zakres to 80-62=18. Ale zakres nie zapewnia wystarczającego obrazu dyspersji.
Aby obliczyć odchylenie standardowe, najpierw obliczane są odchylenia wartości danych od średniej. Średnia kwadratowa odchyleń nazywana jest odchyleniem standardowym. W poprzednim przykładzie odpowiednie odchylenia od średniej wynoszą (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 i (79 – 71)=8. Suma kwadraty odchylenia to (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Odchylenie standardowe wynosi √(366/10)=6,05 (w kilogramach). O ile zbiór danych nie jest mocno przekrzywiony, można z tego wywnioskować, że większość danych mieści się w przedziale 71±6.05 i tak jest w rzeczywistości w tym konkretnym przykładzie.
Jaka jest różnica między tendencją centralną a rozproszeniem?
• Tendencja centralna odnosi się do i lokalizuje centrum rozkładu wartości
• Rozproszenie to ilość rozproszenia danych o środku zbioru danych.