Średnia vs mediana vs tryb
Średnia, mediana i tryb to podstawowe miary tendencji centralnej stosowane w statystyce opisowej. Różnią się one całkowicie od siebie, a przypadki, w których są używane do podsumowania danych, również są różne.
Średni
Średnia arytmetyczna to suma wartości danych podzielona przez liczbę wartości danych, tj.
[lateks]\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{x_{1}+x_{2} +x_{3}+…+x_{n}}{n}[/lateks]
Jeśli dane pochodzą z przestrzeni próbki, nazywamy ją średnią próbki ([lateks]\bar{x} [/lateks]), która jest opisową statystyką próbki. Chociaż jest to najczęściej stosowana miara opisowa dla próby, nie jest to solidna statystyka. Jest bardzo wrażliwy na wartości odstające i oscylacje.
Rozważmy na przykład średni dochód mieszkańców danego miasta. Ponieważ wszystkie wartości danych są sumowane, a następnie dzielone, dochód osoby niezwykle zamożnej znacząco wpływa na średnią. Dlatego średnie wartości nie zawsze są dobrą reprezentacją danych.
Ponadto, w przypadku sygnału przemiennego, prąd przepływający przez element okresowo zmienia się z kierunku dodatniego na kierunek ujemny i odwrotnie. Jeśli weźmiemy średni prąd przepływający przez element w jednym okresie, otrzymamy 0, co oznacza, że żaden prąd nie przepłynął przez element, co oczywiście nie jest prawdą. Dlatego też w tym przypadku średnia arytmetyczna nie jest dobrą miarą.
Średnia arytmetyczna jest dobrym wskaźnikiem, gdy dane są równomiernie rozłożone. Dla rozkładu normalnego średnia jest równa modie i medianie. Ma również najniższe reszty, biorąc pod uwagę pierwiastek błędu średniokwadratowego; dlatego jest to najlepsza miara opisowa, gdy wymagane jest reprezentowanie zbioru danych za pomocą jednej liczby.
Media
Wartości środkowego punktu danych po ułożeniu wszystkich wartości danych w porządku rosnącym są definiowane jako mediana zbioru danych. Mediana to 2. kwartyl, 5. decyl i 50. percentyl.
• Jeśli liczba obserwacji (punktów danych) jest nieparzysta, mediana jest obserwacją dokładnie w środku uporządkowanej listy.
• Jeśli liczba obserwacji (punktów danych) jest parzysta, mediana jest średnią z dwóch środkowych obserwacji w uporządkowanej liście.
Median dzieli obserwację na dwie grupy; tj. grupa (50%) wartości wyższych i grupa (50%) wartości niższych od mediany. Mediany są szczególnie używane w rozkładach skośnych i reprezentują dane znacznie lepiej niż średnia arytmetyczna.
Tryb
Mode to najczęściej występująca liczba w zestawie obserwacji. Tryb zbioru danych jest obliczany poprzez znalezienie częstotliwości każdego elementu w zbiorze.
• Jeśli żadna wartość nie występuje więcej niż raz, zestaw danych nie ma trybu.
• W przeciwnym razie każda wartość występująca z największą częstotliwością jest trybem zestawu danych.
W zestawie może istnieć więcej niż 1 tryb; w związku z tym tryb nie jest unikalną statystyką zestawu danych. W rozkładzie równomiernym istnieje jeden tryb. Tryb dyskretnego rozkładu prawdopodobieństwa to punkt, w którym funkcja masy prawdopodobieństwa osiąga najwyższy punkt. Renderując z powyższych interpretacji, możemy powiedzieć, że maksima globalne są trybami.
Rozważ zastosowanie wszystkich trzech środków do następującego zestawu danych.
DANE: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Średnia=(1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25=8,12
Media=9 (13. element)
Tryb=9 (częstotliwość 9=5)
Jaka jest różnica między średnią, medianą i trybem?
• Średnia arytmetyczna to suma wartości (obserwacji) podzielona przez liczbę obserwacji. Nie jest to solidna statystyka iw dużym stopniu zależy od natury rozkładu normalnego w rozważanym rozkładzie. Pojedyncza wartość odstająca może spowodować znaczną zmianę średniej, dając stosunkowo mylące wartości. Pojęcie można rozszerzyć na średnią geometryczną, średnią harmoniczną, średnią ważoną i tak dalej.
• Mediana to średnie wartości zbioru obserwacji, na które wartości odstające mają stosunkowo mniejszy wpływ. Może to dać dobre oszacowanie jako statystykę podsumowującą w bardzo wypaczonych przypadkach.
• Tryb to najczęstsze wartości obserwacji w zbiorze danych. Jeśli rozkład jest dodatnio skośny, tryb leży po lewej stronie mediany, a jeśli jest skośny ujemnie, tryb leży w prawo do mediany.
• Jeśli jest przekrzywiony dodatnio, średnia jest równa medianie; jeśli ujemnie skośna średnia jest na lewo od mediany.
• W rozkładzie normalnym wszystkie trzy: średnia, moda i mediana są równe.