Co to jest nienormalne?
Nieprawidłowości można zidentyfikować graficznie, sprawdzając wizualnie wykres danych. Można je również zidentyfikować numerycznie, obliczając miarę odchylenia statystycznego, taką jak wynik z lub reszta standaryzowana.
Obecność nieprawidłowości w zbiorze danych może mieć wpływ na wyniki analizy statystycznej i ważne jest, aby podczas analizy danych wziąć pod uwagę ich potencjalny wpływ. W niektórych przypadkach może zaistnieć potrzeba usunięcia nieprawidłowości ze zbioru danych przed analizą, podczas gdy w innych przypadkach mogą one zostać zachowane jako cenne punkty informacyjne.
Oto kilka typowych przykładów anormalności:
* W zbiorze danych dotyczących wyników testów uczniów nienormalnie wysoki wynik może wynikać ze ściągania, podczas gdy nienormalnie niski wynik może wskazywać na ucznia, który nie był przygotowany do testu.
* W zestawie danych dotyczących sprzedaży nienormalnie wysoka sprzedaż może wynikać ze specjalnej promocji lub jednorazowej wyprzedaży, natomiast nienormalnie niska sprzedaż może wskazywać na problemy sklepu.
* W zbiorze danych medycznych nienormalnie wysoki lub niski odczyt może wskazywać na stan chorobowy wymagający dalszych badań.
Należy pamiętać, że nie wszystkie nieprawidłowości są wynikiem błędów lub nietypowych obserwacji. W niektórych przypadkach nieprawidłowości mogą być spowodowane uzasadnionymi zmianami w populacji podstawowej. Na przykład w zbiorze danych dotyczących cen akcji nienormalnie wysoka cena może wynikać z pozytywnego raportu o zarobkach, podczas gdy nienormalnie niska cena może wynikać ze złych wiadomości.
Dlatego ważne jest dokładne zbadanie nieprawidłowości przed wyciągnięciem jakichkolwiek wniosków na temat ich znaczenia.