Często obserwowanym w przyrodzie rozkładem jest rozkład normalny. Wynika to z centralnego twierdzenia granicznego, które mówi, że jest on rozkładem granicznym dla sumy wielu niezależnych składników o skończonych wariancjach. (Jednak częste są również zjawiska, w których założenie istnienia warjancji składników nie zachodzi, np. loty Leviego Wikipedia:Levy flight.)
- Przetestuj centralne twierdzenie graniczne dla małej (np. 5 elementowej) i większej (np. 30 elementowej) próbki sum niezależnych zmiennych branych z rozkładu jednostajnego, lub binarnego (tzn. próba z rozkładu dwumianowego).
- Zakładanie wszędzie normalności zmiennych losowych jest naiwne. Anegdotycznie, spotyka się artykuły przeprowadzające analizy parametrów A i B zakładające ich normalność, pomimo, że wiadomo, że A=f(B) dla nieliniowej funkcji f. W szczególności, czynniki kształtujące parametr mogą mieć wkłady proporcjonalne, a nie bezwzględne. Wtedy mamy do czynienia z rozkładem log-normalnym (Y ma rozkład log-normalny, gdy \log(Y) ma rozkład normalny; logarytm zamienia iloczyny na sumy). Sprawdź dla wybranych zmiennych z wybranych zbiorów danych dostępnych w pakiecie R, czy mają rozkład (empiryczny) bliższy rozkładowi normalnemu czy log-normalnemu. Możesz użyć qq-plotów, a możesz się wykazać używając odpowiedniego testu statystycznego. (Wybierz parametry o wartościach dodatnich!)
- Wygeneruj próbki (dane symulowane) z rozkładu normalnego dwóch zmiennych o zadanej średniej i macierzy kowariancji. (Patrz http://pl.wikipedia.org/wiki/Wielowymiarowy_rozk%C5%82ad_normalny#Symulacja; na skróty: funkcja “mvrnorm” biblioteka “MASS”.) Zilustruj dane na wykresie (rozproszenia) dla kilku zestawów parametrów. Poeksperymentuj z estymacją parametrów rozkładu dla prób z różnych wartości parametrów — wyciągnij wnioski.
Rozwiązania przedstaw w postaci raportu w pdf i wyślij mi e-mailem.
Dla zainteresowanych, “Using R for Introductory Statistics” ma dwa rozdziały związane z tym zadaniem: Random Data i Simulations.
(Zadanie nie ma wersji rozszerzonej.)