From the Lukasz Stafiniak pages

Data Mining: Zadanie 2

Często obserwowanym w przyrodzie rozkładem jest rozkład normalny. Wynika to z centralnego twierdzenia granicznego, które mówi, że jest on rozkładem granicznym dla sumy wielu niezależnych składników o skończonych wariancjach. (Jednak częste są również zjawiska, w których założenie istnienia warjancji składników nie zachodzi, np. loty Leviego Wikipedia:Levy flight.)

  1. Przetestuj centralne twierdzenie graniczne dla małej (np. 5 elementowej) i większej (np. 30 elementowej) próbki sum niezależnych zmiennych branych z rozkładu jednostajnego, lub binarnego (tzn. próba z rozkładu dwumianowego).
  2. Zakładanie wszędzie normalności zmiennych losowych jest naiwne. Anegdotycznie, spotyka się artykuły przeprowadzające analizy parametrów A i B zakładające ich normalność, pomimo, że wiadomo, że A=f(B) dla nieliniowej funkcji f. W szczególności, czynniki kształtujące parametr mogą mieć wkłady proporcjonalne, a nie bezwzględne. Wtedy mamy do czynienia z rozkładem log-normalnym (Y ma rozkład log-normalny, gdy \log(Y) ma rozkład normalny; logarytm zamienia iloczyny na sumy). Sprawdź dla wybranych zmiennych z wybranych zbiorów danych dostępnych w pakiecie R, czy mają rozkład (empiryczny) bliższy rozkładowi normalnemu czy log-normalnemu. Możesz użyć qq-plotów, a możesz się wykazać używając odpowiedniego testu statystycznego. (Wybierz parametry o wartościach dodatnich!)
  3. Wygeneruj próbki (dane symulowane) z rozkładu normalnego dwóch zmiennych o zadanej średniej i macierzy kowariancji. (Patrz http://pl.wikipedia.org/wiki/Wielowymiarowy_rozk%C5%82ad_normalny#Symulacja; na skróty: funkcja “mvrnorm” biblioteka “MASS”.) Zilustruj dane na wykresie (rozproszenia) dla kilku zestawów parametrów. Poeksperymentuj z estymacją parametrów rozkładu dla prób z różnych wartości parametrów — wyciągnij wnioski.

Rozwiązania przedstaw w postaci raportu w pdf i wyślij mi e-mailem.

Dla zainteresowanych, “Using R for Introductory Statistics” ma dwa rozdziały związane z tym zadaniem: Random Data [1] i Simulations [2].

(Zadanie nie ma wersji rozszerzonej.)

Copyright © 2005–2006 the Main wiki and its authors

Links

  1. www.math.csi.cuny.edu/Statistics/R/simpleR/stat007.html
  2. www.math.csi.cuny.edu/Statistics/R/simpleR/stat008.html

Retrieved from http://ii.uni.wroc.pl/~lukstafi/pmwiki/index.php?n=DataMining.Zadanie2

Page last modified on June 20, 2008, at 01:51 PM