Seminarium Instytutu
W poniedziałek 22 stycznia o godz. 12:15 w sali 3/40 dr Marek Karwański wygłosi referat „Elementy metodologii wnioskowania w statystyce i analizie danych”.
Streszczenie
Podstawowym produktem badania jest jedna lub więcej miar wielkości efektu, a nie wartości p. ∼ Jacob Cohen (1990)
„Więc co to znaczy?”
Jest to pytanie, którego obawia się każdy uczony. W tym przypadku nastąpiło to pod koniec doktoratu przy prezentacji propozycji. Doktorant wykonał przyzwoitą pracę, opisując planowany projekt, a pierwsze pytania panelu potwierdziły jego znajomość literatury. Wtedy jeden ze starych profesorów zadał pytanie. „Więc co? Po co to badanie? Co to oznacza dla normalnego człowieka?
Istotność praktyczna a statystyczna
Na większości kursów dotyczących metod badawczych studenci uczą się, jak testować hipotezy i jak ocenić istotność statystyczną ich wyników. Ale rzadko uczą się, jak interpretować swoje wyniki w sposób zrozumiały dla nie statystyków. Wyniki testu są uznawane za istotne, jeżeli spełnione są pewne standardy statystyczne. Ale znaczenie to różni się od znaczenia w języku potocznym. A wynik istotny statystycznie to taki, który nie jest wynikiem przypadku. Tylko praktycznie znaczący wynik ma znaczenie w realnym świecie. Jest to całkiem możliwe i niestety dość powszechne, aby wynik był statystycznie istotny i trywialny. To jest możliwe jest również, że wynik będzie statystycznie nieistotny i ważny. Jednak uczeni, od doktorantów po starych profesorów, rzadko rozróżniają istotności statystyczne i istotności praktyczne wyników. Albo, co gorsza, wyniki uznane za statystyczne znaczące są interpretowane tak, jakby miały praktyczne znaczenie. Dzieje się tak, gdy badacz interpretuje statystycznie istotny wynik jako „istotny” lub „wysoce znaczący.”
Dygresja.
Breiman ilustruje wnioskowanie statystyczne słynnym (również niesławnym) przykładem: załóżmy, że dane są generowane przez niezależne losowania z modelu (R), gdzie należy oszacować współczynniki , oraz założyć że i oszacować σ2.
Biorąc pod uwagę, że dane są generowane z powyższego modelu, można wyprowadzić eleganckie testy hipotez, przedziały ufności, rozkłady resztkowych sum kwadratów i asymptotyki. To sprawiło, że model był atrakcyjny pod względem matematycznymi. Teoria ta została wykorzystana zarówno przez statystyków akademickich, jak i innych, aby wyprowadzić poziomy istotności współczynników na podstawie modelu (R), z niewielkim uwzględnieniem tego, czy dostępne dane mogły zostać wygenerowane przez model liniowy.
Opublikowano setki, a może tysiące artykułów, w których dowodzi się czegoś takiego lub innego, ponieważ współczynnik był znaczący na poziomie 5%. Dobroć dopasowania wykazano głównie poprzez podanie wartości współczynnika korelacji wielorakiej R2, który często był bliższy zeru niż jedynce i który mógł być nadmiernie zawyżony przez użycie zbyt wielu parametrów. Na danych przeprowadzono regresję liniową, a współczynniki były istotne na poziomie 5%. To był mocny dowód na korzyść stosowania modelu i często był przyjmowany jako ewangelia.