Saturday 9 December 2017

R glm predict binary options


moja IV jest porządkowa (Likert-Scale 1 do 5), mój DV jest binarny (tak, a nie nie). Wyliczyłem GLM z kolejnymi testami różnicowymi (glht). Najpierw traktowałem IV jako ciągły numeryczny dla ogólnego efektu: datasetIV. num lt - jako. numeryczny (datasetIV) datasetDV. fac lt-as. factor (datasetDV) glmmodel lt - glm (DV. fac IV. num, datadataset, family binomial (linklogit)) summary (glmmodel) Następnie obliczyłem model zerowy: glmmodel. null ltmam (DV. fac 1, datadataset, family binomial (linklogit)) summary (glmmodel. null) anova (glmmodel, glmmodel. null , testChisq) Z AIC-difference i anova () widzę, że IV ma znaczący ogólny wpływ na model. (Popraw) Teraz zacząłem traktować IV jako uporządkowany czynnik dla glht (), aby szukać różnic poziomów w IV. datasetIV. ord lt - as. ordered (datasetIV) glmmodel. ord lt-glm (DV. fac IV. ord, datadataset, rodzina dwumianowa (linklogit)) glhtresults lt-glht (glmmodel. ord, linfctmcp (IV. ordTukey)) podsumowanie (glhtresults) Ten ostatni wynik nie dostaję. Moim zdaniem nie pasuje do surowych danych. Kiedy przyjrzę się wykreślonym surowym danym (patrz poniżej), nie mogę uwierzyć, że istniała znacząca różnica, np. między poziomami 4 i 5 IV, ale nie pomiędzy poziomami 1 i 5. Czy ktokolwiek może wskazać na błąd, który robię Czy procedura glht jest właściwym wyborem Wielkie dzięki, FlorianOgeneralizowane modele liniowe w R, Część 1: Obliczanie przewidywanego prawdopodobieństwa w binarnym Regresja logistyczna autorstwa Davida Lillisa, Ph. D. Zwykła regresja najmniejszych kwadratów zapewnia liniowe modele zmiennych ciągłych. Jednak wiele danych, które interesują statystyków i badaczy, nie ma charakteru ciągłego, a więc do tworzenia przydatnych modeli predykcyjnych muszą być stosowane inne metody. Komenda glm () służy do wykonywania uogólnionych modeli liniowych (regresji) na danych wynikowych binarnych, danych liczbowych, danych prawdopodobieństwa, danych proporcji i wielu innych typów danych. W tym wpisie na blogu badamy użycie polecenia Rs glm () na jednym z takich typów danych. Przyjrzyjmy się prostemu przykładowi, w którym modelujemy dane binarne. W zestawie danych mtcars zmienna vs wskazuje, czy samochód ma silnik V lub silnik prosty. Chcemy stworzyć model, który pomoże nam przewidzieć prawdopodobieństwo pojazdu z silnikiem V lub prostym, o masie 2100 kg i pojemności silnika 180 cali sześciennych. Najpierw dopasowujemy model: Używamy funkcji glm (), włączamy zmienne w zwykły sposób i określamy dwumianowy rozkład błędów, jak następuje: Widzimy na podstawie oszacowań współczynników, że ciężar wpływa pozytywnie, a przemieszczenie ma nieznacznie negatywny efekt. Wyniki modelu nieco różnią się od wyników zwykłego modelu najmniejszych kwadratów. Wyjaśnię więcej szczegółów w następnym artykule, ale na razie kontynuujmy nasze obliczenia. Pamiętaj, że naszym celem jest obliczenie przewidywanego prawdopodobieństwa silnika V, dla określonych wartości predyktorów: ciężar 2100 kg i pojemność silnika 180 cali sześciennych. Aby to zrobić, tworzymy ramkę danych o nazwie newdata, w której podajemy pożądane wartości dla naszej prognozy. Teraz używamy funkcji predict () do obliczenia przewidywanego prawdopodobieństwa. Uwzględniamy argument type8221response8221 w celu uzyskania naszej prognozy. Przewidywane prawdopodobieństwo to 0,24. To nie było takie trudne w naszym następnym artykule. Wyjaśnię więcej o wynikach uzyskanych z funkcji glm (). O autorze: David Lillis nauczył R wielu naukowców i statystów. Jego firma, Sigma Statistics and Research Limited. zapewnia zarówno instruktaż on-line i warsztaty face-to-face na R, jak i usługi kodowania w R. David posiada doktorat z zakresu statystyki użytkowej. Chcesz się nauczyć funkcji RMS GLM W tym sześciogodzinnym warsztacie. nauczysz się, jak używać glm () do określania regresji logistycznej probitów, regresji dwumianowych poissona i regresji gamma ... i zawierać opcje specyficzne dla każdego z nich. Powiązane posty Ogólne modele liniowe Zobacz pomoc (glm) dla innych opcji modelowania. Zobacz pomoc (rodzinę) dla innych dopuszczalnych funkcji linków dla każdej rodziny. Zostaną omówione trzy podtypy uogólnionych modeli liniowych: regresja logistyczna, regresja poissona i analiza przeżycia. Regresja logistyczna Regresja logistyczna jest przydatna, gdy przewidujesz wynik binarny z zestawu zmiennych predyktorów ciągłych. Jest często preferowany w stosunku do analizy funkcji dyskryminacyjnych ze względu na mniej restrykcyjne założenia. Regresja logistyczna, w której F jest czynnikiem binarnym, a x1-x3 są predykatorami ciągłymi, odpowiadającymi zbiorom (F x1x2x3, datamydata, familybinomial ()) podsumowanie (dopasowanie) wyniki wyświetlania confint (dopasowanie) 95 CI dla współczynników exp (coef (fit) ) potęgowane wykładniki exp (confint (pasuje)) 95 CI dla wykładników potencjonowanych współczynników predict (fit, typequotresponsequot) wartości predykowane residuals (fit, typequotdeviancequot residuals x, data mydata) wyświetli wykres gęstości warunkowej binarnego wyniku F na ciągłym x zmienna. Regresja Poissona Regresja Poissona jest użyteczna, gdy przewidywanie reprezentowanej zmiennej wyniku liczy się od zbioru zmiennych predyktorów ciągłych. Regresja Poissona, w której liczba jest liczbą, a x1-x3 są predyktorami ciągłymi, dopasowu - jąca do wielkości (x1x2x3, datamydata, familypoisson ()), podsumowanie (dopasowanie), wyniki wyświetlania Jeśli masz overdyspersję (zobacz, czy rezydualna dewiacja jest znacznie większa niż stopnie swobody ), możesz użyć quasipoisson () zamiast poisson (). Analiza przeżycia Analiza przeżycia (zwana również analizą historii zdarzeń lub analizą niezawodności) obejmuje zestaw technik modelowania czasu do zdarzenia. Dane mogą być odpowiednio ocenzurowane - zdarzenie mogło nie nastąpić przed końcem badania lub możemy mieć niekompletne informacje dotyczące obserwacji, ale wiemy, że do pewnego czasu zdarzenie nie miało miejsca (np. Uczestnik zrezygnował z nauki w ciągu tygodnia 10 ale żył w tym czasie). Podczas gdy uogólnione modele liniowe są zazwyczaj analizowane przy użyciu funkcji glm (), analiza przeżycia jest zwykle przeprowadzana przy użyciu funkcji z pakietu przeżycia. Pakiet przetrwania może poradzić sobie z jednym i dwoma problemami z próbkami, parametrycznymi modelami awarii i modelem proporcjonalnych hazardów Coxa. Dane są zazwyczaj wprowadzane w formacie czasu rozpoczęcia. zatrzymaj czas. i status (wystąpił 1event, 0event nie wystąpiło). Alternatywnie, dane mogą być w formacie czasu do zdarzenia i stanu (wystąpił 1event, 0event nie wystąpiło). Status0 wskazuje, że obserwacja jest odpowiednio ceniona. Dane są dołączane do obiektu Surv za pomocą funkcji Surv () przed dalszymi analizami. Metoda survfit () służy do oszacowania rozkładu przeżycia dla jednej lub więcej grup. testy survdiff () dla różnic w rozkładach przeżycia między dwiema lub więcej grupami. coxph () modeluje funkcję hazardu na zbiorze zmiennych predykcyjnych. Mayo Clinic Lung Cancer Biblioteka danych (survival) dowiaduje się o pomocy w zestawie danych (płuco) tworzy obiekt Surv survobj lt - z (płuco, Surv (czas, status)) Rozkład przetrwania plam w całej próbce Estymator Kaplana-Meiera fit0 lt - survival (suma0, datalung) podsumowanie (dopasowanie0) wykres (fit0, xlabquotSurvival Time w Daysquot, ylabquot Survivingquot, yscale100, mainquotSurvival Distribution (ogółem) quot) Porównaj rozkłady przeżycia mężczyzn i kobiet fit1 lt - survfit (survobj wykreśla rozkłady przeżycia przez spisek seksu (fit1, xlabquotSurvival Time in Daysquot, ylabquot Survivingquot, yscale100, colc (quotitedquot, quotbluequot), główna legenda o rozkładach siły przez Genderquot) (quottoprightquot, titlequotGenderquot, c (quotMałyquot, quotFemalequot), fillc (quotredquot, quotbluequot)) test dla różnicy między krzywymi przeżycia męskiego i żeńskiego (test logrank) przeżycia (survobj przewidują przeżycie mężczyzn z wiekiem i wyniki medyczne MaleMod lt-coxph (survobj age. ecogph. karnopat. karno, datalung, sub setsex1) wyniki wyświetlania MaleMod ocenia ryzyko proporcjonalne założenia cox. zph (MaleMod) Zobacz artykuł o pakiecie survivalowym Thomasa Lumleysa R, aby uzyskać więcej informacji. Inne dobre źródła to oprogramowanie Mai Zhous Use R do analizy przeżycia i symulacji oraz rozdział M. ur Crawleya na temat analizy przeżycia. Ćwiczyć

No comments:

Post a Comment