4.A Modelle für überdispergierte Zähldaten Wir verwenden Daten von Long (1990) über die Anzahl der Veröffentlichungen von Ph. D. Biochemiker, um die Anwendung von Poisson, überdispergiertem Poisson, negativen Binomial - und Null-aufgeblasenen Poisson-Modellen zu illustrieren. Die Variablen im Datensatz sind art. Artikel in den letzten drei Jahren der Ph. D. Fem. Codiert für Frauen mar. Codiert man, wenn verheiratet kid5. Anzahl der Kinder unter sechs Jahren. Prestige der Ph. D. Werden. Artikel von Mentor in den letzten drei Jahren Diese Daten wurden auch von Long und Freese (2001) analysiert und sind von der Stata-Website: Die mittlere Anzahl der Artikel ist 1,69 und die Varianz ist 3,71, ein bisschen mehr als das Doppelte des Mittelwerts. Die Daten sind überdispergiert, aber natürlich haben wir noch keine Kovariaten berücksichtigt. Ein Poisson-Modell Lassen Sie uns das Modell von Long und Freese (2001), ein einfaches additives Modell unter Verwendung aller fünf Prädiktoren, passt. Wir könnten poisson verwenden, um die Schätzungen zu erhalten und dann estat gof, um die Abweichung zu erhalten, wird aber stattdessen die glm-Befehl, um sowohl die Abweichung und Pearsons chi-squared Statistiken sofort zu erhalten. Wir speichern auch die Schätzungen für die spätere Verwendung. Wir sehen, dass das Modell offenbar nicht die Daten passt. Der fünfprozentige kritische Wert für ein Chi-Quadrat mit 909 d. f. Ist und die Abweichung und Pearsons chi-squared sind beide in den 1600er Jahren. Extra-Poisson-Variation Wir nehmen nun an, dass die Varianz proportional und nicht gleich dem Mittelwert ist, und schätzen Sie den Skalenparameter phi, der Pearsons chi-squared durch seine d. f. Wir sehen, dass die Varianz etwa 83 größer ist als der Mittelwert. Das bedeutet, dass wir die Standardfehler mit 1,35 multiplizieren sollten, die Quadratwurzel von 1,83. Der Befehl glm kann dies für uns über die scale () - Option durchführen, die als Argument entweder einen numerischen Wert, in diesem Fall 1.8289841, oder einfach x2 anzeigt, dass die Anpassung auf Pearsons chi-squared basieren sollte: Sie können das überprüfen Diese Standardfehler sind etwa 35 größer als zuvor. Mit dieser Vorgehensweise haben wir im wesentlichen alle fehlende Anpassung auf reinen Fehler zurückgeführt. Möglicherweise möchten Sie poisson mit der robusten Option versuchen, Standardfehler mit dem robusten oder Sandwich-Schätzer zu berechnen. Sie erhalten sehr ähnliche Ergebnisse. In beiden Fällen müssen alle Tests mit Walds-Statistik durchgeführt werden. Likelihood-Ratio-Tests sind nicht möglich, weil wir keine vollen Verteilung Annahmen über das Ergebnis, sondern auf Annahmen über die Mittelwerte und Varianz. Negative Binomiale Regression Wir setzen nun ein negatives Binomialmodell mit denselben Prädiktoren ein: Statas alpha ist die Varianz des multiplikativen Zufallseffekts und entspricht Sigma 2 in den Noten. Es wird geschätzt, dass 0,44 und ist sehr signifikant (nicht-Null). Um die Signifikanz dieses Parameters zu prüfen, können Sie denken, die doppelte Differenz zwischen den Log-Likelihoods zwischen diesem Modell und dem Poisson-Modell, 180.2, zu berechnen und als Chi-Quadrat mit einem d. f. Die üblichen Asymptotiken gelten jedoch nicht, weil die Nullhypothese auf einer Grenze des Parameterraums liegt. Es gibt einige Arbeiten, die zeigen, dass eine bessere Annäherung die Statistik als 50:50 Mischung aus Null und einem Chi-Quadrat mit einem d. f. Und Stata implementiert dieses Verfahren und meldet die Statistik als chi2bar. Alternativ bietet die Behandlung der Statistik als Chi-Quadrat einen konservativen Test. In jedem Fall haben wir überwältigende Hinweise auf eine Überdisziplin. Für die Prüfung von Hypothesen über die Regressionskoeffizienten können wir entweder Wald-Tests oder Likelihood-Verhältnis-Tests verwenden, die möglich sind, weil wir vollständige Verteilungsannahmen gemacht haben. Unbeobachtete Heterogenität Stata hat eine Funktion gammaden (a, b, g, x), um die Dichte einer Gammaverteilung mit der Form a zu berechnen. Maßstab b. Und Ortsverschiebung g. In unserer Notation ist die Form alpha, die Skala ist 1 / beta und die Verschiebung ist 0. Insbesondere ist die Dichte, wenn der zufällige Effekt eine Varianz v hat, ist gammaden (1 / v, v, 0, x). Dies kann verwendet werden, um die Dichte aufzuzeichnen. Wir können auch Quantile berechnen. Die Mata-Funktion invgammap (a, p) berechnet Quanten der Standard-Gamma-Verteilung mit der Form a. Die die Skala 1 und die Verschiebung 0 hat. Wenn die Verteilung eine Varianz v besitzt, sind die Quartile invgammap (1 / v, (1,2,3) / 4) v. Biochemiker in Q1 der Verteilung der unbemerkt Heterogenität veröffentlichen 49 weniger Papiere als erwartet aus ihren beobachteten Eigenschaften, während die Mediane veröffentlichen 14 weniger und die in Q3 veröffentlichen 33 mehr als erwartet. Vergleich von Schätzungen und Standardfehlern Die Parameterschätzungen, die auf dem negativen Binomialmodell basieren, unterscheiden sich nicht sehr von denen, die auf dem Poisson-Regressionsmodell basieren. Lassen Sie uns vergleichen sie Seite an Seite Beide Sätze von Parametern Schätzungen würde zu den gleichen Schlussfolgerungen führen. Betrachtet man die Standardfehler, die direkt unter den Koeffizienten gemeldet werden, sehen wir, dass beide Ansätze zur Überdispersion zu sehr ähnlichen Schätzungen führen, und dass die gewöhnliche Poisson-Regression die Standardfehler unterschätzt Goodness of Fit Ein Weg zur Berechnung der Abweichung des negativen Binomialmodells ist Die Schätzung der Varianz in glm. Die diese Modelle für einen festen Wert des Skalenparameters passen. Wir sehen, dass das negative Binomialmodell viel besser passt als das Poisson, aber immer noch eine Abweichung (gerade) über dem fünf Prozent kritischen Wert hat. Die Varianzfunktion Die überdispergierten Poisson - und negativen Binomialmodelle haben unterschiedliche Varianzfunktionen. Eine Möglichkeit, zu prüfen, welche geeignetere ist, besteht darin, Gruppen basierend auf dem linearen Prädiktor zu erstellen, den Mittelwert und die Varianz für jede Gruppe zu berechnen und schließlich die Mittel-Varianz-Beziehung aufzuzeichnen. Hier sind Gruppen, die auf dem negativen binomialen linearen Prädiktor basieren, der unter Verwendung von egen mit dem cut () - Unterbefehl und der group () - Option erstellt wurde, um 20 Gruppen von annähernd gleicher Größe zu erzeugen. Jetzt werden wir zu einem Datensatz von Mittelwerten und Standardabweichungen zusammenbrechen (Zusammenbruch nicht Varianzen, aber wir können immer die Standardabweichung platzieren). Wir berechnen auch die überdispergierten Poisson - und negativen Binomial-Varianz-Funktionen und zeichnen alles auf. Die Poisson-Varianzfunktion macht einen ziemlich guten Job für den Großteil der Daten, fällt aber nicht ein, die hohen Abweichungen der produktivsten Gelehrten zu erfassen. Die negative Binomial-Varianz-Funktion ist nicht zu unterschiedlich, sondern, quadratisch, kann schneller steigen und macht einen besseren Job am oberen Ende. Wir schließen, dass das negative Binomialmodell eine bessere Beschreibung der Daten liefert als das überdispergierte Poisson-Modell. Zero-Inflated Poisson Ein häufiges Auftreten mit Zähldaten ist ein Überschuss an Nullen im Vergleich zu dem, was unter einem Poisson-Modell erwartet wird. Dies ist tatsächlich ein Problem mit unseren Daten: Wir sehen, dass 30,0 der Wissenschaftler in der Probe keine Artikel in den letzten drei Jahren ihres Ph. D. Aber das Poisson-Modell prognostiziert, dass nur 20.9 keine Publikationen haben würde. Offensichtlich unterschätzt das Modell die Wahrscheinlichkeit von Nullzählungen. Eine Möglichkeit, diese Art von Situation zu modellieren, besteht darin, davon auszugehen, dass die Daten aus einer Mischung von zwei Populationen stammen, wobei die Anzahl immer Null ist. Und ein anderer, wo der Zähler eine Poisson-Verteilung mit Mittelwert mu hat. In diesem Modell können Nullzählungen aus jeder Population kommen, während positive Werte nur von der zweiten kommen. Im Rahmen von Publikationen von Ph. D. Biochemiker können wir uns vorstellen, dass einige im Sinn Arbeitsplätze, in denen Publikationen wäre nicht wichtig, während andere für akademische Arbeitsplätze, wo eine Aufzeichnung von Publikationen erwartet wurde. Mitglieder der ersten Gruppe würden Nullartikel veröffentlichen, während Mitglieder der zweiten Gruppe 0,1,2 veröffentlichen würden. Eine Zahl, die angenommen werden kann, eine Poisson-Verteilung zu haben. Die Verteilung des Ergebnisses kann dann modelliert werden in Form von zwei Parametern, pi die Wahrscheinlichkeit von immer Null und mu, die mittlere Anzahl von Publikationen für die nicht in der immer null Gruppe. Eine natürliche Methode zur Einführung von Kovariaten besteht darin, das Logit der Wahrscheinlichkeit pi von immer Null und das Log des Mittelwertes mu für diejenigen zu modellieren, die nicht in der immer Null-Klasse sind. Stata implementiert diese Kombination im zip-Befehl, wenn die Zählungen Poisson angenommen werden. Eine Parallelentwicklung mit einem negativen Binomialmodell für die Zählungen in der zweiten Gruppe führt zum zinb-Befehl. In beiden Fällen wird das Modell für die Wahrscheinlichkeit von immer Null in der Option inflate () angegeben. Hier ist ein Null-aufgeblasenes Poisson-Modell mit allen Kovariaten in beiden Gleichungen: Betrachtet man die Inflationsgleichung, sehen wir, dass der einzige signifikante Prädiktor des Seins in der immer Null-Klasse die Anzahl der Artikel ist, die der Mentor mit jedem Artikel des Mentors veröffentlicht hat Mit 12,6 unteren Chancen nie veröffentlicht. Betrachtet man die Gleichung für die mittlere Zahl oder die Artikel unter denen, die nicht in der immer null Klasse sind, finden wir signifikante Nachteile für Frauen und Wissenschaftler mit Kindern unter fünf Jahren und eine große positive Wirkung der Zahl der Veröffentlichungen durch den Mentor, wobei jeder Artikel assoziiert ist Mit einem Anstieg der erwarteten Zahl der Veröffentlichungen um 1,8. Um zu überprüfen, ob das Modell das Problem überschüssiger Nullen löst, können wir pi und mu vorhersagen und die kombinierte Wahrscheinlichkeit für keine Publikationen berechnen. Statas Vorhersage berechnet die Wahrscheinlichkeit von immer Null mit der Option pr und der Poisson linearen Prädiktor mit der Option xb. Eine dritte Option werden wir nicht verwenden, n. Prognostiziert die erwartete Zählung als (1-pr) exp (xb). Heres, wie man pi und mu vorhersagen, so löst das Modell das Problem der überschüssigen Nullen, voraussagend, dass 29,9 der Biochemiker keine Artikel veröffentlichen werden, viel näher an den beobachteten Wert von 30,0. Modellvergleich mit AIC Das negative Binomial löst dieses Problem für diese Daten ebenfalls. Heres die Wahrscheinlichkeit von Null-Artikel in der negativen Binomial Das Modell prognostiziert, dass 30,4 der Biochemiker würden keine Artikel in den letzten drei Jahren ihrer Ph. D. Sehr nahe am beobachteten Wert von 30,0. Um zwischen den negativen binomialen und null aufgeblasenen Modellen zu wählen, müssen wir auf andere Kriterien zurückgreifen. Ein sehr einfacher Weg, um Modelle mit unterschiedlichen Parametern zu vergleichen, besteht darin, das Akaikes Information Criterion (AIC) zu berechnen, wobei wir definieren, wo p die Anzahl der Parameter im Modell ist. Der erste Term ist im Wesentlichen die Abweichung und die zweite eine Strafe für die Anzahl der Parameter. Für unsere Daten Für dieses Datensatz ist das negative Binomialmodell ein klarer Sieger in Bezug auf Sparsamkeit und Güte der Passform. Andere diagnostische Kriterien, die wir betrachten könnten, sind die Randverteilung von vorhergesagten und beobachteten Zählungen und die Varianzfunktionen. Zero-Trunkated und Hurdle Models Andere Modelle, die wir havent bedeckt sind, sind das null-gekürzte Poisson und negative Binomial, entworfen für Daten, die nicht Nullen umfassen. Ein gemeinsames Beispiel ist die Aufenthaltsdauer in einem Krankenhaus, das mindestens einen Tag dauert. Ein sinnvoller Ansatz ist, ein Poisson oder ein negatives Binomialmodell zu platzieren, das Null ausschließt und die anderen Wahrscheinlichkeiten zu einer Summe um eins skaliert. Man sollte vorsichtig interpretieren diese Modelle, weil mu nicht das erwartete Ergebnis, sondern das Mittel einer zugrunde liegenden Verteilung, die die Nullen enthält. Diese Modelle sind in den Stata-Befehlen ztp und ztnb implementiert. Ein alternativer Ansatz für einen Überschuss (oder einen Defekt) von Nullen besteht darin, ein zweistufiges Verfahren mit einem Logitmodell zu verwenden, um zwischen null und positiven Zählungen zu unterscheiden, und dann ein nullabgestuftes Poisson - oder negatives Binomialmodell für die positiven Zählungen. In unserem Beispiel könnten wir ein Logitmodell verwenden, um diejenigen zu unterscheiden, die von denen, die nicht veröffentlichen, und dann ein abgeschnittenes Poisson - oder negatives Binomialmodell für die Anzahl der Artikel von denen, die mindestens eines veröffentlichen, unterscheiden. Diese Modelle werden oft als Hürdenmodelle bezeichnet. Sie können in Stata mit den logit - und poisson - oder nbreg-Befehlen installiert werden, indem einfach die Log-Likelihoods von jeder Stufe hinzugefügt werden. Im Vergleich der Hürde und der Null-aufgeblasenen Modelle finde ich die Unterscheidung zwischen null und eins oder mehr klarer mit Hürdenmodellen, aber die Interpretation des Mittels ist klarer mit Null-aufgeblasenen Modellen. Kopie 2016 Germaacuten Rodriacuteguez, Princeton UniversityWillkommen am Institut für Digitale Forschung und Bildung Stata Datenanalyse Beispiele Negative Binomiale Regression Version info: Der Code für diese Seite wurde in Stata 12 getestet. Negative binomische Regression dient zur Modellierung von Zählvariablen, meist für überdispergierte Zählung Ergebnis-Variablen. Bitte beachten Sie: Auf dieser Seite soll gezeigt werden, wie Sie verschiedene Befehle zur Datenanalyse verwenden können. Es deckt nicht alle Aspekte des Forschungsprozesses, die Forscher erwartet werden, zu tun. Sie umfasst insbesondere keine Datenreinigung und - prüfung, Verifizierung von Annahmen, Modelldiagnosen oder potenzielle Folgeanalysen. Beispiele für negative Binomialregression Beispiel 1. Schulverwalter studieren das Anwesenheitsverhalten von High School Junioren an zwei Schulen. Prädiktoren für die Anzahl der Abwesenheitstage umfassen die Art des Programms, in dem der Studierende eingeschrieben ist, und einen standardisierten Test in Mathe. Beispiel 2. Ein gesundheitsbezogener Forscher untersucht die Zahl der Krankenhausbesuche in den letzten 12 Monaten von älteren Bürgern in einer Gemeinschaft, die auf den Merkmalen der Individuen und den Arten von Gesundheitsplänen basiert, unter denen jeder versichert ist. Beschreibung der Daten Lets verfolgen Beispiel 1 von oben. Wir haben Teilnahme Daten über 314 High School Junioren von zwei städtischen Gymnasien in der Datei nbdata. dta. Die Antwortvariable von Interesse ist Tage fehlend, daysabs. Die variable Mathematik ist die standardisierte Mathematik für jeden Schüler. Die Variable prog ist eine dreistufige Nominalvariable, die den Typ des Lehrprogramms angibt, in dem der Schüler eingeschrieben ist. Schauen wir uns die Daten an. Es ist immer eine gute Idee, mit beschreibenden Statistiken und Plots beginnen. Jede Variable hat 314 gültige Beobachtungen und ihre Verteilungen scheinen recht vernünftig. Das unbedingte Mittel unserer Ergebnisvariablen ist viel geringer als seine Varianz. Lets weiter mit unserer Beschreibung der Variablen in diesem Datensatz. Die folgende Tabelle zeigt die durchschnittliche Anzahl von Tagen, die nach Programmtyp nicht vorhanden sind, und scheint darauf hinzudeuten, dass der Programmtyp ein guter Kandidat für die Vorhersage der Anzahl der Tage ist, die nicht vorhanden sind, unsere Ergebnisvariable, weil der Mittelwert des Ergebnisses durch Prog variiert. Die Abweichungen innerhalb jeder Ebene von prog sind höher als die Mittel in jeder Ebene. Dies sind die bedingten Mittel und Abweichungen. Diese Unterschiede deuten darauf hin, dass eine Überdispersion vorhanden ist und dass ein negatives Binomialmodell geeignet wäre. Analysemethoden, die Sie berücksichtigen könnten Im Folgenden finden Sie einige Analysemethoden, die Sie möglicherweise vorgefunden haben. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Gunst gefallen oder haben Einschränkungen. Negative binomische Regression - Negative binomische Regression kann für überdispergierte Zähldaten verwendet werden, dh wenn die bedingte Varianz das bedingte Mittel überschreitet. Sie kann als eine Verallgemeinerung der Poisson-Regression betrachtet werden, da sie dieselbe mittlere Struktur wie die Poisson-Regression hat und sie hat einen zusätzlichen Parameter, um die Überdispersion zu modellieren. Wenn die bedingte Verteilung der Ergebnisvariablen überdispergiert ist, sind die Konfidenzintervalle für die negative binomische Regression wahrscheinlich schmaler, verglichen mit denen aus einem Poisson-Regressionsmodell. Poisson-Regression - Poisson-Regression wird oft für die Modellierung von Zähldaten verwendet. Poisson-Regression hat eine Anzahl von Erweiterungen, die für Zählmodelle nützlich sind. Zero-inflated Regressionsmodell - Zero-inflated Modelle versuchen, übermäßige Nullen Rechnung zu tragen. Mit anderen Worten, es wird angenommen, dass zwei Arten von Nullen in den Daten vorhanden sind, quottrue zerosquot und quotexcess nerosquot. Zero-inflated Modelle schätzen zwei Gleichungen gleichzeitig, eine für das Zählmodell und eine für die überschüssigen Nullen. OLS-Regression - Zählergebnis-Variablen werden manchmal log-transformiert und mit OLS-Regression analysiert. Viele Probleme treten bei diesem Ansatz auf, einschließlich des Verlustes von Daten aufgrund von undefinierten Werten, die erzeugt werden, indem der Logarithmus von Null (der undefiniert wird) sowie die fehlende Fähigkeit, die Dispersion zu modellieren, erzeugt werden. Negative binomische Regressionsanalyse Nachfolgend verwenden wir den nbreg-Befehl, um ein negatives binomisches Regressionsmodell abzuschätzen. Das i. Bevor prog anzeigt, dass es eine Faktorvariable (d. H. Kategorische Variable) ist, und dass sie als eine Reihe von Indikatorvariablen in das Modell aufgenommen werden sollte. Die Ausgabe beginnt das Iterationsprotokoll. Wir können sehen, dass es beginnt mit der Anpassung eines Poisson-Modells, dann ein Nullmodell (nur Abfangmodell) und schließlich das negative Binomialmodell. Da es eine Maximum-Likelihood-Schätzung verwendet, iteriert es, bis die Änderung in der Log-Likelihood ausreichend klein ist. Der letzte Wert im Iterationsprotokoll ist der Endwert der Protokollwahrscheinlichkeit für das Vollmodell und wird wieder angezeigt. Die Log-Likelihood kann verwendet werden, um Modelle zu vergleichen. Die Kopfzeileninformationen werden als nächstes dargestellt. Auf der rechten Seite wird die Anzahl der Beobachtungen, die in der Analyse (314) verwendet werden, zusammen mit der Wald-Chi-Quadrat-Statistik mit drei Freiheitsgraden für das vollständige Modell, gefolgt von dem p-Wert für das Chi-Quadrat angegeben . Dies ist ein Test, bei dem alle geschätzten Koeffizienten gleich Null sind - ein Test des Modells als Ganzes. Aus dem p-Wert können wir sehen, dass das Modell statistisch signifikant ist. Der Header enthält auch einen Pseudo-R2, der in diesem Beispiel 0,03 beträgt. Unterhalb des Headers finden Sie die negativen Binomialregressionskoeffizienten für jede der Variablen zusammen mit Standardfehlern, z-Scores, p-Werten und 95 Konfidenzintervallen für die Koeffizienten. Die variable Mathematik hat einen Koeffizienten von -0,006, der statistisch signifikant ist. Dies bedeutet, dass für jede einzelne Einheit Erhöhung auf Mathe. Die erwartete Protokollzählung der Anzahl der abwesenden Tage um 0,006 abnimmt. Die Indikatorvariable 2.prog ist die erwartete Differenz in der Protokollzählung zwischen Gruppe 2 (prog 2) und der Referenzgruppe (prog 1). Die erwartete Protokollzählung für den Pegel 2 von prog ist 0,44 niedriger als die erwartete Protokollzählung für Pegel 1. Die Indikatorvariable 3.prog ist die erwartete Differenz der Protokollanzahl zwischen Gruppe 3 (prog 3) und der Referenzgruppe (prog 1). Die erwartete Protokollzählung für die Stufe 3 von prog ist 1,28 niedriger als die erwartete Protokollzählung für Ebene 1. Um festzustellen, ob prog selbst insgesamt statistisch signifikant ist, können wir den Testbefehl verwenden, um die beiden Freiheitsgrade zu erhalten Diese Variable. Der Zwei-Freiheits-Chi-Quadrat-Test zeigt, dass prog ein statistisch signifikanter Prädiktor von daysabs ist. Zusätzlich wird der log-transformierte Überdispersionsparameter (/ lnalpha) geschätzt und zusammen mit dem untransformierten Wert angezeigt. Ein Poisson-Modell ist eines, bei dem dieser Alphawert auf Null beschränkt ist. Stata findet die maximale Wahrscheinlichkeitsschätzung des Logarithmus von alpha und berechnet daraus alpha. Dies bedeutet, dass alpha immer größer als null ist und dass Statas nbreg nur eine Überdispersion erlaubt (Varianz größer als der Mittelwert). Unterhalb der Tabelle der Koeffizienten finden Sie einen Wahrscheinlichkeitsverhältnistest, dass Alpha gleich Null ist - der Likelihood-Verhältnis-Test, der dieses Modell mit einem Poisson-Modell vergleicht. In diesem Beispiel ist der zugehörige Chi-Quadrat-Wert 926,03 mit einem Freiheitsgrad. Dies legt nahe, dass alpha nicht Null ist und das negative Binomialmodell geeigneter ist als das Poisson-Modell. Wir können die Ergebnisse auch als Incident Rate Ratios sehen, indem wir die irr-Option verwenden. Die obige Ausgabe zeigt an, dass die Einfallrate für 2.prog das 0,64-fache der Ereignisrate für die Referenzgruppe (1.prog) beträgt. In ähnlicher Weise beträgt die Einfallrate für 3.prog das 0,28-fache der Einfallrate für die Referenzgruppe, die die anderen Variablen konstant hält. Die prozentuale Veränderung der Inzidenzrate von daysabs ist eine 1 Abnahme für jede Einheitserhöhung in Mathe. Die Form der Modellgleichung für negative Binomialregression ist die gleiche wie für die Poisson-Regression. Das Protokoll des Ergebnisses wird mit einer linearen Kombination der Prädiktoren vorhergesagt: log (daysabs) Intercept b 1 (prog2) b 2 (prog3) b 3 math. Exp (b2 (prog3)) exp (b 3 math) Die Koeffizienten haben einen additiven Effekt In der log (y) Skala und der IRR haben eine multiplikative Wirkung in der y-Skala. Der Dispersionsparameter alpha in negativer Binomialregression wirkt nicht auf die erwarteten Zählungen, bewirkt aber die geschätzte Varianz der erwarteten Zählungen. Weitere Details finden Sie in der Stata-Dokumentation. Für weitere Informationen über die verschiedenen Metriken, in denen die Ergebnisse präsentiert werden können, und deren Interpretation, siehe Regressionsmodelle für kategoriale abhängige Variablen unter Verwendung von Stata, Second Edition von J. Scott Long und Jeremy Freese (2006). Um das Modell besser zu verstehen, können wir den Befehl margins verwenden. Im folgenden verwenden wir den Befehl margins, um die prognostizierten Zählungen auf jeder Ebene von prog zu berechnen. Wobei alle anderen Variablen (in diesem Beispiel Mathe) im Modell an ihren Mitteln gehalten werden. In der obigen Ausgabe sehen wir, dass die vorhergesagte Anzahl von Ereignissen für die Stufe 1 von prog etwa 10.24 ist, wobei die Mathematik in ihrem Mittelwert gehalten wird. Die vorhergesagte Anzahl von Ereignissen für die Stufe 2 von prog ist bei 6,59 niedriger, und die vorhergesagte Anzahl von Ereignissen für die Stufe 3 von prog ist etwa 2,85. Beachten Sie, dass die prognostizierte Anzahl von prog 2 ist (6.587927 / 10.2369) 0,64-mal die vorhergesagte Zählung für Ebene 1 von prog. Dies entspricht dem, was wir in der IRR-Ausgabetabelle sahen. Im Folgenden erhalten wir die vorhergesagte Anzahl von Ereignissen für mathematische Werte, die im Bereich von 0 bis 100 in Schritten von 20 liegen. Die obige Tabelle zeigt, dass mit prog bei seinen beobachteten Werten und bei Mathematik, die für alle Beobachtungen bei 0 gehalten wird, die durchschnittliche prognostizierte Anzahl (oder Durchschnittliche Anzahl von fehlenden Tagen) etwa 7,72 beträgt, beträgt die durchschnittliche vorhergesagte Zählung bei Mathe 100 ungefähr 4,24. Wenn wir die vorhergesagten Zählungen auf zwei beliebigen Mathematikstufen, wie Mathematik 20 und Mathe 40, vergleichen, können wir sehen, daß das Verhältnis (6,072587 / 6,845863) 0,887 beträgt. Dies entspricht dem IRR von 0,994 für eine 20 Einheitenänderung: 0,99420 0,887. Der benutzerdefinierte Befehl "fitstat" (sowie Statas estat-Befehle) können verwendet werden, um zusätzliche Modellpassinformationen zu erhalten, die hilfreich sein können, wenn Sie Modelle vergleichen möchten. Sie können findit fitstat eingeben, um dieses Programm herunterzuladen (siehe Wie kann ich den Befehl findit verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Sie können die vorhergesagte Anzahl von Ereignissen mit den folgenden Befehlen grafisch darstellen. Die Grafik zeigt, dass die meisten Tage abwesend sind für die in der akademischen Programm 1 vorausgesetzt, vor allem, wenn der Schüler hat eine niedrige Mathe-Score. Die niedrigste Anzahl der vorhergesagten Tage fehlt ist für die Schüler in Programm 3. Dinge zu beachten Es wird nicht empfohlen, dass negative Binomial-Modelle auf kleine Proben angewendet werden. Eine häufige Ursache der Überdispersion sind überschüssige Nullen durch einen zusätzlichen Datenerzeugungsprozess. In dieser Situation sollte kein aufblasbares Modell in Betracht gezogen werden. Wenn der Datenerzeugungsprozess keine 0s zuläßt (wie die Anzahl der Tage, die im Krankenhaus verbracht werden), dann kann ein Null-trunkiertes Modell geeigneter sein. Zähldaten haben oft eine Belichtungsvariable, die angibt, wie oft das Ereignis geschehen sein könnte. Diese Variable sollte in Ihr negatives Binomial-Regressionsmodell mit der Verwendung der Option exp () integriert werden. Die Ergebnisvariable in einer negativen Binomialregression kann keine negativen Zahlen haben und die Belichtung kann nicht 0s haben. Sie können auch ein negatives Binomialmodell mit dem Befehl glm mit der Protokollverknüpfung und der Binomialfamilie ausführen. Sie müssen den Befehl glm verwenden, um die Residuen zu erhalten, um andere Annahmen des negativen Binomialmodells zu überprüfen (siehe Cameron und Trivedi (1998) und Dupont (2002) für weitere Informationen). Pseudo-R-Quadrat: Es gibt viele verschiedene Pseudo-R-Quadrate. Sie alle versuchen, Informationen ähnlich wie die von R-squared in OLS-Regression zur Verfügung gestellt, aber keiner von ihnen kann genau so interpretiert werden, wie R-Quadrat in OLS-Regression interpretiert wird. Für eine Diskussion über verschiedene Pseudo-R-Quadrate siehe Long and Freese (2006) oder unsere FAQ-Seite Was sind Pseudo-R-Quadrate. References Long, J. S. (1997). Regressionsmodelle für kategoriale und begrenzte abhängige Variablen. Thousand Oaks, CA: Sage Veröffentlichungen. Long, J. S. und Freese, J. (2006). Regression Modelle für kategorische abhängige Variablen mit Stata, zweite Ausgabe. Universitätsstation, TX: Stata Presse. Cameron, A. C. und Trivedi, P. K. (2009). Mikroökonometrie unter Verwendung von Stata. Universitätsstation, TX: Stata Presse. Cameron, A. C. und Trivedi, P. K. (1998). Regressionsanalyse von Zähldaten. New York: Cambridge Press. Cameron, A. C. Fortschritte in der Zählungsdatenregression für den Applied Statistics Workshop, 28. März 2009. cameron. econ. ucdavis. edu/racd/count. html. Dupont, W. D. (2002). Statistische Modellierung für biomedizinische Forscher: Eine einfache Einführung in die Analyse komplexer Daten. New York: Cambridge Press. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien ausgelegt werden. Willkommen an das Institut für digitale Forschung und Bildung Stata Annotated Output Negative Binomial Regression Diese Seite zeigt ein Beispiel Der negativen Binomialregressionsanalyse mit Fußnoten, die den Ausgang erklären. Die gesammelten Daten waren akademische Informationen über 316 Studenten. Die Antwortvariable ist während des Schuljahres (daysabs) fehlend, woraus wir die Beziehung zu mathematisch standardisierten Tests (mathnce), sprachstandardisierten Tests (langnce) und Geschlecht (weiblich) erforschen. Wie für ein negatives Binomialmodell angenommen, ist unsere Reaktionsvariable eine Zählvariable, und jedes Subjekt hat die gleiche Länge der Beobachtungszeit. Wäre die Beobachtungszeit für Themen unterschiedlich, müsste das Modell angepasst werden, um die unterschiedliche Länge der Beobachtungszeit pro Motiv zu berücksichtigen. Dieser Punkt wird später in der Seite diskutiert. Auch wird das negative Binomialmodell, verglichen mit anderen Zählmodellen (d. h. Poisson oder nulleingeblasenen Modellen), als das geeignete Modell angenommen. Mit anderen Worten, wir nehmen an, dass die abhängige Variable überdispergiert ist und keine übermäßige Anzahl von Nullen aufweist. Die erste Hälfte dieser Seite interpretiert die Koeffizienten in Form von negativen Binomialregressionskoeffizienten, und die zweite Hälfte interpretiert die Koeffizienten hinsichtlich der Inzidenzratenverhältnisse. Iteration Log a a. Iterationslog - Dies ist das Iterationsprotokoll für das negative Binomialmodell. Hinweis: Es gibt drei Abschnitte Fitting Poisson-Modell, Fitting nur Konstant-Modell und Fitting Vollmodell. Negative binomische Regression ist ein Maximum-Likelihood-Verfahren, und gute Anfangsschätzungen sind für die Konvergenz erforderlich. Die ersten beiden Abschnitte liefern gute Startwerte für das negative Binomialmodell, das im dritten Abschnitt geschätzt wird. Der erste Abschnitt, Fitting Poisson Modell, passt ein Poisson-Modell zu den Daten. Schätzungen der letzten Iteration dienen als Ausgangswerte für die Parameterschätzungen im letzten Abschnitt. Der zweite Abschnitt, Fitting-Constant-Only-Modell, findet die maximale Likelihood-Schätzung für den Mittelwert und den Dispersionsparameter der Antwortvariablen. Der Dispersionsparameter wird als Startwert für den Dispersionsparameter gesteckt. Sobald Startwerte erhalten sind, iteriert das negative Binomialmodell, bis der Algorithmus konvergiert. Die Trace-Option kann angegeben werden, um zu sehen, wie Teile der ersten beiden Iterationskomponenten für die finale Iterationskomponente verwendet werden. Modellübersicht b. Dispersion - Hier wird verstanden, wie die Überdispersion modelliert wird. Die Standardmethode ist die mittlere Dispersion. C. Log Likelihood - Dies ist die Log-Wahrscheinlichkeit des eingebauten Modells. Es wird in der Berechnung des Wahrscheinlichkeitsverhältnisses (LR) chi-quadratischen Tests verwendet, ob alle Prädiktorvariablen Regressionskoeffizienten gleichzeitig Null sind und in Tests von verschachtelten Modellen. D. Anzahl der obs - Dies ist die Anzahl der Beobachtungen im Regressionsmodell verwendet. Es kann kleiner sein als die Anzahl der Fälle in dem Datensatz, wenn es fehlende Werte für einige Variablen in der Gleichung gibt. Standardmäßig führt Stata eine lückenlose Löschung unvollständiger Fälle durch. D. h. LR chi2 (3) - Dies ist die Teststatistik, dass alle Regressionskoeffizienten im Modell gleich Null sind. Sie wird als das Zweifache der Differenz der Wahrscheinlichkeit für das Nullmodell und das Einbaumodell berechnet. Das Nullmodell entspricht der letzten Iteration vom Fitting-Constant-Only-Modell. Teile aus dem Iterationslog zusammen, ist der LR chi2 (3) - Wert -2-891,24 - (-880,87) 20,74. F. Prob gt chi2 - Dies ist die Wahrscheinlichkeit, eine LR-Teststatistik als extrem oder mehr zu erhalten, als die unter der Nullhypothese beobachtete Nullhypothese, dass alle Regressionskoeffizienten gleichzeitig gleich Null sind. Mit anderen Worten, dies ist die Wahrscheinlichkeit, diese Chi-Quadrat-Statistik zu erhalten (20.74), wenn es tatsächlich keine Wirkung der Prädiktorvariablen gibt. Dieser p-Wert wird mit einem spezifizierten Alpha-Niveau verglichen, unsere Bereitschaft, einen Typ-I-Fehler zu akzeptieren, der typischerweise auf 0,05 oder 0,01 eingestellt ist. Der kleine p-Wert aus dem LR-Test lt0.00001 würde dazu führen, dass zumindest einer der Regressionskoeffizienten im Modell ungleich Null ist. Der Parameter der Chi-Quadrat-Verteilung, die zum Testen der Nullhypothese verwendet wird, wird durch die Freiheitsgrade in der vorherigen Zeile, chi2 (3), definiert. G. Pseudo R2 - Dies ist McFaddens pseudo R-squared. Sie wird als 1 - ll (Modell) / ll (Null) 0,0161 berechnet. Negative binomische Regression hat nicht ein Äquivalent zu der R-Quadrat-Maßnahme in OLS-Regression gefunden, aber viele Menschen haben versucht, eine zu erstellen. Weil diese Statistik nicht bedeutet, was R-Quadrat bedeutet in der OLS-Regression (der Anteil der Varianz für die Antwortvariable erklärt durch die Prädiktoren), empfehlen wir die Interpretation dieser Statistik mit Vorsicht. Parameterschätzungen f. Daysabs - Dies ist die Antwortvariable in der negativen Binomialregression. Darunter befinden sich die Prädiktorvariablen, der Intercept und der Dispersionsparameter. G. Coef. - Dies sind die geschätzten negativen Binomialregressionskoeffizienten für das Modell. Es sei daran erinnert, dass die abhängige Variable eine Zählvariable ist, die entweder über - oder unterdispergiert ist, und das Modell modelliert das Protokoll der erwarteten Zählung als eine Funktion der Prädiktorvariablen. Wir können den negativen Binomialregressionskoeffizienten wie folgt interpretieren: Für eine Einheitsänderung in der Prädiktorvariable wird erwartet, dass sich die Differenz der Protokolle der erwarteten Zählungen der Antwortvariablen durch den jeweiligen Regressionskoeffizienten bei den anderen Prädiktorvariablen in der Modell konstant gehalten werden. Mathnce - Dies ist die negative Binomial-Regression-Schätzung für eine einheitliche Erhöhung der mathematischen standardisierten Testergebnisse, da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler ihre Mathnce-Test-Punktzahl um einen Punkt erhöhen würde, wird erwartet, dass die Differenz in den Protokollen der erwarteten Zählungen um 0,0016 Einheiten sinkt, während die anderen Variablen in der Modellkonstante gehalten werden. Langnce - Dies ist die negative Binomial-Regression-Schätzung für eine einheitliche Erhöhung der sprach-standardisierten Testergebnisse, da die anderen Variablen im Modell konstant gehalten werden. If a student were to increase her langnce test score by one point, the difference in the logs of expected counts would be expected to decrease by 0.0143 unit, while holding the other variables in the model constant. female - This is the estimated negative binomial regression coefficient comparing females to males, given the other variables are held constant in the model. The difference in the logs of expected counts is expected to be 0.4312 unit higher for females compared to males, while holding the other variables constant in the model. cons - This is the negative binomial regression estimate when all variables in the model are evaluated at zero. For males (the variable female evaluated at zero) with zero mathnce and langnce test scores, the log of the expected count for daysabs is 2.2849 units. Note that evaluating mathnce and langnce at zero is out of the range of plausible test scores. If the test scores were mean-centered, the intercept would have a natural interpretation: the log of the expected count for males with average mathnce and langnce test scores. /lnalpha - This is the estimate of the log of the dispersion parameter, alpha . given on the next line. alpha - This is the estimate of the dispersion parameter. The dispersion parameter alpha can be obtained by exponentiating /lnalpha . If the dispersion parameter equals zero, the model reduces to the simpler poisson model. If the dispersion parameter, alpha . is significantly greater than zero than the data are over dispersed and are better estimated using a negative binomial model than a poisson model. H. Std. Err. - These are the standard errors for the regression coefficients and dispersion parameter for the model. They are used in both the calculation of the z test statistic, superscript i, and confidence intervals, superscript j. ich. z and Pgtz - These are the test statistic and p-value, respectively, that the null hypothesis that an individual predictors regression coefficient is zero, given that the rest of the predictors are in the model. The test statistic z is the ratio of the Coef. to the Std. Err. of the respective predictor. The z value follows a standard normal distribution which is used to test against a two-sided alternative hypothesis that the Coef. is not equal to zero. The probability that a particular z test statistic is as extreme as, or more so, than what has been observed under the null hypothesis is defined by Pgtz . J 95 Conf. Interval - This is the confidence interval (CI) of an individual negative binomial regression coefficient, given the other predictors are in the model. For a given predictor variable with a level of 95 confidence, wed say that we are 95 confident that upon repeated trials 95 of the CIs would include the quottruequot population regression coefficient. It is calculated as Coef. (z 945/2 )( Std. Err. ), where z 945/2 is a critical value on the standard normal distribution. The CI is equivalent to the z test statistic: if the CI includes zero, wed fail to reject the null hypothesis that a particular regression coefficient is zero, given the other predictors are in the model. An advantage of a CI is that it is illustrative it provides information on the precision of the point estimate. K. Likelihood-ratio test of alpha0 - This is the likelihood-ratio chi-square test that the dispersion parameter alpha is equal to zero. The test statistic is negative two times the difference of the log-likelihood from the poisson model and the negative binomial model, -2-1547.9709 -(-880.87312) 1334.1956 with an associated p-value of lt0.0001. The large test statistic would suggest that the response variable is over-dispersed and is not sufficiently described by the simpler poisson distribution. Incidence Rate Ratio Interpretation The following is the interpretation of the negative binomial regression in terms of incidence rate ratios, which can be obtained by nbreg, irr after running the negative binomial model or by specifying the irr option when the full model is specified. This part of the interpretation applies to the output below. Before we interpret the coefficients in terms of incidence rate ratios, we must address how we can go from interpreting the regression coefficients as a difference between the logs of expected counts to incidence rate ratios. In the discussion above, regression coefficients were interpreted as the difference between the log of expected counts, where formally, this can be written as 946 log( 956 x01 ) - log( 956 x0 ), where 946 is the regression coefficient, 956 is the expected count and the subscripts represent where the predictor variable, say x, is evaluated at x 0 and x 0 1 (implying a one unit change in the predictor variable x). Recall that the difference of two logs is equal to the log of their quotient, log( 956 x01 ) - log( 956 x0 ) log( 956 x01 / 956 x0 ), and therefore, we could have also interpreted the parameter estimate as the log of the ratio of expected counts: This explains the quotratioquot in incidence rate ratios. In addition, what we referred to as a count is technically a rate. Our response variable is the number of days absent over the school year, which by definition, is a rate. A rate is defined as the number of events per time (or space). Hence, we could also interpret the regression coefficients as the log of the rate ratio: This explains the quotratequot in incidence rate ratio. Finally, the rate at which events occur is called the incidence rate thus we arrive at being able to interpret the coefficients in terms of incidence rate ratios from our interpretation above. Also, each subject in our sample was followed for one school year. If this was not the case (i. e. some subjects were followed for half a year, some for a year and the rest for two years) and we were to neglect the exposure time, our regression estimates would be biased, since our model assumes all subjects had the same follow up time. If this was an issue, we would use the exposure option, exposure( varname ) . where varname corresponds to the length of time an individual was followed to adjust the poisson regression estimates. ein. IRR - These are the incidence rate ratios for the negative binomial regression model shown earlier. mathnce - This is the estimated rate ratio for a one unit increase in math standardized test score, given the other variables are held constant in the model. If a student were to increase his mathnce test score by one point, his rate for daysabs would be expected to decrease by a factor of 0.9984, while holding all other variables in the model constant. langnce - This is the estimated rate ratio for a one unit increase in language standardized test score, given the other variables are held constant in the model. If a student were to increase his langnce test score by one point, his rate for daysabs would be expected to decrease by a factor 0.9857, while holding all other variables in the model constant. female - This is the estimated rate ratio comparing females to males, given the other variables are held constant in the model. Females compared to males, while holding the other variable constant in the model, are expected to have a rate 1.539 times greater for daysabs. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.
No comments:
Post a Comment