Willkommen im Institut für Digitale Forschung und Bildung Stata-Datenanalyse Beispiele Trunkierte Regression Version info: Der Code für diese Seite wurde in Stata 12 getestet. Die abgeschnittene Regression wird verwendet, um abhängige Variablen zu modellieren, für die einige der Beobachtungen nicht in die Analyse einbezogen werden Der Wert der abhängigen Variablen. Bitte beachten Sie: Auf dieser Seite soll gezeigt werden, wie Sie verschiedene Befehle zur Datenanalyse verwenden können. Es deckt nicht alle Aspekte des Forschungsprozesses, die Forscher erwartet werden, zu tun. Sie umfasst insbesondere keine Datenreinigung und - prüfung, Verifizierung von Annahmen, Modelldiagnosen oder potenzielle Folgeanalysen. Beispiele für trunkierte Regression Beispiel 1. Eine Studie von Schülern in einem speziellen GATE-Programm (begabte und talentierte Ausbildung) möchte die Leistung als eine Funktion der Sprachkenntnisse und der Art des Programms, in dem der Schüler derzeit eingeschrieben ist, modellieren. Ein wichtiges Anliegen ist, dass die Schüler müssen eine Mindestleistung von 40 haben, um das spezielle Programm geben. So wird die Stichprobe mit einem Erreichungspunkt von 40 abgeschnitten. Beispiel 2. Ein Forscher hat Daten für eine Stichprobe von Amerikanern, deren Einkommen oberhalb der Armutsgrenze liegt. Daher wird der untere Teil der Einkommensverteilung abgeschnitten. Wenn der Forscher eine Stichprobe von Amerikanern hatte, deren Einkommen auf oder unter der Armutsgrenze lag, wäre der obere Teil der Einkommensverteilung abgeschnitten. Mit anderen Worten, die Verkürzung ist ein Ergebnis der Abtastung nur eines Teils der Verteilung der Ergebnisvariablen. Beschreibung der Daten Lets verfolgen Beispiel 1 von oben. Wir haben eine hypothetische Datendatei, truncreg. dta. Mit 178 Beobachtungen. Die Ergebnisvariable heißt achiv. Und die Sprachtestpartitur wird als Langscore bezeichnet. Die Variable prog ist eine kategoriale Vorhersagevariable mit drei Stufen, die die Art des Programms angibt, in dem die Studenten eingeschrieben wurden. Schauen wir uns die Daten an. Es ist immer eine gute Idee, mit deskriptiven Statistiken zu beginnen. Analysemethoden, die Sie berücksichtigen könnten Im Folgenden finden Sie einige Analysemethoden, die Sie möglicherweise vorgefunden haben. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Gunst gefallen oder haben Einschränkungen. OLS-Regression - Sie könnten diese Daten mit OLS-Regression zu analysieren. OLS-Regression die Schätzwerte der Koeffizienten nicht an, um den Effekt der Verkürzung der Probe bei 40 zu berücksichtigen, und die Koeffizienten können stark vorgespannt sein. Dies kann als Modellspezifikationsfehler konzipiert werden (Heckman, 1979). Trunkierte Regression - Truncated Regression adressiert die Bias, die bei der Verwendung von OLS-Regression mit abgeschnittenen Daten eingeführt wird. Beachten Sie, dass bei verkürzter Regression die Varianz der Ergebnisvariable im Vergleich zur nicht abgeschnittenen Verteilung reduziert wird. Wenn der untere Teil der Verteilung abgeschnitten wird, dann ist der Mittelwert der abgeschnittenen Variablen größer als der Mittelwert aus der nicht abgeschnittenen Variablen, wenn die Trunkierung von oben ist, wird der Mittelwert der abgeschnittenen Variablen kleiner als die nicht abgeschnittene Variable sein. Diese Typen von Modellen können auch als Heckman-Selektionsmodelle konzipiert werden, die verwendet werden, um die Abtastauswahlvorspannung zu korrigieren. Zensierte Regression - Manchmal sind die Begriffe Abschneiden und Zensieren verwirrt. Mit zensierten Daten haben wir alle Beobachtungen, aber wir wissen nicht, die wahren Werte von einigen von ihnen. Bei der Trunkierung werden einige der Beobachtungen aufgrund des Wertes der Ergebnisvariablen nicht in die Analyse einbezogen. Es wäre unangemessen, die Daten in unserem Beispiel mit einem zensierten Regressionsmodell zu analysieren. Trunkierte Regression Im folgenden verwenden wir den truncreg-Befehl, um ein abgeschnittenes Regressionsmodell abzuschätzen. Das i. Bevor prog anzeigt, dass es eine Faktorvariable (d. H. Kategorische Variable) ist, und dass sie als eine Reihe von Indikatorvariablen in das Modell aufgenommen werden sollte. Die Option ll () im Befehl truncreg gibt den Wert an, bei dem die linke Trunkierung stattfindet. Es gibt auch eine ul () Option, um den Wert der rechten Trunkierung anzuzeigen, die in diesem Beispiel nicht benötigt wurde. Die Ausgabe beginnt mit einer Notiz, die angibt, dass Null-Beobachtungen abgeschnitten wurden. Dies liegt daran, dass unsere Stichprobe keine Daten mit Werten von weniger als 40 für die Leistung enthielt. Der Notiz folgt das Iterationsprotokoll, das die Werte der Log-Likelihoods abgibt, die mit einem Modell beginnen, das keine Prädiktoren aufweist. Der letzte Wert in dem Protokoll ist der endgültige Wert der Protokollwahrscheinlichkeit und wird nachstehend wiederholt. Die Kopfdaten werden als nächstes bereitgestellt. Auf der linken Seite sind die unteren und oberen Grenzen der Trunkierung und eine Wiederholung der letzten Log-Wahrscheinlichkeit. Auf der rechten Seite ist die Anzahl der verwendeten Beobachtungen (178) zusammen mit dem Wald-Chi-Platz mit drei Freiheitsgraden angegeben. Das Wald-Chi-Quadrat ist, was Sie erhalten würden, wenn Sie den Testbefehl nach der Schätzung des Modells verwendet haben, um zu testen, dass alle Koeffizienten Null sind. Schließlich gibt es einen p-Wert für den Chi-Quadrat-Test. Insgesamt ist dieses Modell statistisch signifikant. In der Tabelle der Koeffizienten haben wir die verkürzten Regressionskoeffizienten, den Standardfehler der Koeffizienten, die Wald z-Tests (Koeffizient / se) und den jedem z-Test zugeordneten p-Wert. Standardmäßig erhalten wir auch ein Konfidenzintervall von 95 für die Koeffizienten. Mit der Option level () können Sie ein anderes Konfidenzintervall anfordern. Die Nebenstatistik / Sigma entspricht dem Standardfehler der Schätzung bei der OLS-Regression. Der Wert von 8,76 kann mit der Standardabweichung der Leistung von 8,96 verglichen werden. Dies zeigt eine bescheidene Reduktion. Die Ausgabe enthält auch eine Schätzung des Standardfehlers von / sigma sowie eines Konfidenzintervalls für diesen Wert. Das abgestumpfte Regressionsmodell, das die Leistung aus den Sprachwerten und dem Programmtyp vorhersagt, war statistisch signifikant (chi-quadratisch 54.76, df 3, p) Wenn Sie trunkierte Regressionsmodelle vergleichen möchten, können Sie den Befehl estat ic ausgeben, um die Log-Wahrscheinlichkeit AIC und BIC zu erhalten Die Truncreg-Ausgabe enthält weder eine R 2 noch eine Pseudo-R 2. Sie können eine grobe Schätzung des Assoziationsgrades durch Korrelation von achiv mit dem vorhergesagten Wert und Quadrieren des Ergebnisses berechnen Der berechnete Wert von .31 ist grobe Schätzung von Die R 2 würden Sie in einer OLS-Regression zu finden. Die quadrierte Korrelation zwischen den beobachteten und vorhergesagten akademischen Eignung Werte beträgt etwa 0,31, was darauf hinweist, dass diese Prädiktoren für mehr als 30 der Variabilität in der Ergebnisvariable verantwortlich. Die zu prüfen Statas truncreg Befehl ist entworfen Zu arbeiten, wenn die Trunkierung auf dem Ergebnis Variable im Modell ist. Es ist möglich, Proben, die auf der Grundlage eines oder mehrerer Prädiktoren abgeschnitten sind. Zum Beispiel, Modellierung College GPA als eine Funktion der High School GPA (HSGPA) und SAT-Scores beinhaltet Ein Muster, das auf der Grundlage der Prädiktoren abgeschnitten wird, dh nur Schüler mit höheren HSGPA - und SAT-Scores werden in das College aufgenommen. Sie müssen vorsichtig sein, welcher Wert als Trunkierungswert verwendet wird, da er die Schätzung der Koeffizienten und Standardfehler beeinflusst. Im obigen Beispiel hätten wir statt ll (40) ll (39) verwendet. Wären die Ergebnisse etwas anders gewesen. Es spielt keine Rolle, dass es keine Werte von 40 in unserer Stichprobe. Siehe auch Literatur Greene, W. H. (2003). Ökonometrische Analyse, Fünfte Auflage. Upper Saddle River, NJ: Prentice Hall. Heckman, J. J. (1979). Sample Auswahl Bias als Spezifikation Fehler. Ökonometrie. Band 47, Nr. 1, Seiten 153 bis 161. Long, J. S. (1997). Regressionsmodelle für kategoriale und begrenzte abhängige Variablen. Thousand Oaks, CA: Sage Veröffentlichungen. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt von der Universität von Kalifornien ausgelegt werden. Willkommen für das Institut für digitale Forschung und Bildung Stata Annotierte Ausgabe Trunkierte Regression Diese Seite zeigt ein Beispiel von Trunkierte Regressionsanalyse mit Fußnoten, die den Ausgang erklären. Ein trunkiertes Regressionsmodell prognostiziert eine Ergebnisvariable, die auf eine abgeschnittene Probe ihrer Verteilung beschränkt ist. Zum Beispiel, wenn wir das Alter der lizenzierten Autofahrer vor Fahrsituationen vorhersagen wollen, wird unsere Ergebnisvariable mit 16 (die gesetzliche Fahrzeit in den USA) abgeschnitten. Während die Bevölkerung der Altersgruppen unter 16, unsere Stichprobe der Bevölkerung nicht. Es ist wichtig, den Unterschied zwischen abgeschnittenen und zensierten Daten zu beachten. Bei zensierten Daten gibt es Einschränkungen für die Messskala, die es uns nicht erlauben, den wahren Wert der abhängigen Variablen trotz einer gewissen Messung davon zu kennen. Betrachten Sie den Tacho in einem Auto. Der Geschwindigkeitsmesser kann Geschwindigkeiten bis zu 120 Meilen pro Stunde messen, aber alle Geschwindigkeiten gleich oder größer als 120 mph werden als 120 mph gelesen werden. So, wenn der Tachometer misst die Geschwindigkeit zu 120 Meilen pro Stunde, könnte das Auto 120 Meilen pro Stunde oder eine größere Geschwindigkeit - wir haben keine Möglichkeit zu wissen. Zensierte Daten schlagen Grenzen für die Messskala der Ergebnisvariablen vor, während abgeschnittene Daten die Grenzwerte für die Ergebnisvariable in der interessierenden Stichprobe einschränken. In diesem Beispiel werden wir studieren Studium der Schüler in einem speziellen GATE (begabten und talentierten Ausbildung) Programm. Wir wollen die Leistung (achiv) als Funktion des Geschlechts, der Sprachkenntnisse und der mathematischen Fähigkeiten (weiblich, langscore und mathscore im Datensatz) modellieren. Ein wichtiges Anliegen ist, dass die Schüler eine Mindestleistung von 40, um das spezielle Programm eingeben. Somit wird die Stichprobe mit einem Erreichungspunkt von 39 abgeschnitten. Zuerst können wir die Daten untersuchen. Nun können wir ein trunkiertes Regressionsmodell in Stata mit dem truncreg-Befehl erzeugen. Zuerst werden die Ergebnisvariable, dann die Prädiktoren und die untere und / oder obere Grenze aufgelistet. Unsere Daten sind nur linksbündig, so dass wir nur eine untere Grenze, ll (40) angeben. Trunkierte Regression Ausgabe a. (Anmerkung: 0 verkürzt) - Dies zeigt an, wie viele Beobachtungen im Modell Variablenwerte unterhalb der unteren Grenze oder oberhalb der oberen Grenze des Funktionsaufrufs ermittelt haben. In diesem Beispiel ist es die Anzahl der Beobachtungen, bei denen achiv lt 40. Der minimale Wert von achiv, der in der Datenzusammenfassung aufgelistet wurde, war 41, so dass es keine Beobachtungen gab, die abgeschnitten wurden. B. Passendes Vollmodell - Dies ist die Iterationsgeschichte des abgeschnittenen Regressionsmodells. Es listet die Log-Likelihoods bei jeder Iteration auf. Die abgeschnittene Regression verwendet eine Maximum-Likelihood-Schätzung, die eine iterative Prozedur ist. Die erste Iteration (Iteration 0) ist die logarithmische Wahrscheinlichkeit des Quotnullquot - oder Quotemptyquot-Modells, dh eines Modells ohne Prädiktoren. Bei der nächsten Iteration (Iteration 1) werden die spezifizierten Prädiktoren in das Modell aufgenommen. In diesem Beispiel sind die Prädiktoren weiblich, langscore und mathscore. Bei jeder Iteration erhöht sich die Protokollwahrscheinlichkeit, weil das Ziel darin besteht, die Protokollwahrscheinlichkeit zu maximieren. Wenn die Differenz zwischen aufeinanderfolgenden Iterationen sehr klein ist, wird angenommen, dass das Modell den Wert "convergeverquot" hat und die Iteration stoppt. Weitere Informationen zu diesem Prozess für binäre Ergebnisse finden Sie unter Regressionsmodelle für kategoriale und begrenzte abhängige Variablen von J. Scott Long (Seite 52-61). C. Lower - Zeigt den unteren Grenzwert für die Ergebnisvariable an. In diesem Beispiel ist die untere Grenze 40. d. Upper - Zeigt den oberen Grenzwert für die Ergebnisvariable an. In diesem Beispiel haben wir keine Obergrenze angegeben, daher wird angenommen, dass sie unendlich ist. D. h. Log likelihood - Dies ist die Log-Wahrscheinlichkeit des eingebauten Modells. Es wird in dem Likelihood Ratio Chi-Quadrat Test verwendet, ob alle Prädiktoren Regressionskoeffizienten im Modell gleichzeitig Null sind. F. Anzahl obs - Dies ist die Anzahl der Beobachtungen im Datensatz, bei denen die Ergebnis - und Prädiktorvariablen alle nicht fehlende Werte haben. G. Wald chi2 (3) - Dies ist die Wald-Chi-Quadrat-Statistik. Es wird verwendet, um die Hypothese zu testen, dass mindestens einer der Prädiktoren Regressionskoeffizienten ungleich Null ist. Die Zahl in den Klammern gibt die Freiheitsgrade der Chi-Quadrat-Verteilung an, die zum Testen der Wald-Chi-Quadrat-Statistik verwendet wird, und wird durch die Anzahl der Prädiktoren im Modell (3) definiert. H. Prob gt chi2 - Dies ist die Wahrscheinlichkeit, eine Wald-Test-Statistik so extrem zu erhalten, oder mehr, als die beobachtete Statistik unter der Nullhypothese, dass die Nullhypothese ist, dass alle Regressionskoeffizienten über beide Modelle gleichzeitig gleich Null sind. Mit anderen Worten, dies ist die Wahrscheinlichkeit, diese Chi-Quadrat-Statistik (89.85) oder ein weiteres Extrem zu erhalten, wenn es tatsächlich keine Wirkung der Prädiktorvariablen gibt. Dieser p-Wert wird mit einer spezifizierten Alpha-Ebene verglichen, unsere Bereitschaft, einen Typ-I-Fehler zu akzeptieren, der typischerweise auf 0,05 oder 0,01 eingestellt ist. Der kleine p-Wert aus dem Test, lt0,0001, würde zu dem Schluss kommen, dass mindestens einer der Regressionskoeffizienten im Modell ungleich Null ist. Der Parameter der Chi-Quadrat-Verteilung, die verwendet wird, um die Nullhypothese zu testen, wird durch die Freiheitsgrade in der vorherigen Zeile, chi2 (3), definiert. ich. Achiv - Dies ist die Ergebnisvariable, die vom Modell vorhergesagt wird. J Coef. - Dies sind die Regressionskoeffizienten. Sie werden in derselben Weise wie die OLS-Regressionskoeffizienten interpretiert: Für eine Erhöhung der Prädiktorvariablen um eine Einheit ändert sich der Erwartungswert der Ergebnisvariablen durch den Regressionskoeffizienten, wenn die anderen Prädiktorvariablen im Modell konstant gehalten werden. Weiblich - Die erwartete Leistung für eine Studentin ist 2.290933 Einheiten niedriger als die erwartete Leistung Punktzahl für einen männlichen Studenten, während alle anderen Variablen in der Modellkonstante. Mit anderen Worten, wenn zwei Schüler, eine weibliche und eine männliche, identische Sprach-und Mathe-Scores, würde die vorhergesagte Leistung Punktzahl der männlichen 2.290933 Einheiten höher als die vorhergesagte Leistung des weiblichen Studenten. Langscore - Dies ist die geschätzte Regressionsschätzung für eine Einheitserhöhung im Langscore. Da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler ihre Langscore um einen Punkt zu erhöhen, würde ihre vorhergesagte Leistung Punktzahl um 5,064698 Einheiten erhöhen, während die anderen Variablen in der Modell-Konstante. So werden die Schüler mit höheren Sprachkenntnissen haben höhere vorhergesagte Ergebnisse als Schüler mit niedrigeren Sprach-Scores, halten die anderen Variablen konstant. Mathscore - Dies ist die geschätzte Regression Schätzung für eine Einheit Erhöhung der Mathscore. Da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler ihre Mathscore um einen Punkt zu erhöhen, würde ihre vorhergesagte Leistung Punktzahl um 5.004054 Einheiten erhöhen, während die anderen Variablen in der Modell-Konstante. So werden die Schüler mit höheren Mathe-Scores haben höhere vorhergesagte Leistungspunkte als Studenten mit niedrigeren Mathe-Scores, halten die anderen Variablen konstant. Cons - Dies ist die Regressionsschätzung, wenn alle Variablen im Modell bei Null ausgewertet werden. Für einen männlichen Schüler (die Variable weiblich bei null bewertet) mit langscore und mathscore von null, ist die vorhergesagte Leistung Punktzahl -0.2940047. Beachten Sie, dass die Auswertung von Langscore und Mathscore bei Null außerhalb des Bereichs der plausiblen Testergebnisse liegt. K. Std. Err. - Dies sind die Standardfehler der einzelnen Regressionskoeffizienten. Sie werden sowohl bei der Berechnung der z-Teststatistik, hochgestelltes l und dem Konfidenzintervall des Regressionskoeffizienten, Hochscript n verwendet. L. Z - Die Teststatistik z ist das Verhältnis des Coef. Zu den Std. Err. Des jeweiligen Prädiktors. Der z-Wert folgt einer Standard-Normalverteilung, die verwendet wird, um gegen eine zweiseitige alternative Hypothese zu testen, dass das Coef. Nicht gleich Null ist. M Pgtz - Dies ist die Wahrscheinlichkeit, dass die z-Teststatistik (oder eine extremere Teststatistik) unter der Nullhypothese beobachtet werden würde, dass ein spezieller Prädiktor-Regressionskoeffizient null ist, da der Rest der Prädiktoren im Modell vorliegt. Für eine gegebene Alpha-Ebene bestimmt Pgtz, ob die Nullhypothese zurückgewiesen werden kann oder nicht. Wenn Pgtz kleiner als alpha ist, dann kann die Nullhypothese verworfen und die Parameterabschätzung als statistisch signifikant auf dieser Alpha-Ebene betrachtet werden. Weiblich - Die z-Teststatistik für das Prädiktor-Weibchen ist (-2.290933 / 1.490333) -1.54 mit einem zugehörigen p-Wert von 0.124. Wenn wir unsere Alpha-Ebene auf 0,05 setzen, würden wir es versäumen, die Nullhypothese zurückzuweisen und zu folgern, dass der Regressionskoeffizient für weiblich nicht statistisch unterschiedlich von Null gewesen ist, wenn langscore und mathscore im Modell liegen. Langscore - Die z-Teststatistik für das Prädiktor-Langscore ist (5.064698 / 1.037769) 4.88 mit einem zugehörigen p-Wert von lt0.001. Wenn wir unseren Alpha-Pegel auf 0,05 setzen, würden wir die Nullhypothese zurückweisen und darauf schließen, dass der Regressionskoeffizient für Langscore sich als statistisch von Null unterscheidet und die Mathematik im Modell liegt. Mathscore - Die z-Teststatistik für den Prädiktor mathscore ist (5.004054 / 0.9555717) 5.24 mit einem zugehörigen p-Wert von lt0.001. Wenn wir unsere Alpha-Ebene auf 0,05 setzen, würden wir die Nullhypothese zurückweisen und folgern, dass der Regressionskoeffizient für Mathscore sich als statistisch von Null unterscheidet, wenn Frauen und Langscore im Modell vorliegen. Cons - Die z-Teststatistik für den Intercept, cons. Ist (-0.2940047 / 6.204858) -0.05 mit einem zugehörigen p-Wert von 0.962. Wenn wir unseren Alpha-Pegel auf 0,05 setzen, würden wir die Nullhypothese nicht zurückweisen und darauf schließen, dass Nachteile nicht als statistisch unterschiedlich von null gefunden wurden. Langscore und mathscore sind im Modell und werden bei null ausgewertet. N ist. 95 Konf. Interval - Dies ist das Vertrauensintervall (CI) für einen individuellen Koeffizienten, wenn die anderen Prädiktoren im Modell sind. Für einen gegebenen Prädiktor mit einem Niveau von 95 Vertrauen, sagen wir, dass wir 95 zuversichtlich, dass der Quottruequot-Koeffizient zwischen der unteren und oberen Grenze des Intervalls liegt. Es wird als das Coef berechnet. (Z 945/2) (Std. Err.), Wobei z 945/2 ein kritischer Wert auf die Standardnormalverteilung ist. Der CI ist äquivalent zu der z-Teststatistik: Wenn die CI Null enthält, kann wed die Nullhypothese nicht zurückweisen, dass ein bestimmter Regressionskoeffizient Null ist, wenn die anderen Prädiktoren im Modell liegen. Ein Vorteil eines CI ist, dass es illustrativ ist es bietet einen Bereich, wo der Quottruequot-Parameter liegen kann. O. / Sigma - Dies ist der geschätzte Standardfehler der Regression. In diesem Beispiel ist der Wert 7,739053 vergleichbar mit dem quadratischen Grundfehler, der bei einer OLS-Regression erhalten würde. Wenn wir eine OLS-Regression mit dem gleichen Ergebnis und Prädiktoren liefen, wäre unsere RMSE 6.8549. Dies zeigt an, wie stark das Ergebnis von dem vorhergesagten Wert variiert. / Sigma approximiert diese Grße für eine abgeschnittene Regression. Der Inhalt dieser Website sollte nicht als eine Bestätigung für ein bestimmtes Website-, Buch - oder Softwareprodukt von der University of California interpretiert werden. Einführung in die Stata Graphics Stata enthält eine Vielzahl von Tools für die Erstellung von Grafiken mit grafischer Qualität. Zwischen der Vielfalt der Graphen, die Sie machen können und die schiere Zahl der Details, die Sie in einem Diagramm steuern können, können Stata Grafiken ein einschüchterndes Thema sein. Allerdings müssen Sie wahrscheinlich nur ein paar verschiedene Arten von Graphen zu machen, und in den meisten Fällen Statas Standardeinstellungen werden gut. Was ist mehr, statas grafische Benutzeroberfläche (GUI) organisiert die verschiedenen Grafik-Optionen auf eine intuitive Weise, so dass Sie sie finden können, wenn Sie sie brauchen, ohne die Syntax für jeden einprägen. Das bedeutet nicht, sollten Sie nicht Ihre Grafik-Befehle in do Dateien, sobald Sie sie erstellt haben, aber es bedeutet, dass für komplexe Grafiken können Sie die GUI verwenden, um die Befehle youll Store erstellen. Stata 10 hat auch einen Graphen-Editor hinzugefügt, mit dem Sie einen Graphen ändern können, nachdem Sie ihn erstellt haben. Dies gibt Ihnen noch mehr Kontrolle über Ihre Grafik, aber im Gegensatz zu der GUI für das Erstellen einer Grafik der Editor nicht geben Ihnen einen Befehl, den Sie später ausführen können. Wenn Sie später irgendwelche Änderungen an Ihren Daten vornehmen, müssen Sie Ihre Grafik von Grund auf neu starten. So ist es besser, die Grafik, die Sie wollen an erster Stelle, wo möglich zu erstellen, aber der Editor ist immer noch eine sehr nützliche Ergänzung. Dieser Artikel beschreibt die Erstellung von Graphen mit dem Stata-GUI, die Struktur der Graph-Befehlssyntax (ohne zu viele Details zu verweigern), einige gängige Graphenarten und den Grapheneditor. Sie sollten eine gewisse Vertrautheit mit grundlegenden Stata vor Beginn (wenn Sie nicht, betrachten Sie mit Stata für Forscher oder Stata für Studenten). Der beste Weg, um diesen Artikel zu verwenden, ist es am Computer zu lesen und tatsächlich durchführen die Schritte beschrieben. Die Beispiele in diesem Artikel verwenden die Automobil-Dataset, die mit Stata kommt, so beginnen mit der Eingabe: um es zu laden. Fühlen Sie sich frei zu experimentieren, wie Sie gehen, vor allem mit den Einstellungen, die wir diskutieren (in der Regel, weil theyre entweder ziemlich offensichtlich oder selten verwendet). Das Erstellen einer Grafik wird nie ändern Sie Ihre Daten, so dass das Schlimmste, was passieren kann, ist, dass Ihre Grafik entpuppt sich als nutzlos oder einfach nur hässlich. Erstellen von Graphen mit der grafischen Benutzeroberfläche Beginnen Sie mit einem einfachen Streudiagramm mit Gewicht als X-Variable und mpg als Y-Variable. Stata bezieht sich auf alle Graphen, die eine Y-Variable und eine X-Variable als Twoway-Graph aufweisen, also klicken Sie auf Graphics. Twoway-Diagramm. Der nächste Schritt besteht darin, ein Diagramm zu definieren. In Stata-Terme sind einige spezifische Daten in einer bestimmten Weise visualisiert, z. B. Quoten-Streudiagramm von mpg auf Gewicht. Eine Grafik ist ein ganzes Bild, einschließlich Achsen, Titeln, Legenden, etc. Auch kann eine einzelne Grafik enthalten Mehrere Plots. Das grundlegende twoway Dialogfeld erlaubt Ihnen, so viele Plots zu definieren, wie Sie benötigen, und die anderen Eigenschaften des Diagramms zu steuern. Um ein Diagramm zu definieren, klicken Sie auf Erstellen. Youll erhalten dann ein Dialogfeld, in dem Sie die Handlung beschreiben können, die Sie wollen. Lassen Sie die Kategorie auf Basisplots und den Typ auf Scatter gesetzt. Für die Y-Variable wählen oder geben Sie mpg ein. Und für die X-Variable wählen oder Typ Gewicht. (Anmerkung: Linux Stata erlaubt es Ihnen nicht, Variablen auszuwählen, also müssen Sie ihre Namen eingeben.) In Windows Stata können Sie entweder tun.) Wenn Sie auf Senden klicken. Wird das Diagramm ohne Schließen des Dialogfelds erstellt. Dies ermöglicht Ihnen, über die Ergebnisse zu sehen und dann leicht Anpassungen und versuchen Sie es erneut. Klicken Sie auf Jetzt einreichen und erhalten Sie eine einfache, aber professionell aussehende Streudiagramm. Hinzufügen weiterer Variablen Wenn Sie dem Scatterplot eine zweite Y-Variable hinzufügen möchten, ist es am einfachsten, den Namen in das Y-Feld einzugeben, nachdem Sie bereits ausgewählt haben. Stata erlaubt es nicht, mehrere Variablen aus der Liste mit der Maus auszuwählen, aber es hat keine Schwierigkeiten das Verständnis mehrerer Variablen in der Y-Variablen-Box, solange man sie selbst dort. Um einen sinnvollen Graphen mit zwei Y-Variablen (ohne multiple Skalierung) zu erhalten, benötigen wir Variablen mit ähnlichen Werten. Die Stammvariable qualifiziert, also geben Sie sie in der Y-Variablenbox nach mpg ein und klicken Sie erneut auf Submit. Das Ergebnis ist ein Streudiagramm mit beiden Variablen. Beachten Sie, wie Stata automatisch die beiden Variablen in verschiedenen Farben und fügt eine Legende erklärt, welche ist. Der Legendentext wird aus den Variablenbeschriftungen gezeichnet, aber Sie können alle diese Standardverhalten überschreiben, wenn Sie dies wünschen. Plotten einer Teilmenge der Daten Wenn nur bestimmte Beobachtungen berücksichtigt werden sollen, können Sie durch Anklicken der Registerkarte if / in angeben. Sie können dann eine Bedingung im If eingeben. Und nur Beobachtungen, die die Bedingung erfüllen, werden in der Handlung eingeschlossen. Geben Sie das Wort nicht ein. Wie angenommen wird. Um nur ausländische Autos zu plotten, geben Sie in der If. Box. Erinnern Sie sich, dass in Stata eins wahr ist und Null ist falsch, und fremd ist entsprechend kodiert. Also, wenn fremd ist äquivalent zu, wenn foreign1. Klicken Sie auf Submit und youll bekommen eine viel spärlicher Grafik. Sie können auch kompliziertere Ausdrücke verwenden. Zum Beispiel geben Sie fremden amp pricelt10000 und youll erhalten nur die Autos, die beide ausländische und kosten weniger als 10.000 (in 1978 Dollar). Steuern der Markierungen Standardmäßig markiert jeder Punkt einen kleinen Punkt, aber Sie können dies ändern. Klicken Sie erneut auf die Registerkarte Plot, und für beste Ergebnisse setzen Sie die Y-Variable wieder auf nur mpg. Klicken Sie dann auf Markereigenschaften. Symbol auf Hohlkreis setzen. Nächste Prüfung Markierungen zu Markierungen hinzufügen und die zu erstellende Variable setzen. Und klicken Sie dann auf Senden. Wie Sie sehen, ist jeder Punkt jetzt ein hohler Kreis mit dem Namen des Autos, das neben ihm gedruckt wird, aber viele der Namen überschneiden sich. Sie können die Situation etwas verbessern, indem Sie den Etikettenwinkel auf 45 Grad ändern. Aber im Allgemeinen können Sie nur auf einem Streudiagramm nützliche Etiketten setzen, wenn es eine kleine Anzahl von Beobachtungen hat und sie sich ausbreiten. Overlaying Plots Next well kombinieren mehrere Plots. Deaktivieren Sie Markierungen zu Markierungen hinzufügen. Klicken Sie auf Akzeptieren, um diese Einstellungen für die Marker-Eigenschaften zu übernehmen und zum Fenster Plot 1 zurückzukehren, und klicken Sie erneut auf Akzeptieren, um das Diagramm so zu akzeptieren, wie es ist, und kehren Sie zum Hauptfenster zurück. Klicken Sie auf Erstellen, um dem Diagramm ein weiteres Diagramm hinzuzufügen. Dieses Mal gut machen eine Linie Handlung. Setzen Sie den Diagrammtyp auf Linie. Und wählen Sie wieder mpg und Gewicht als die Y und X-Variablen. Klicken Sie auf Senden, um das Ergebnis zu sehen. Sein wahrscheinlich nicht, was Sie erwartet hatten - in der Tat sieht es wie ein Gekritzel aus. Das ist, weil durch Rückstellung Stata die Linie von der Beobachtung eins zur Beobachtung zwei zur Beobachtung drei und so weiter zeichnet. Was Sie wollen, ist eine Zeile von der Beobachtung mit dem niedrigsten Gewicht zu dem mit dem nächstkleineren Gewicht, etc. Das ist, warum Stata das Kontrollkästchen Sort on x Variable enthalten. Dies ändert nicht die tatsächliche Reihenfolge der Beobachtungen in Ihrem Datensatz, nur die Reihenfolge, in der sie in Ihrem Liniendiagramm verbunden sind. Überprüfen Sie es und klicken Sie erneut auf Submit. Dieses Mal sollten Sie die Grafik erhalten, die Sie erwartet haben. Beachten Sie, dass, während die Linie verbindet alle Punkte in der Streudiagramm, geht es zu einer Menge von Punkten, die die Streudiagramm nicht enthalten. Das ist, weil Sie nicht eine wenn Bedingung für das Linienplot gesetzt, also sein, das alle Beobachtungen in den Daten plotten. Die Möglichkeit, verschiedene, wenn Bedingungen für verschiedene Plots zu setzen ist sehr nützlich, obwohl youll beachten Sie, dass die twoway-Fenster hat eine eigene if / in-Registerkarte, die für alle Plots gilt. Linieneigenschaften Sie können steuern, wie die Linie aussieht, indem Sie auf Linieneigenschaften klicken. Die am häufigsten verwendete Option ist hier Muster. Standardmäßig unterscheidet Stata verschiedene Liniendiagramme nach Farbe, aber das hilft nicht, wenn das Diagramm in Schwarzweiß gedruckt werden muss. Sie können also für jede Zeile ein Muster setzen. (Alternativ können Sie auch ein Schema für den Druck auswählen). Um es in Aktion zu sehen, setze Muster auf Dash. Versuchen Sie auch, die Verbindungsmethode auf Stairstep zu setzen. Plotting Subsamples Lets zurück zu nur plotten mpg vs Gewicht. Aber dieses Mal können die ausländischen Autos eine Farbe und die heimischen Autos ein anderes machen. Sie können dies tun, indem Sie zwei Grundstücke, eine für die ausländischen Autos und eine für die heimischen Autos, die jeweils eine wenn Bedingung, die es beschränkt, um die richtige Subpopulation. Dann wird Stata machen sie verschiedene Farben automatisch. Beginnen Sie, indem Sie alles zurücksetzen. Klicken Sie zweimal auf Akzeptieren, um zum Hauptfenster zurückzukehren, und klicken Sie dann unten links auf die R-Taste (), um die Plots zurückzusetzen. Klicken Sie anschließend auf Erstellen. Verlassen Sie den Typ als Scatter. Setzen Sie die Y-Variable auf mpg und setzen Sie die X-Variable auf Gewicht. Klicken Sie dann auf if / in und in der If. Kastenart fremd. Das Ausrufezeichen ist Stata für quotnotquot so bedeutet dies quotnot foreignquot und ist äquivalent zu foreign0. So wird diese Handlung nur die einheimischen Autos. Klicken Sie auf Akzeptieren, um zum Hauptfenster zurückzukehren, klicken Sie erneut auf Erstellen und wiederholen Sie den gesamten Vorgang mit einem wichtigen Unterschied: diesmal im If. Box nur Typ ausländischen. Diese Handlung wird nur die ausländischen Autos. Klicken Sie auf Senden, um das Ergebnis zu sehen. Die resultierende Grafik sehr schön macht die heimischen Autos blau und die ausländischen Autos rot. Allerdings gibt die Legende keine Angabe, welche ist. Um das zu tun, müssen Sie die Kontrolle über die Legende selbst übernehmen. Kontrolle des Erscheinungsbildes eines Graphen Sie haben keine Optionen zur Steuerung der Legende gesehen, weil wir uns bisher auf die Eigenschaften einzelner Plots konzentriert haben. Die Legende ist nicht mit einem bestimmten Grundstück verknüpft, weil es möglicherweise Informationen aus allen Plots enthält. Um es zu erreichen, müssen Sie auf Akzeptieren klicken und zum zweiten Fenster zurückkehren. Dies ist, wo Sie steuern Aspekte der Grafik als Ganzes, einschließlich der Legende. Legenden Klicken Sie auf die Registerkarte Legende. Das Legendenverhalten steuert nur, ob die Legende angezeigt wird oder nicht. Da Stata denkt, dass unsere Grafik eine haben sollte und wir uns einig sind, können wir sie auf Default setzen. Auf der anderen Seite bieten die Standardtasten keine nützlichen Informationen für diese Grafik, so dass wir sie überschreiben müssen. Überprüfen Sie die Standardtasten überschreiben. Dann in das Feld unten, müssen Sie die Anzahl der einzelnen Plot, gefolgt von, wie Sie es markiert werden (in Anführungszeichen). Für diesen Diagrammtyp: 1 quotDomestic Carsquot 2 quotForeign Carsquot Jetzt klicken Sie auf Submit und youll erhalten Sie eine Grafik mit einer nützlichen Legende. Beachten Sie, dass die Reihenfolge, in der Sie die Plots auflisten, die Reihenfolge ist, in der sie in der Legende auftauchen: Wenn Sie 2 quotForeign CarsCot 1 quotDomestic Carsquot eingeben, würde die Legende die ausländischen Autos zuerst setzen. Die Schaltfläche Organisation / Darstellung öffnet ein Dialogfenster mit allen möglichen Optionen, die sich auf die Darstellung der Legende beziehen. Klicken Sie auf die Registerkarte Organisation, und legen Sie Zeilen / Spalten zu Spalten fest (lassen Sie sie auf nur eine Spalte setzen). Über die Registerkarten "Labels" und "Region" können Sie das Erscheinungsbild des Legendentextes bzw. der gesamten Legendenbox steuern. Die verschiedenen Optionen wie Größen und Farben sind selbsterklärend, aber diese Optionen erscheinen in vielen verschiedenen Kontexten so lohnt es sich einen Augenblick zu experimentieren und zu sehen, wie sie funktionieren. Wählen Sie einige verschiedene Farben und solche nur zu sehen, wie sie funktionieren. Klicken Sie anschließend auf Akzeptieren, um zum Hauptfenster zurückzukehren. Über die Schaltfläche Placement können Sie steuern, wo die Legende in der Grafik platziert wird. Um zu verstehen, wie Orte spezifiziert sind, stellen Sie sich das Gesicht einer analogen Uhr über Ihr Diagramm: 12 Uhr ist die Oberseite, 6 Uhr die Unterseite, 3 Uhr die rechte Seite usw. Sie können auch festlegen, dass die Legende innerhalb des Diagrammbereichs geht Anstatt im Grenzbereich um ihn herum - nur stellen Sie sicher, dass es nicht bedecken etwas wichtiges. Versuchen Sie, die Position auf 12 Uhr zu setzen und die Legende in der Plotregion zu überprüfen. Klicken Sie dann auf Senden, um die Ergebnisse anzuzeigen. Titel Sie können der Legende einen Titel hinzufügen, indem Sie auf der Registerkarte "Titel" im Fenster "Eigenschaften der Legende" und im Fenster "Eigenschaften der Darstellung" einen Titel angeben. Klicken Sie dazu auf Akzeptieren, um wieder zum Haupt-Twoway-Fenster zurückzukehren, und klicken Sie dann auf die Registerkarte Titles. Dies gibt Ihnen vier Felder, in denen Sie Text setzen können: den Titel. Untertitel. Beschriftung und Hinweis. Der einfachste Weg, um zu sehen, was jeder bedeutet, ist, sie auszuprobieren, so geben Sie Titel. Untertitel. Beschriftung und Notiz in den entsprechenden Feldern und klicken Sie auf Senden, um das Ergebnis zu sehen. Wie Sie sehen, gehen Titel und Untertitel an die Spitze, während Untertitel und Anmerkung unten links gehen. Jeder hat auch eine bestimmte Schriftgröße zugeordnet. Dies sind jedoch nur Voreinstellungen. Click on the Properties button associated with each one and you can change its position and format. (Legend titles work in the same way, but they appear inside the legend box.) If you want the text to be split across multiple lines, put each line in quotes. To see this in action, replace Title with quotFirst Linequot quotSecond Linequot and click Submit . Axes Next well consider the axes of the graph. Click on the Y axis tab (the X axis tab is identical) and the first thing youll see is the Title box. If a plot has just one Y variable, the default title for the Y axis is that variables label if it has one, or else simply its name. If all the plots have multiple Y variables, the default is no title at all. However, you can override the default by typing something here, and control its format by clicking Properties. Type in Miles Per Gallon and click Submit to see the effect. Major ticks are the marks along the axis with numbers by them that weve been seeing all along, but by clicking Major tick/label properties you can control how many there are and where they are placed. This is done by choosing one of several rules. Use the default rule allows Stata to choose, which it usually does pretty well. Suggest of ticks leaves most of the control to Stata but allows you to set roughly how many ticks there will be. Min Max puts ticks at just the bottom and top of the axis. Range/Delta gives you complete control as long as you want the ticks to follow a regular rule. For example, select Range/Delta. set the Minimum value to 0, the Maximum value to 40, and the Delta to 5, then click Submit to see the results. The result is a Y axis that starts at zero and has ticks every five units, but note that the graph continues up to 41 because one car got 41 miles per gallon. You can extend a graph by extending an axis (remember the default version of this graph started at ten) but you cannot truncate it. Stata will always make the graph big enough to plot all the observations in your data. If you really wanted the graph to stop at 40 youd have to add an if condition like mpglt40 . Custom rules allow you to place ticks anywhere you like and have them say whatever you like. The syntax is simply a list of numbers and associated labels. For example, select Custom and in the Custom rule box type 10 quotTerriblequot 20 quotMediocrequot 30 quotVery Goodquot . The result is a less informative but more eloquent graph. You could accomplish the same thing by putting value labels on the variable. If you already have value labels assigned just click on the Labels tab and check Use value labels . Every tick does not need a text label. For example, you could set the custom rule to 10 quotTerriblequot 15 20 quotMediocrequot 25 30 quotVery Goodquot 35 40 and get ticks every five units with labels at just 10, 20 and 30. However, this will cause the labels to overlap, or at least crowd each other. To fix that, click on the Labels tab and set Angle to Horizontal. Since this will force Stata to expand the margin to the left of the plot in order to make room for the labels, set the Size to v. Small . However, the text labels dont include the numbers 10, 20 or 30, which looks odd since the other tick marks do have numbers. To make those numbers appear, add them to the end of their respective text labels: 10 quotTerrible 10quot 15 20 quotMediocre 20quot 25 30 quotVery Good 30quot 35 40. That way theyll line up with the other numbers. Minor tick/label properties controls smaller ticks that go in between major ticks. They follow the same rules as major ticks, but the rules apply to the spaces between the major ticks rather than the whole axis. Obviously the default size is smaller as well, but they are otherwise similar. Axis line properties controls the appearance of the axis itself, while Axis scale propertie s controls its scale. This includes the ability to change it to a logarithmic scale, to reverse the scale, and to extend the scale (but not to truncate it--see the discussion above ). Using By with Graphs Using by in a graph does not give you a completely separate graph for each subpopulation, but it does give you a separate plots within a single graph. The graph we have been working with has become unwieldy, so start by clicking the reset button ( ). Then set up a scatter plot of mpg on weight just like we have made before. Click Accept to go back to the twoway window, then click on the By tab. Check the box for Draw subgraphs for unique values of variables and in the Variables box type or select foreign . Click Submit and youll see two scatter plots side-by-side, one for domestic cars and one for foreign cars. Now replace foreign with rep78. This variable takes on five values, plus it has some missing values. Check the boxes for Add a graph with totals and Add graphs for missing values and click Submit . The resulting graph has seven plots: one for each of the five standard values taken by rep78. one for observations which are missing rep78. and one for all observations. However, the default arrangement of these plots is not particularly attractive, so click on Subgraph organization . One option would be to put all the plots on one row for easy comparison: set Style to Compact, Rows/Columns to Rows and then the number of rows to 1. Click Submit to see the result--obviously if you wanted to use this youd have to do something about the X axis labels, but you know how to do that. Another possibility would be to go back to the original format, but move the Total graph to the center of the bottom row. First set the Style back to Default and Rows/Columns back to Default. and click Submit to take another look. This arrangement has room for nine plots in three rows with three plots each, and Stata numbers them left to right and then top to bottom. The Total graph is currently in the seventh position. If we tell Stata to leave the seventh position blank, it will automatically move to Total graph to the eighth position, which is in the center of the bottom row. To do so, check Force holes in the placement of graphs and in the Holes box type 7. Note that you could put multiple numbers in this box if you wanted to leave multiple holes. Click Submit to see the result. Now click Accept to get back to the twoway window. The Subgraph titles and Subgraph regions are all about controlling appearance and are similar to what youve seen before. Subgraph axes are a little more interesting. One problem with our last graph is that Stata tried to reduce clutter by only putting one set of axes per row and column, but given the layout it looks random. You can fix that by clicking Subgraph axes and then under Show Axes set both Y axes and X axes to Yes. While youre here, also set Rescale axes to Yes for for both axes. This tells Stata to choose the scale for each subgraph based on the points it contains rather than choosing one scale for all of them. This makes each subgraph look nicer, but makes it impossible to compare them (which may be the entire point of the graph). Overall Options Finally click on the Overall tab to see some general-purpose options for the whole graph. Schemes are stored sets of defaults. For example, the Economist scheme implements the graphics guidelines of the journal The Economist . The two monochrome schemes ( s1 monochrome and s2 monochrome ) are particularly useful if you need to print your graph in black and white. Feel free to experiment. Its also possible to create your own schemes. Try setting Scheme to s1 monochrome and then click Submit. Graph size can be confusing because when youre working with the graph in Stata, Stata will fit the graph in whatever size window you choose. However, when it comes to printing or exporting the graph Stata will make it match the size you set here. Region properties refers to the Plot region (everything inside a plot) and the Graph region (everything outside a plot). This is where you can make global changes to the appearance of your graph like changing background colors. Saving a Graph Once youve created the graph you want, you can save it by clicking File. Save As in the graphs window. However, you should choose what type of file to save it as carefully. The default, Stata Graph format (.gph), has the advantage of allowing you to make further changes to the graph with the graph editor. Aber. gph files cannot be placed in other files like Word documents or web pages. If you want to put your graph in a Word document use Enhanced Metafile format (.emf) or for web pages we suggest Portable Network Graphics (.png). Creating Graphs Using Commands As you worked through the previous sections youve probably noticed that Stata pasted a command into the Results window every time you created a graph. Stata used everything you clicked on to formulate the command, but its the command that actually created the graph. As you can see, the commands to create graphs are often very complicated. If you write the commands yourself you may be able to make them somewhat simpler, but not much. So why learn how to create graphs using commands at all First of all, for simple graphs it can be much faster. For example, you can create your basic scatter plot of mpg on weight simply by typing scatter mpg weight Second, even if youve created a graph using the graphical user interface you may want to modify it by recalling the command and making changes. Third, there are a very few things that cannot be done using the graphical user interface. On the other hand, theres little point in trying to learn the proper syntax for every graph option. Let the graphical user interface help you with details like choosing text sizes and colors. What you need to know is the basic syntax structure, and thats what well discuss. No matter how you created your graph, you should store the command in a do file. This allows you to recreate the graph later, if needed. It also serves as a record of how you created the graph. Graph Commands All graph commands really come down to one command: graph. It is followed by either a type of graph (e. g. graph bar ) or a family of graphs followed by a type of graph (e. g. graph twoway scatter ). Then comes whatever information is needed to create the graph itself. However, the most common graph types and families were also made standalone commands, which is why you can just type scatter mpg weight . For the ubiquitous twoway family (basically graphs with a Y axis and an X axis) what follows is a varlist. The last variable in the list is taken to be the X variable, and all the others are Ys--similar to how regress handles a varlist but in the opposite way. Graph commands can use if and in just like regular Stata commands: they go at the end of the command but before any options. Combining Plots If you want to include multiple plots in a graph, they must be separated either by putting them in parentheses or by putting two pipe characters between them ( ). Thus to create a graph containing two scatter plots of mpg on weight. one for foreign cars and one for domestic cars, you can type either: scatter mpg weight if foreign scatter mpg weight if foreign twoway (scatter mpg weight if foreign) (scatter mpg weight if foreign) Note how in the second case you had to start with twoway. Thats because a Stata command cant start with a parenthesis, but once you put it in the context of a twoway graph Stata will understand what you mean. By Graph commands cannot use the standard by: prefix, but most allow a by option that does the same thing: scatter mpg weight, by(foreign) Options Graph options follow the general option rule of going at the end of the command following a comma, but by that definition a single graph can contain several quotcommands. quot For example, the Sort on x variable checkbox for line plots translates into the sort option . but it has to stay with the line plot if the graph has more than one. Thus if you typed: line mpg weight scatter mpg weight, sort the sort option would be applied to the scatter plot, where it would do little good. Instead you should type line mpg weight, sort scatter mpg weight Things like titles are also options: scatter mpg weight, title(MPG vs Weight) Note that the text of the title does not have to go in quotes--unless it has a comma in it. You can use quotes to separate lines, just like when you typed it in the Title box. But what really makes life interesting is when your options have options. Suppose you wanted the title to be merely medium large ( medlarge ) rather than the default very large ( vlarge ), and also a dark red (specifically, cranberry ). You can make it so with the size and color options, but to make it clear what they are controlling the size and color of they have to go inside the titles parentheses. Yet they still follow a (single) comma. Thus the command becomes: scatter mpg weight, title(MPG vs Weight, size(medlarge) color(cranberry)) Of course its at this point that it becomes attractive to let the graphical user interface keep track of the proper placement of such things for you, not to mention letting you know that medlarge and cranberry are among the available options. For the rest of this article well type out the graph commands rather than using the graphical user interface, partially for practice but mostly because well be making fairly simple graphs and thats the quickest way to do so. Other Types of Graphs Stata can create dozens of different kinds of graphs--for a much larger sampling, see the Visual Overview on Statas web site. This section will discuss a few more that are fairly commonly used at the SSCC. Fit Lines Stata can plot several different kinds of fit lines automatically. The most common are lfit (linear fit), qfit (quadratic fit), lfitci (linear fit with confidence intervals) and qfitci (quadratic fit with confidence intervals. Theyre not very interesting by themselves--usually theyre overlaid on a scatter plot. The syntax is just like any other twoway graph. Type: scatter mpg weight lfit mpg weight (Or if you prefer, set up the scatter plot in the graphical user interface as usual, then add a second plot setting the plot category and type to Fit plots and choosing Linear prediction --but typing it will be a whole lot faster.) The versions that show confidence intervals need a little care because they can cover things up. Try: scatter mpg weight qfitci mpg weight Any points within the confidence interval are covered up by the shaded region. You can fix that by reversing the order of the plots in the command. However, qfitci is not one of the plot types that is recognized by itself, so you need to start with twoway : twoway qfitci mpg weight scatter mpg weight Now all the points are shown. Think of a Stata graph as a painting done with completely opaque paints. If you have multiple plots each plot is a layer of paint, and layers that are added later cover up what was there before. Thus plots that cover areas should be listed first, and anything that needs to go on top should be listed last. However, all these plots do is regress Y on X (or Y on X and X2) and plot the predicted values for Y. If you want to run a more complicated regression theres no automatic command to plot the predicted values. On the other hand, you can easily store the predicted values in a new variable and plot it. Suppose you wanted to plot the predicted probabilities you got from a logit of foreign on mpg (a clear case of reversing cause and effect, but the methodology doesnt care). No graph command will do this for you, but you can do it yourself: logit foreign mpg predict phat line phat mpg, sort The result looks reasonable, but try it as a scatter plot: scatter phat mpg This demonstrates that the only values of mpg represented in the graph are those represented in your data set (and keep in mind many observations have the same value of mpg ). That may or may not be a problem, but if you wanted to plot a smooth curve over the full range of mpg you could replace the actual values of mpg with made-up numbers that are evenly distributed from 14 to 41: gen realMPGmpg replace mpg(41-14)(n-1)/(N-1)14 predict phat2 scatter phat2 mpg replace mpgrealMPG Note that with multivariate regressions if you want to plot the effect of one variable you will probably need to set the others to their means before making predictions. Otherwise the line will jump all over due to the effects of the other variables. Bar Plots Stata does two very different kinds of bar plots. twoway bar is just a variation on what weve seen before: twoway bar mpg weight But theres also graph bar which is not part of the twoway family. It plots summary statistics (the default is mean) rather than values, and is normally used to compare between variables or between groups. Variables are simply listed, and the group variable is specified using the over option. For example: graph bar weight price, over(foreign) hbar is almost identical--it just turns everything sideways. graph hbar weight price, over(foreign) If you want to compare something other than the mean, put that statistic in parentheses before the list of variables: graph hbar (median) weight price, over(foreign) Histograms Histograms are very simple to create: Note that by default Stata does not put frequency on the Y axis, but probability density. This fits with the idea of a histogram being an approximation to the probability density function, but probably isnt how you were taught to make histograms back in grade school. You can have it plot frequencies using the frequency option ( percent is another that is frequently used). If you dont like Statas default bins you can take control by either setting the number of bins ( bin option) or the width of a bin ( width option). You can get the same results either way. The mpg variable goes from 12 to 41, for a total range of 29. Stata chose eight bins, which means each had a width of 29/83.625. If you wanted 10 bins, you could type: hist mpg, bin(10) frequency But youll get the exact same graph from hist mpg, width(2.9) frequency If you have discrete data, the discrete option tells Stata to choose bins accordingly. For example, if you just type: Stata will choose eight bins even though rep78 only has five values. The result is a confusing histogram of fairly simple data. However, if you add the discrete option Stata creates five bins for the five values: hist rep78, discrete The result is a much clearer graph. Kernel Densities You can overlay a kernel density on your histogram just by adding the kdensity option (theres also a normal option to add a normal density). hist mpg, width(2.9) frequency kdensity You can also create an independent kernel density plot with the kdensity command: The most commonly used option for kernel densities is bwidth. which sets the bandwidth. Compare: kdensity mpg, bwidth(5) kdensity mpg, bwidth(1) The Graph Editor Stata includes a graph editor that can be used to modify a graph after it has been created. Its big disadvantage is that it doesnt give you a command you can save in a do file and use to recreate the graph at will. However, it does allow you to make changes very simply and easily. To see it in action, make a simple scatter plot: scatter mpg weight Then click File. Start Graph Editor. Youre now ready to make changes to this graph. On the left are several buttons that place the graph editor in a particular mode. The top button, the arrow, puts it in pointer mode, which allows you to select an item on the graph to edit. For example, if you click on the plot part of the graph (i. e. inside the axes) youll be able to edit the plot region. Color and Margin will appear in the tool bar at the top, but if you click More youll be able to change many more properties. If you then click on a particular point you can change the plot itself. Now the immediate options are Plottype. Color. Größe. and Symbol. but you can again click More to see other things. As you do, note the Object Browser on the right. Stata keeps track of the various parts of a graph in a sort of tree structure, and as you click on things it will highlight the object youve selected. You can also select an object directly. For example, click title and you can add a title by typing it in the Text box. Type in MPG vs. Weight (1978 Cars) and press Enter to see the results. The next three buttons (the large T. the diagonal line, and the circle with a plus sign) allow you to add text, draw lines and place new points anywhere you need them. As an example, lets add the Toyota Prius for comparison (46 mpg and about 3000 pounds for a 2008 four-door). The smart way would be to add it to the dataset before making the graph, but well do it using the graph editor as an exercise. The first problem is that the graph ends at 42 mpg. To fix that select yaxis1 in the Object Browser and click More. Then set the Axis rule to Range/Delta with a Minimum value of 10. a Maximum value of 50 and a Delta of 5. Click OK and the graph will be rescaled--and more ticks will be added so we have a better chance at marking 46 accurately. Now click the circle with a plus sign on the left and then click as best you can at the location mpg46 (just above the line) and weight3000. This will create a hollow circle at that location by default, but note that you could change its appearance at will. Seeing the point on the graph makes it clearer that the real advantage of a Prius over a 1978 VW Diesel (the 1978 car with 41 MPG) is not the Prius somewhat higher MPG, but the fact that it gets that MPG despite being a much heavier car. Now click on the T to add text and then click to the right of the new point. This will give you the Textbox properties window. In the Text box type 2008 Toyota Prius for comparison and set the Size to Small. Then click OK . The bottom button on the left is the quotgrid editor. quot This allows you to make drastic changes to your graph, like rearranging the parts. Use with discretion, and saving your graph before changing anything is highly recommended. This is a good time to mention why you might want to save graphs in Stata format: while its true that you cant put them into documents that way, you can make changes to them in the graph editor. Thus you might want to keep two copies of important graphs, one in Stata graph format in case you need to make changes, and one in something like. emf format that you can insert into your paper. Last Revised: 6/7/2013
No comments:
Post a Comment