FV-48 | Limitierte Daten vs. Mikrodaten bei der Modellierung von Einkommensverteilungen

Prof. Dr. Christian Kleiber, Dr. Tsvetana Spasova

Econometrics and Statistics

Forschungsfrage:
Das Projekt befasst sich mit den Konsequenzen limitierter Daten, speziell gruppierter Daten, für die Modellierung von Einkommensverteilungen und mit der Analyse von Einkommensungleichheit auf Basis solcher Daten.

 

Ziel des Projektes:
Das Projekt besteht aus zwei Teilen. Der erste Teil untersucht die Schätzung von Einkommensverteilungen aus limitierten Daten in einem Vergleich mit detaillierten Mikrodaten. Als Datengrundlage dienen neueste Mikrodaten der EU-SILC-Erhebung von Eurostat (ca. eine halbe Million Haushalte aus allen EU-Staaten sowie ausgewählten weiteren Staaten im Rahmen von Kooperationsabkommen, darunter die Schweiz und neuerdings auch Russland). Ziel ist die Identifikation geeigneter Schätzmethoden. Der zweite Teil untersucht den Informationsverlust durch limitierte Daten für Kennzahlen der Einkommensverteilung, speziell den in den Medien oft verwendeten Gini-Koeffizienten. Ziele sind Empfehlungen für Datenanbieter (z.B. statistische Ämter und internationale Organisationen), wie sich dieser Informationsverlust klein halten lässt.

 

Realisierte Schritte:
Aus der aktuellsten Version der Daten von Eurostat wurden künstlich vergröberte (‘limitierte’) Daten erzeugt. Da verschiedene Datenanbieter (darunter Eurostat, aber auch lateinamerikanische Quellen) Einkommensdaten nur in der Form von ausgewählten Quantilen allgemein zur Verfügung stellen, wurde eine „Minimum Distance”-Methode untersucht, die Methode der „Minimum Quantile Distances“ (MQD). Sie passt theoretische Quantile einer geeigneten Verteilung an die Quantile einer vorliegenden empirischen Verteilung an. In der Terminologie der Ökonometrie handelt es sich um einen Generalized Method of Moments (GMM)-Ansatz, die konkret verwendete Methode scheint aber in der Literatur zu Einkommensverteilung bisher unbeachtet geblieben zu sein. Frau Spasova hat sie in ihrer Dissertation wohl erstmals auf Einkommensdaten angewendet. Das vorliegende Projekt nutzt im Vergleich zur Dissertation allerdings eine erweiterte Datenbasis und untersucht auch methodische Aspekte wie den Einfluss von Variationen der „Momentenbedingungen“ (also hier der verwendeten Quantile) auf die Schätzung.

Die Ergebnisse zeigen, dass sich für alle untersuchten Länder schon aus Dezildaten (dies entspricht neun Stützstellen der Verteilung) mit der MQD-Methode sehr gute Schätzungen für die gesamte Einkommensverteilung gewinnen lassen, jedenfalls sofern man eine hinreichend flexible Verteilung zugrunde legt (wir nutzen die sog. Dagum-Verteilung). In Versuchen mit noch stärker vergröberten Daten, also weniger als neun Quantilen, werden die Schätzungen oft schlechter, insbesondere bei asymmetrischer Wahl der Quantile. Eine technische Erklärung für diesen empirischen Befund wäre wünschenswert, sprengt aber den Rahmen dieses Projekts.

Für das andere Teilprojekt wurden für alle 32 Länder der aktuellen EU-SILC-Daten Zerlegungen des Gini-Koeffizienten nach ausgewählten Quantilen (wegen der oben genannten Datenquellen insb. den Dezilen) bestimmt und deren Variation im Querschnitt der Länder untersucht. Zerlegungen des Gini-Koeffizienten nach Dezilen zeigen, dass innerhalb der so entstehenden Gruppen die Ungleichheit am grössten in den extremen Dezilen (also unterstes bzw. oberstes) ist. Dies ist besonders ausgeprägt für die russischen Daten, mit denen wir hier erstmals arbeiten können. Ursache könnte die für Russland geringere Datenqualität sein, dieser Frage können wir aber mangels geeigneten Vergleichsmaterials nicht selbst nachgehen. Interessant für das Projekt ist jedenfalls, dass für alle Länder sogar die Werte für die untersten und obersten Dezile deutlich unter den theoretisch möglichen Obergrenzen für die Ungleichheit bleiben. Damit sind manche Abschätzungen aus der methodischen Literatur für die Praxis unnötig konservativ; ein Ergebnis, das für Datenanbieter wie internationale Organisationen und statistische Ämter interessant ist. Woran dies genau liegt und unter welchen Bedingungen man bessere (also engere) Schranken finden kann, wird uns noch weiter beschäftigen.

Frau Spasova hat Ergebnisse beider Teilprojekte bereits an einer grösseren Zahl von Tagungen vorgestellt (s.u.).

 

Noch zu realisierende Schritte:
Das Projekt ist abgeschlossen. Insbesondere der zweite Teil ist weiter entwicklungsfähig und sollte künftig noch zu einer Publikation führen.

 

Publikationen und Konferenzbeiträge:
Im Spätsommer erscheint ein WWZ Discussion Paper:

Spasova, Tsvetana (2017). "Estimating Income Distributions From Grouped Data: A Minimum Quantile Distance Approach”.

Für Vorträge im vergangenen Jahr verweisen wir auf den letzten Jahresbericht. Diese bezogen sich alle auf das erste Teilprojekt. In diesem Jahr hat Frau Spasova Material im Zusammenhang mit dem zweiten Teilprojekt an folgenden Konferenzen vorgestellt bzw. wird es noch vorstellen:

·         Jahrestagung des International Institute of Public Finance (IIPF), Tokyo, Japan, August 2017.

·         Dynamics, Economic Growth and International Trade (DEGIT XXII), Paris, Frankreich, September 2017.

·         International Conference on Inequality, Bologna, Italien, November 2017.