Analyse von RKI Coronadaten

28 Mai

Am Beispiel der Coronadaten des RKI (Robert-Koch Institut) möchte ich den Einsatz von analytischen Datenbanken (OLAP) zeigen. Mit ihnen ist es möglich Datenbestände aus verschiedenen „Richtungen“ zu betrachten, Kennzahlen zu bilden und Verteilungen zu ermitteln. Technisch werden die Daten mit der Datei RKI_COVID19.CSV zur Verfügung gestellt.

Der (fast) täglich bereitgestellte Datensatz umfasst die nach Region, Geschlecht, Alter und Datum getrennten Zahlen für Positiv getestete, Todesfälle und Genesende. Als abgeleitete Größe bleiben die aktiven Fälle. Für den 28.5.2020 ergibt sich nach Bundesländern aufgeschlüsselt folgende Situation:

 

Innerhalb der Bundesländer erlaubt die Hierarchie die Betrachtung einzelner Regionen (Kreise etc.). Hier ein Beispiel:

Die 10 am stärksten betroffenen Regionen (Anzahl der Positiv Getesteten mit Stand vom 28.5.2020) sind:

 

Um die Daten miteinander vergleichbar zu machen, werden sie auf jeweils 100.000 Einwohner bezogen. Am stärksten betroffen sind Bayern, Baden-Württemberg,  und das Saarland.

Eine andere Betrachtungsrichtung gibt den Blick auf die Altersgruppe. Auffällig dabei ist die Häufung der Todesfälle in den höheren Altersklassen. Betrachtet man die Letalität (Rate der Todesfälle der infizierten) ergibt sich eine deutliche Zunahme mit höherem Alter und ein unterschiedliches Verhalten zwischen männlichen und weiblichen Erkrankten. 

Tabelle Letalität

Die höchste Letalität von über einem Drittel (weist die Gruppe der männlichen Erkrankten in der höchsten Altersgruppe (80+) auf. Regional zeigen sich auch hier starke Unterschiede:

Regionen mit mehr als 10 Todesfällen und Letalität >= 50% (männlich, Altersgruppe 80+)

Im nächsten Blog geht es weiter mit der Betrachtung der Entwicklung Zeitablauf und Verteilungsrechnungen.