aus der Praxis

28 Mai
Analyse von RKI Coronadaten

Am Beispiel der Coronadaten des RKI (Robert-Koch Institut) möchte ich den Einsatz von analytischen Datenbanken (OLAP) zeigen. Mit ihnen ist es möglich Datenbestände aus verschiedenen „Richtungen“ zu betrachten, Kennzahlen zu bilden und Verteilungen zu ermitteln. Technisch werden die Daten mit der Datei RKI_COVID19.CSV zur Verfügung gestellt.

Der (fast) täglich bereitgestellte Datensatz umfasst die nach Region, Geschlecht, Alter und Datum getrennten Zahlen für Positiv getestete, Todesfälle und Genesende. Als abgeleitete Größe bleiben die aktiven Fälle. Für den 28.5.2020 ergibt sich nach Bundesländern aufgeschlüsselt folgende Situation:

 

Innerhalb der Bundesländer erlaubt die Hierarchie die Betrachtung einzelner Regionen (Kreise etc.). Hier ein Beispiel:

Die 10 am stärksten betroffenen Regionen (Anzahl der Positiv Getesteten mit Stand vom 28.5.2020) sind:

 

Um die Daten miteinander vergleichbar zu machen, werden sie auf jeweils 100.000 Einwohner bezogen. Am stärksten betroffen sind Bayern, Baden-Württemberg,  und das Saarland.

Eine andere Betrachtungsrichtung gibt den Blick auf die Altersgruppe. Auffällig dabei ist die Häufung der Todesfälle in den höheren Altersklassen. Betrachtet man die Letalität (Rate der Todesfälle der infizierten) ergibt sich eine deutliche Zunahme mit höherem Alter und ein unterschiedliches Verhalten zwischen männlichen und weiblichen Erkrankten. 

Tabelle Letalität

Die höchste Letalität von über einem Drittel (weist die Gruppe der männlichen Erkrankten in der höchsten Altersgruppe (80+) auf. Regional zeigen sich auch hier starke Unterschiede:

Regionen mit mehr als 10 Todesfällen und Letalität >= 50% (männlich, Altersgruppe 80+)

Im nächsten Blog geht es weiter mit der Betrachtung der Entwicklung Zeitablauf und Verteilungsrechnungen.

05 Jan
Anomalien finden: „Einer ist anders“

Häufig besteht die Aufgabe eines Sachverständigen darin, Hinweise auf Anomalien zu finden. Datenbestände, die eigentlich weitgehend homogen sein müssten sind auf Ausreißer zu untersuchen. Leider sind diese erst einmal nicht so gut zu erkennen wie die sprichwörtlichen schwarzen Schafe in einer Herde von Tieren mit hellem Fell.

Ein Weg dazu ist die Verteilungsanalyse in Kombination mit einer Visualisierung der Ergebnisse. Durch die 1-2-5 Transformation mit anschließender grafischer Darstellung wird der Ausreißer sofort sichtbar. Im folgenden Beispiel handelt es sich von Antwortzeiten verschiedener Datenbankanwendungen. Es wird sofort deutlich, welche der Anwendungen einmal genauer untersucht werden muss.

Dieser Ansatz lässt sich global einsetzen, etwa bei der Umsatz-/Absatzanalyse, Störungen, Reklamationen usw.

Kontakt aufnehmen …

19 Mrz
Strukturanalyse

Die Zeitpunkt-bezogene Analyse gibt bereits einen guten Eindruck von der Struktur des Untersuchungsobjektes und kann schon erste Auffälligkeiten zeigen. Eine wesentlich größere Aussagekraft hat die Analyse im Zeitablauf. In einem Sachverständigengutachten wird damit visualisiert,  ob und in welchem Umfang Strukturänderungen oder -Brüche vorliegen.

Ein Beispiel aus einer Umsatzanalyse soll dies zeigen. Basis ist die Darstellung nach dem Businesslog (1-2-5), bei dem die einzelnen Umsätze den  Größenklassen (1-2-5-10-20-50-100 etc.) zugeordnet werden. Als Erweiterung wird hier nun die Zeit als weitere Dimension  mit dazu genommen (hier Jan-Dez).

Erwartungsgemäß sehen wir einen Anstieg der Umsätze im November und Dezember (Jahresendgeschäft). Ansonsten ist das Geschäft geprägt von Umsätzen in mittleren Klassen.

Auffällig ist ein Gipfel im März in der Umsatzklasse von 2.000 €. Hier werden gut 9% des Jahresumsatzes realisiert; ähnliche Gipfel finden sich sonst nirgends im Datenbestand, sodass hier eine weitere Untersuchung angesetzt werden muss. (Im vorliegenden Fall stellte sich heraus, dass die Daten hier manipuliert worden waren).

Kontakt aufnehmen …

15 Mrz
BusinessLog: 1-2-5 Darstellung

Bei Sachverständigengutachten sind i.d.R. die Ergebnisse zu visualisieren. Die Darstellung kaufmännischer Daten ist dabei häufig schwierig. Als Beispiel soll dies an einer Umsatzverteilung gezeigt werden.Dabei ist eine große Bandbreite abzubilden; so gibt es etwa Kundin mit einem eher geringen Volumen, eine größere Anzahl mittlere und einige (wenige) große.

Eine lineare Klassenbildung  führt zu wenig aussagekräftigen Darstellungen (vgl. Grafik lineare Klassen).

Abhilfe schafft dabei eine logarithmische Darstellung, bei der nicht die absoluten Werte sondern deren Logarithmus dargestellt wird. Bei der Verwendung des 10er Logarithmus (Basis 10) erhält man eine recht grobe Klasseneinteilung, die zu wenig Details darstellen kann. Die Verwendung des natürlichen Logarithmus (Basis n, die Euler‘sche Zahl) ist im kaufmännischen Bereich untypisch und führt zu einer wenig intuitiven Klasseneinteilung.

Eine Lösung stellt der BusinessLog dar, der sich an der bekannten Münzeinteilung orientiert:

1,2, 5,10, 20,50 …

Mit jeweils 3 Stufen ist eine Zehnerpotenz abgebildet, entsprechend können mit 21 Stufen bereits Millionen abgedeckt werden. Hier die Grenzen für die ersten 9 Klassen:

Ein bereits beschriebenes Anwendungsbeispiel ist die RFM-Analyse.

Folgendes Vorgehen hat sich bewährt: zunächst wird auf Basis einer Stichprobe die Verteilung überprüft. Dazu können die Daten einfach in Klassen auf Basis des natürlichen Logarithmus eingeteilt werden. Bei einer Vorabbetrachtung lässt sich dann schnell entscheiden, ob die Voraussetzungen für eine derartige Darstellung vorliegen. Ist dies der Fall,  kann dann die ein wenig aufwändigere Transformation in die 1-2-5 Darstellung erfolgen.

Kontakt aufnehmen …