aus der Praxis

02 Jun
Corona 02- Darstellung der täglichen Entwicklungen

Nach dem Überblick im Blog vom 28. Mai soll nun die aktuelle Situation dargestellt werden. Basis sind wieder die Daten des RKI, die in eine analytische Datenbank (OLAP) überführt wurden.

Zuerst betrachten wir die die Entwicklung der Anzahl der aktiven Fälle in den letzten 2 Wochen in Deutschland: die Werte sinken deutlich.

Auf Ebene der Bundesländer betrachten wir die absolute Veränderung zum Vortag (31. Mai vs. 1. Juni):

Abweichung zum Vortag (31.5. => 1.6.)

Wieder ist die Anzahl der Neuinfektionen in fast allen Bundesländern (Ausnahme Thüringen) gesunken, wobei zu berücksichtigen ist, dass die Datenlage aufgrund des Pfingstwochenendes möglicherweise unvollständig ist. Anmerkung: Negative Werte bei den Positiv getesten erklären sich aus Umschlüsselungen im Datenbestand.

Die Normierung (Darstellung je 100.000 Einwohner macht die Daten vergleichbar:

Werte je 100 Tsd. Einwohner: Abweichung zum Vortag (31.5. => 1.6.)

Differenzierter stellt sich die Lage auf Ebene der einzelnen Regionen (Kreise) dar. Im ersten Schritt wird die Entwicklung der aktiven Fälle im Vergleich zum Vortag dargestellt. Die Werte stehen für die Anzahl der betroffenen Regionen:

Entwicklung der aktiven Fälle bezogen auf die Anzahl der betroffenen Regionen

Insgesamt weisen 165 Regionen einen Rückgang der aktiven Fälle auf, in 194 ist es unverändert während eine Zunahme bei 53 Kreisen zu beobachten ist.

Hier gibt es Ausreißer, die sich gegen den Trend entwickeln. Dabei wurden die 10 Regionen mit der stärksten Zunahme der Fallzahlen berücksichtigt. Dargestellt werden wieder normierte Werte, also je 100 Tsd Einwohner.

Top 10 Regionen (bezogen auf neue Infektionen) je 100 Tsd. Einwohner

In den Medien wurde bereits auf die Lage in Göttingen eingegangen, sodass sie etwas genauer betrachtet werden soll. Bei einer Einwohnerzahl von ca. 320 Tsd entspricht der Wert von 7,6 einer Anzahl von Neuinfektionen von 25. Hier eine Aufgliederung nach Altersgruppen und Geschlecht.

Corona: Aufgliederung nach Alter und Geschlecht.
Positiv getestete Personen: Aufgliederung nach Altersgruppe und Geschlecht

Betroffen sind Schwerpunkt jüngere männliche Personen.

Im nächsten Blog wird auf die Verteilung der Fallzahlen eingegangen.

28 Mai
Analyse von RKI Coronadaten

Am Beispiel der Coronadaten des RKI (Robert-Koch Institut) möchte ich den Einsatz von analytischen Datenbanken (OLAP) zeigen. Mit ihnen ist es möglich Datenbestände aus verschiedenen „Richtungen“ zu betrachten, Kennzahlen zu bilden und Verteilungen zu ermitteln. Technisch werden die Daten mit der Datei RKI_COVID19.CSV zur Verfügung gestellt.

Der (fast) täglich bereitgestellte Datensatz umfasst die nach Region, Geschlecht, Alter und Datum getrennten Zahlen für Positiv getestete, Todesfälle und Genesende. Als abgeleitete Größe bleiben die aktiven Fälle. Für den 28.5.2020 ergibt sich nach Bundesländern aufgeschlüsselt folgende Situation:

 

Innerhalb der Bundesländer erlaubt die Hierarchie die Betrachtung einzelner Regionen (Kreise etc.). Hier ein Beispiel:

Die 10 am stärksten betroffenen Regionen (Anzahl der Positiv Getesteten mit Stand vom 28.5.2020) sind:

 

Um die Daten miteinander vergleichbar zu machen, werden sie auf jeweils 100.000 Einwohner bezogen. Am stärksten betroffen sind Bayern, Baden-Württemberg,  und das Saarland.

Eine andere Betrachtungsrichtung gibt den Blick auf die Altersgruppe. Auffällig dabei ist die Häufung der Todesfälle in den höheren Altersklassen. Betrachtet man die Letalität (Rate der Todesfälle der infizierten) ergibt sich eine deutliche Zunahme mit höherem Alter und ein unterschiedliches Verhalten zwischen männlichen und weiblichen Erkrankten. 

Tabelle Letalität

Die höchste Letalität von über einem Drittel (weist die Gruppe der männlichen Erkrankten in der höchsten Altersgruppe (80+) auf. Regional zeigen sich auch hier starke Unterschiede:

Regionen mit mehr als 10 Todesfällen und Letalität >= 50% (männlich, Altersgruppe 80+)

Im nächsten Blog geht es weiter mit der Betrachtung der Entwicklung Zeitablauf und Verteilungsrechnungen.

05 Jan
Anomalien finden: „Einer ist anders“

Häufig besteht die Aufgabe eines Sachverständigen darin, Hinweise auf Anomalien zu finden. Datenbestände, die eigentlich weitgehend homogen sein müssten sind auf Ausreißer zu untersuchen. Leider sind diese erst einmal nicht so gut zu erkennen wie die sprichwörtlichen schwarzen Schafe in einer Herde von Tieren mit hellem Fell.

Ein Weg dazu ist die Verteilungsanalyse in Kombination mit einer Visualisierung der Ergebnisse. Durch die 1-2-5 Transformation mit anschließender grafischer Darstellung wird der Ausreißer sofort sichtbar. Im folgenden Beispiel handelt es sich von Antwortzeiten verschiedener Datenbankanwendungen. Es wird sofort deutlich, welche der Anwendungen einmal genauer untersucht werden muss.

Dieser Ansatz lässt sich global einsetzen, etwa bei der Umsatz-/Absatzanalyse, Störungen, Reklamationen usw.

Kontakt aufnehmen …

19 Mrz
Strukturanalyse

Die Zeitpunkt-bezogene Analyse gibt bereits einen guten Eindruck von der Struktur des Untersuchungsobjektes und kann schon erste Auffälligkeiten zeigen. Eine wesentlich größere Aussagekraft hat die Analyse im Zeitablauf. In einem Sachverständigengutachten wird damit visualisiert,  ob und in welchem Umfang Strukturänderungen oder -Brüche vorliegen.

Ein Beispiel aus einer Umsatzanalyse soll dies zeigen. Basis ist die Darstellung nach dem Businesslog (1-2-5), bei dem die einzelnen Umsätze den  Größenklassen (1-2-5-10-20-50-100 etc.) zugeordnet werden. Als Erweiterung wird hier nun die Zeit als weitere Dimension  mit dazu genommen (hier Jan-Dez).

Erwartungsgemäß sehen wir einen Anstieg der Umsätze im November und Dezember (Jahresendgeschäft). Ansonsten ist das Geschäft geprägt von Umsätzen in mittleren Klassen.

Auffällig ist ein Gipfel im März in der Umsatzklasse von 2.000 €. Hier werden gut 9% des Jahresumsatzes realisiert; ähnliche Gipfel finden sich sonst nirgends im Datenbestand, sodass hier eine weitere Untersuchung angesetzt werden muss. (Im vorliegenden Fall stellte sich heraus, dass die Daten hier manipuliert worden waren).

Kontakt aufnehmen …

15 Mrz
BusinessLog: 1-2-5 Darstellung

Bei Sachverständigengutachten sind i.d.R. die Ergebnisse zu visualisieren. Die Darstellung kaufmännischer Daten ist dabei häufig schwierig. Als Beispiel soll dies an einer Umsatzverteilung gezeigt werden.Dabei ist eine große Bandbreite abzubilden; so gibt es etwa Kundin mit einem eher geringen Volumen, eine größere Anzahl mittlere und einige (wenige) große.

Eine lineare Klassenbildung  führt zu wenig aussagekräftigen Darstellungen (vgl. Grafik lineare Klassen).

Abhilfe schafft dabei eine logarithmische Darstellung, bei der nicht die absoluten Werte sondern deren Logarithmus dargestellt wird. Bei der Verwendung des 10er Logarithmus (Basis 10) erhält man eine recht grobe Klasseneinteilung, die zu wenig Details darstellen kann. Die Verwendung des natürlichen Logarithmus (Basis n, die Euler‘sche Zahl) ist im kaufmännischen Bereich untypisch und führt zu einer wenig intuitiven Klasseneinteilung.

Eine Lösung stellt der BusinessLog dar, der sich an der bekannten Münzeinteilung orientiert:

1,2, 5,10, 20,50 …

Mit jeweils 3 Stufen ist eine Zehnerpotenz abgebildet, entsprechend können mit 21 Stufen bereits Millionen abgedeckt werden. Hier die Grenzen für die ersten 9 Klassen:

Ein bereits beschriebenes Anwendungsbeispiel ist die RFM-Analyse.

Folgendes Vorgehen hat sich bewährt: zunächst wird auf Basis einer Stichprobe die Verteilung überprüft. Dazu können die Daten einfach in Klassen auf Basis des natürlichen Logarithmus eingeteilt werden. Bei einer Vorabbetrachtung lässt sich dann schnell entscheiden, ob die Voraussetzungen für eine derartige Darstellung vorliegen. Ist dies der Fall,  kann dann die ein wenig aufwändigere Transformation in die 1-2-5 Darstellung erfolgen.

Kontakt aufnehmen …