dev-blog

Was macht eigentlich ein Data Scientist?

Als Data Scientist bin ich Teil des Dev-Teams bei karriere.at und hab meine Leidenschaft zu Daten zum Beruf gemacht. Den größten Teil meiner Zeit beschäftige ich mich – wenig überraschend und wie wahrscheinlich jeder Data Scientist – mit der Bearbeitung von Daten (data munging). Denn wie man so schön sagt: „Real world data is messy“. Klingt unspannend und trocken – ist es aber nicht, das Berufsfeld eines Data Scientist ist sehr abwechslungsreich.

Data Science und Data Scientist sind zwei Bezeichnungen, die man heute immer häufiger in der IT-Branche zu hören bekommt. Trends von Jobportalen zeigen, dass die Suche nach Data Scientists stetig zunimmt. Und manchmal wird Data Science sogar als der „sexiest job of the 21th century“ bezeichnet. Aber was steckt nun eigentlich hinter diesen beiden Begriffen?

“Here’s a lot of data, what can you make from it?”

Unternehmensdaten bergen enormes Potential und sowohl die Menge an Daten als auch deren Komplexität steigt. Unternehmen wird zunehmend klar, dass sie dieses Potenzial nutzen müssen, um wettbewerbsfähig zu bleiben. Denn mit jeder weiteren Datenquelle (Stichwort: Social Media Plattformen) steigen die Chancen und Möglichkeiten, diese Daten im Interesse des eigenen Geschäftsmodells zu analysieren und zu nutzen. Data Science ist jetzt aber mehr als nur bloße Datenanalyse. Kurz gesagt: Es umfasst alle Methoden und Ansätze, um aus einer riesigen Datenmenge mittels intelligenter Analyse nutzbare Erkenntnisse zu gewinnen.

Data Science ist ein sehr interdisziplinäres Berufsfeld und ein Data Scientist bringt daher einen ausgewogenen Mix aus unterschiedlichen Fähigkeiten und Kenntnissen mit.

„The modern data scientist seems more like a unicorn than an actual individual“

Ich denke, Data Science beschreibt schon ganz gut was, was Data Scientists eigentlich tun: Eine Kombination aus Programmierung, Datenanalyse und Problemlösung. So sollen

  1. die richtigen Fragen und die dazu passenden Daten gefunden (Anwendungskenntnisse, Datenbankerfahrung, Datenaufbereitung),
  2. die Daten analysiert (mathematische, aber vor allem statistische Kenntnisse),
  3. passende Modelle angewendet (Statistik, Machine Learning, Data Mining)
  4. und die daraus gewonnenen Erkenntnisse in ein Produkt/Produktivsystem integriert werden (Programmierkenntnisse, Tool-Kenntnisse).

Darüber hinaus soll ein Data Scientist analytisch denken können und über Kommunikations- und Präsentationsfähigkeiten verfügen. Denn auch Nicht-Techniker müssen mit ins Boot geholt und die Erkenntnisse an die Entscheidungsträger kommuniziert werden können.

„But what does a data scientist do all day?”

Suchen. Bereinigen. Aufbereiten. Aggregieren. Interpretieren. Suchen. Fragen. Hinterfragen. Kommunizieren. Und dann: Analysieren. Modellieren. Auswerten. Hinterfragen. Interpretieren. Wieder Hinterfragen. Und endlich: Erkenntnisse präsentieren.

Customer Profiling

Aber wie sieht das nun ganz konkret bei karriere.at aus? In den letzten Monaten habe ich mich mit Customer Profiling beschäftigt. Denn karriere.at ist nicht nur ein Portal für Jobsuchende, sondern auch ein Portal für Unternehmen, wodurch natürlich die Neukundenakquise einen hohen Stellenwert einnimmt. Im Zuge der Optimierung der Neukundenakquise haben sich bei karriere.at beispielsweise folgende Fragenstellungen ergeben: Wie wahrscheinlich ist es, dass ein Unternehmen Kunde bei karriere.at wird? Und wie sieht unser typischer Kunde aus?

Solche Fragestellungen erfordern erstmals ein sogenanntes Kunden-Profiling bzw. das Erstellen einer Kunden Signatur. Diese Signatur ist ein Snapshot eines jeden Kunden, charakterisiert ihn und ermöglicht in Folge die Analyse. Generell schwieriger gestaltet sich die Signatur-Erstellung für Unternehmen, die im Laufe der letzten Jahre nicht Kunde wurden.

Für die Erstellung einer solchen Signatur sind anfangs jede Menge Transformationsvorgänge (Verdichtung der Daten, Vereinheitlichung, Bereinigung) und Interpretationen notwendig. Verdichtung der Daten bedeutet, dass beispielsweise Daten nur zusammengefasst pro Quartal analysiert werden. Die Vereinheitlichung verringert zusätzlich die Komplexität der Daten indem Wertausprägungen zu definierten Kategorien zugeordnet werden. Die Interpretation der Daten soll u.a. noch aufzeigen, wo es noch Optimierungspotential in der Datenaufbereitung gibt. Beispielweise überprüft man, ob es noch Merkmale gibt, die sehr viele unterschiedliche Werte aufweisen und man hinterfragt vor allem was genau fehlende Einträge (sogenannte NULLs) in einem konkreten Merkmal bedeuten.

Hat man beide Signaturen, können Methoden (u.a. Entscheidungsbäume) verwendet werden, die ein Muster von Unternehmenseigenschaften offenbaren, die wahrscheinlicher zu einem Neukundengewinn führen.

Mein Werdegang

Im Laufe meines Informatikstudiums an der JKU Linz hab’ ich mich immer mehr für Wissensverarbeitung interessiert und deshalb auch im Fachbereich der Informationsextraktion (Gewinnung von Informationen aus natürlichsprachlichen Dokumenten, wie etwa Lebensläufen) mein Studium abgeschlossen.

Das wissenschaftliche Arbeiten und das Experimentieren mit neuen Methoden und Ansätzen fand ich damals schon sehr spannend und blieb deswegen fast acht Jahre an der Uni, um mich noch weiter in diesem Themengebiet zu spezialisieren. Die Schwerpunkte meiner Forschung blieben zwar bei der Informationsextraktion, dem Data Mining und der Datenanalyse, standen aber immer mehr unter dem Aspekt der Datenqualität. In diesem Bereich war auch meine Dissertation angesiedelt.

So viele Jahren an der Uni waren zwar sehr lehrreich und intensiv, aber ich wollte mein Wissen nicht immer nur in Prototypen enden lassen, sondern auch mal in einem Produkt verwirklicht wissen. So habe ich mich initiativ bei karriere.at beworben und siehe da – jetzt darf ich mit wirklich richtig vielen echten Daten arbeiten.

Wenn du auch gerne mal wissen möchtest, ob du ein Data Scientist wärst und welchen Typ du verkörpern würdest, kannst du einen Blick in die aktuelle SAS Studie „Der Data Scientist: Typen, Talente, Trends…“ werfen.

Christina Feilmayr

Data Scientist Christina beschreibt sich selbst als leidenschaftliche Analystin, die in Konzepten denkt und gern Neues ausprobiert. Je innovativer, desto besser. In ihrem Leben draußen beschäftigt sich die „Bubenmama“ mit „Bubendings“: Autos, Werkzeugbänken und Duplo-Lego. Sonst: Sport, Laufen, Foodblogs und Kochen!

Integration Testsets mit Gradle

Pokémon Go Farm Party: #willstdufangstdu

Code Quality matters