5 Daten im Kontext von KI
Ob Spamfilter, Übersetzungs-App oder Bildklassifikation – jedes KI-Modell trifft Entscheidungen auf Basis von Daten. Doch Daten sind unvollständig, verrauscht und oft zufällig. Genau deshalb setzt CRISP-DM als ersten Schritt auf Data Understanding. Statistik liefert die benötigten Werkzeuge, um Daten zu beschreiben, Muster sichtbar zu machen und Unsicherheiten zu erkennen. Sie öffnet die Blackbox nicht – aber sie hilft uns zu verstehen, ob die Ergebnisse plausibel sind.
5.1 Daten als Grundlage für Künstliche Intelligenz
Künstliche Intelligenz lebt von Daten. Ohne Daten kann kein Modell lernen, Muster zu erkennen oder Vorhersagen zu treffen. Trainingsdaten liefern die Beispiele, an denen ein Modell seine Struktur aufbaut; Validierungsdaten helfen, die Einstellungen zu justieren; Testdaten zeigen, wie gut das Gelernte auf neue Fälle übertragbar ist. Fehlen gute Daten, entstehen schlechte Modelle – ganz egal, wie ausgeklügelt der Algorithmus ist. Dieses Prinzip ist so einfach wie unerbittlich: garbage in – garbage out.
1. Trainingsdaten
- Das sind die Beispiele, aus denen das Modell lernt.
- Bei überwachtem Lernen enthalten sie Eingaben und die richtigen Antworten (Labels).
- Bei unüberwachtem Lernen bestehen sie nur aus Eingaben; das Modell sucht darin selbst Muster.
2. Validierungsdaten
- Diese Daten werden nicht direkt zum Lernen genutzt.
- Sie helfen, während der Entwicklung zu prüfen, ob das Modell sinnvoll arbeitet.
- So können wir Modelle vergleichen und anpassen, ohne uns nur auf die Trainingsdaten zu verlassen.
3. Testdaten
- Diese Daten kommen erst am Ende ins Spiel.
- Das Modell hat sie vorher nie gesehen.
- Ziel: Eine faire Einschätzung, wie gut das Modell auch bei neuen, unbekannten Daten funktioniert (Generalisation).
5.2 Datenerhebung & Datenqualität
Daten können auf ganz unterschiedliche Weise erhoben werden: durch Sensoren, Logfiles, Datenbanken, Umfragen oder manuelle Eingaben. Sie bilden die Grundlage für jedes KI-Projekt und liefern das Material, aus dem Modelle lernen.
Allerdings sind Daten nicht automatisch von hoher Qualität. Sie können für die Fragestellung ungeeignet sein. Folgende Kriterien helfen, die Qualität systematisch einzuschätzen:
- Vollständigkeit: Sind alle benötigten Werte vorhanden?
- Genauigkeit: Entsprechen die Daten der Realität?
- Konsistenz: Passen die Daten zusammen, oder widersprechen sie sich?
- Aktualität: Sind die Daten noch relevant und zeitnah?
5.3 Datentypen
Wenn wir mit Daten arbeiten – sei es in Statistik oder im maschinellen Lernen – ist eine der wichtigsten Fragen: Welche Art von Daten liegt überhaupt vor? Davon hängt ab, welche Methoden, Visualisierungen und Algorithmen sinnvoll eingesetzt werden können. Grundsätzlich unterscheidet man zwischen qualitativen (kategorischen) und quantitativen (numerischen) Daten.
Qualitative Daten (kategorisch)
Qualitative Daten beschreiben Merkmale oder Eigenschaften, die keine natürliche Zahlbedeutung haben. Innerhalb der qualitativen Daten unterscheidet man zwischen:
- Nominalen Daten
- Kategorien ohne Rangordnung
- Beispiele: Geschlecht, Haarfarbe, Land, Gerätetyp
- Operationen: Häufigkeiten zählen, Modus bestimmen, Kreuztabellen erstellen
- Ordinale Daten
- Kategorien mit Reihenfolge, aber ohne “echte” Abstände
- Beispiele: Schulnoten, Kundenzufriedenheit („schlecht“ – „mittel“ – „gut“)
- Operationen: Median, Rangordnungen, Prozentile.
Quantitative Daten (numerisch)
Quantitative Daten messen Größen, bei denen Rechenoperationen sinnvoll sind.
- Diskrete Daten
- Endliche oder abzählbare Werte, meist ganze Zahlen
- Beispiele: Anzahl Kinder, Fehler pro Stunde
- Kontinuierliche oder stetige Daten
- Beliebige Zwischenwerte sind möglich
- Beispiele: Gewicht, Größe, Zeit, Umsatz.
Numerische IDs (z. B. Kundennummern) sind nominal – sie sollten niemals als Zahlen modelliert werden, auch wenn sie numerisch aussehen.