Data-Mining in Theorie und Praxis
TAE - Technische Akademie Esslingen e.V.Beschreibung
Unter Data Mining versteht man einen Prozess, mit dem aus sehr großen Datenmengen relevante Informationen, in den Daten verborgenes Wissen oder auffällige Muster extrahiert werden. Der Prozess stellt die zentrale Komponente sämtlicher Big Data Anwendungen dar. Dabei liegt der Fokus auf der Gewinnung von Wissen aus bereits vorhandenen Daten. Dieses bisher unbekannte Wissen ist potenziell nützlich. Mithilfe von Algorithmen lassen sich Gesetzmäßigkeiten und verborgene Zusammenhänge erkennen. Die elementaren Schritte in diesem Prozess umfassen Datenzugriff, Datenauswahl, Datentransformation und Merkmalextraktion, Modellbildung, Visualisierung sowie letztendlich eine sinnvolle Interpretation.
Das Seminar vermittelt die Implementierung einer kompletten Data Mining-Prozesskette. Es zeigt auf, welche Methoden für jeden dieser Prozessschritte eingesetzt werden, und wie diese Methoden schnell und effizient in Python implementiert werden. Alle beschriebenen Methoden werden anhand gängiger Python-Module vorgeführt, u.a. Numpy, Scipy, Pandas, Scikit-Learn, NLTK und Matplotlib.
Voraussetzung grundlegende Programmierkenntnisse
Das Seminar richtet sich an alle, die Zugriff auf große Datenbestände haben, und die vor der Aufgabe stehen, neues Wissen aus diesen Daten zu extrahieren.
Montag, 10. bis Mittwoch, 12. Juli 2023
9.00 bis 16.30 Uhr, inkl. Pausen
Datenzugriff
– Zugriff auf Daten in Dateien
– Zugriff auf Daten in Datenbanken
– Zugriff auf Daten aus dem Internet – über APIs und direkt aus HTML-Seiten
Datenauswahl und Bereinigung
– Filtermethoden
– Umgang mit fehlerhaften und fehlenden Daten
– Bereinigung
– Bereinigung von HTML-Seiten und Extraktion des Rohtextes
– Segmentierung von Text in sprachliche Einheiten
Merkmalsauswahl und Transformation
– Methoden der Merkmalsauswahl: Informationsgehalt, Entropie, Korrelationen, Wrapper u.a.
– Merkmalsextraktion und Dimensionsreduktionstechniken mit statistischen Verfahren, zum Beispiel PCA, LDA, t-SNE, multidimensionale Skalierung u.a.
– Merkmalsmodellierung für Zeitreihen-Daten
– Merkmalsmodellierung für natürlich-sprachliche Dokumente
Modellbildung
– Clustering
– Assoziationsanalyse
– Outlier Detection
– Maschinelles Lernen von Klassifikationsmodellen und Regressionsmodellen: Support Vector-Maschinen, Neuronale Netze, Entscheidungsbäume, Random Forests
– Zeitreihenvorhersagen
– Semantische Dokumentmodellierung/Topic Extraction
Visualisierung
– 2D- und 3D-Visualisierung mit Matplotlib
– Einbindung der Plots in .pdf oder .html
Infos anfordern
Kontaktinformation TAE - Technische Akademie Esslingen e.V.
TAE - Technische Akademie Esslingen e.V.
TAE - Technische Akademie Esslingen e.V.

TAE – Berufliche Fort- und Weiterbildung
Die Technische Akademie Esslingen (TAE) gehört seit mehr als 65 Jahren zu den bedeutendsten Anbietern für berufsvorbereitende und berufliche Qualifizierungen Deutschlands. Die TAE deckt mit jährlich rund 1.000 Veranstaltungen in 17 verschiedenen Themenbereichen nahezu jedes Feld ab, zu dem man sich...
IT-Weiterbildung leicht gemacht
Virtuelle Workshops und IT-Fachtrainings von Experten für Profis.