Beschreibung

In dieser Aufgabenstellung sind Multivariate Daten zu analysieren. Wenn Daten mehr als drei oder vier Dimensionen aufweisen, wird es sehr schwierig, sie in einem traditionellen Scatterplot darzustellen. Deshalb wurden, und werden nach wie vor, einige andere Methoden entwickelt, um solche komplexen Datensätze zu analysieren. In dieser Aufgabenstellung werden ein paar bekannte Methoden für die Darstellung von multivariaten Daten genauer betrachtet.

Aufgabenstellung

Eine bekannte Technik zur Darstellung von multivariaten Daten sind Parallele Koordinaten. Bei parallelen Koordinaten werden die vorhandenen Dimensionen als parallele Achsen dargestellt. Die Datensätze werden als Polylinien zwischen den parallelen Achsen eingetragen. Die Position auf jeder parallelen Achse wird durch den Wert des Datenwerts an dieser Stelle bestimmt (Info). Die Mindestanforderung für diese Aufgabe ist die Implementierung von Parallelen Koordinaten in 2D, zusammen mit den wichtigsten Interaktionsmöglichkeiten.
Die weiteren Anforderung beschäftigen sich mit anderen interessanten Möglichkeiten der Darstellung (Star-Plots und Chernoff-Faces), mit Interaktionsmöglichkeiten, und mit der Datenanalyse.
Begriffserklärung:
  • Dimension
... eine Eigenschaft eines Datensatzes (z.B. Preis für einen Auto-Datensatz)
  • Datensatz
... ein Datenelement mit Werten in den gegebenen Dimensionen (z.B. ein Auto)
  • Datenset
... eine Menge von Datensätzen, die alle Werte in denselben Dimensionen besitzen

Punktevergabe

Beschreibung Punkte Output
Parallele Koordinaten
Mindestanforderung, genauere Beschreibung siehe oberhalb
Anforderungen: Visualisierung eines Datensets mittels paralleler Koordinaten, Beschriftung der Achsen, Interaktionsmöglichkeiten:
  • Auswahlmöglichkeit von einzelnen / Gruppen von Daten
  • Sortierbare Achsen
  • Umkehrbare Achsenwerte
26
Star-Plot
In einem Star-Plot wird jeder Datensatz als eine sternähnliche Figur dargestellt (Info). Die Sternform kommt dadurch zustande, dass die vorhandenen Dimensionen kreisförmig angeordnet werden, und die Werte des Datensatzes entlang jedes Strahls eingetragen werden. Die Datensätze können entweder jeder als eigener Star-Plot, oder alle gemeinsam in einem Plot eingetragen werden (zum Vergleichen der Daten).
Anforderungen: Visualisierung eines Datensets mittels Star-Plots - entweder ein Star-Plot pro Datensatz, oder ein Star-Plot für alle Datensätze - insg. 4 Punkte
Zusatzpunkte: Wenn es möglich ist den Star-Plot interaktiv zu verändern (z.B. Ändern der Farben, Auswahl einzelner Datensätze, Vertauschen der Achsen, Deaktivierung von Achsen, ...) gibt es 2 Punkte (min. drei verschiedene Interaktionsmöglichkeiten)
4 - 6
Chernoff-Faces
Bei einer Visualisierung von Datensätzen mittels Chernoff-Faces wird jedem Datensatz eine comichafte Version eines menschlichen Gesichtes zugeordnet (Info). Die einzelnen Elemente der Gesichter (Form, Augen, Mund, Nase, etc) werden jeweils einer Dimension zugeordnet, und dann je nach den Werten des Datensatzes verändert.
Sie dürfen bei der Implementierung dieser Aufgabe auch gerne kreativ sein, und selbst entwickelte Konzepte anstatt von Gesichtern verwenden. Die Visualisierung muss aber derselben Idee wie die Chernoff-Faces folgen.
Anforderungen: Visualisierung eines Datensets mittels Chernoff-Faces (oder einem ähnlichem Prinzip) - insg. 4 Punkte
Zusatzpunkte: Wenn es möglich ist die Darstellung interaktiv zu verändern (z.B. Vertauschen der Zuordnung der Dimensionen zu Attributen, Auswahl von Farben, Auswahl einzelner Datensätze, Sortierung der Datensätze, ...) gibt es noch 2 Punkte (min. drei verschiedene Interaktionsmöglichkeiten)
4 - 6
Linking & Brushing
Das Konzept Linking & Brushing bedeutet, dass mehrere Fenster in einer Applikation miteinander verlinkt sind (Linking), und die Auswahl einer Datengruppe (Brushing) in einem Fenster auch in andere Fenster übernommen wird (Info).
Bei der Mindestanforderungen wurde bereits gefordert, dass Daten in den Parallelen Koordinaten interaktiv ausgewählt werden können. Diese Funktion soll nun ausgenutzt werden, um interaktiv in zumindest einem weiteren View die ausgewählten Datensätze ebenfalls hervorzuheben.
Anforderungen: Implementierung von Linking & Brushing zwischen den Parallelen Koordinaten und zumindest einem weiteren View
4
Identifizierung von Datenclustern
Trotz aller Visualisierungstechniken kann es manchmal schwer sein, auf den ersten Blick Muster in den Daten zu erkennen. Eine Möglichkeit damit umzugehen (neben guten Selektionsmöglichkeiten) ist die Anwendung von Clustering (Info).
Hier werden Datensätze, bevor sie in die Visualisierung eingetragen werden, in Cluster bzw. Gruppen unterteilt. Zum Clustern der Daten kann ein bekanntes Verfahren wie z.B. k-means oder Mean Shift verwendet werden. In den Visualisierungen können die Datensätze dann je nach Clusterzugehörigkeit visuell unterschiedliche dargestellt werden (z.B. durch Farben).
Anforderungen: Clustern der Daten und visuelle (z.B. farbliche) Kennzeichnung der Zugehörigkeit in den implementierten Visualisierungen
4
Datenanalyse
In dieser Aufgabe sollen Sie ihre Implementierung dazu verwenden die Daten zu analysieren, und interessante Zusammenhänge darin zu erkennen.
Anforderungen: Mindestens drei neue Erkenntnisse, die in den Daten gefunden wurden, inkl. Erklärung, wie man diese in den Visualisierungen erkennen kann
4

Datensets

Für diese Aufgabe stellen wir drei multivariate Datensets zur Verfügung. Die beideren kleineren Sets eignet sich zum Testen der Applikation während der Implementierung.
Alle Daten sind im CSV-Format gegeben. Die erste Zeile beinhaltet die Namen der Dimensionen. Jede weitere Zeile beschreibt jeweils einen Datensatz (wobei der erste Wert in jeder Zeile immer die ID, bzw. den Namen, des Datensatzes bestimmt). Die Werte sind durch TABs separiert.
Planets 10 Datensätze
Download
Jeder Datensatz beschreibt einen Planeten des Sonnensystems und seine Eigenschaften.
Cars 406 Datensätze
Download
Jeder Datensatz beschreibt Eigenschaften einer Automarke aus den Jahren 1970-1982.
Nutrients 7538 Datensätze
Download
Jeder Datensatz beschreibt ein Lebensmittel und dessen Inhalts- und Nährstoffe.

Links

Wikipedia - Darstellung von multivariaten Daten; Informationen in Deutsch
Visualization of Multivariate Data; Präsentation von Dr. Yan Liu, Wright State University
Wikipedia - Parallele Koordinaten; Informationen in Deutsch
Wikipedia - Parallele Koordinaten; Informationen in Englisch
Wikipedia - Starplot; Informationen in Deutsch
Wikipedia - Starplot; Informationen in Englisch
Wikipedia - Chernoff Faces; Informationen in Deutsch
Wikipedia - Chernoff Faces; Informationen in Englisch
Wikipedia - Clusteranalyse; Informationen in Deutsch
Wikipedia - k-Means; Informationen in Deutsch
Wikipedia - Mean Shift; Informationen in Englisch