Profil
Einträge: 20
Kommentare: 2

Thomas Bumberger
Letztes Update: 21:08 / 14.10.2009

Dienstag, 11. August 2009

  Der Aufgabe erste Lösung

Nun, alle 10 Datensätze sind analysiert, am besten abgeschnitten hat der so genannte SVMClassifier (SVM steht für Support Vector Machine), der beim Großteil der Datensätze mit entsprechender Parametrierung 100% geschafft hat, was ein exzellentes Ergebnis ist, vor allem, weil die Baseline mit 99,36% sehr hoch gesetzt war.
Derzeit bin ich dabei Vorbereitungen für die Findung des repräsentativsten Datensatzes durchzuführen.
Dazu trainiere ich einen Algorithmus auf einen Datensatz und wende dann dieses Modell auf die anderen Datensätze an.

Freitag, 7. August 2009

  Zum ersten Teil meinse Praktikums

http://www.zukunftwissen.apa.at/cms/zukunft-wissen/schule-und-bildung/topnews_einzel.html?id=CMS1248444533896

  Eine Aufgabe - 4 Tage - oder warum PCs nicht schnell genug sein...

4 Tage lang (beginnend ab gestern) werde ich auf 10 Datensätze Algorithmen loslassen mit dem Ziel
für jeden den optimalen zu finden. Nach einer statistischen Auswertung soll festgestellt werden, ob ein Algorithmus besonders gut für die teils ähnlichen Datensätze geeignet ist.
Wunschziel wäre es, einen Algorithmus zu finden, der, trainiert auf einen Datensatz, alle anderen Datensätze vorhersagen könnte.

Mittwoch, 5. August 2009

  Eine Aufgabe - ein Nachmittag

Am Vormittag habe ich mich sowohl mit FLLLAME als auch mit WEKA vertraut gemacht und die Dokumentation zu den Bildverbesserungsverfahren abgeschlossen.
Desweiteren wurde mir nähergelegt, im Standardwerk zum Thema Machine Learning das erste Kapitel weiterzulesen.
Es bietet eine grundlegende Einführung in die Thematik auf Basis der Wahrscheinlichkeitsrechnung und beginnt mit der Laplac'schen Wahrscheinlichkeit und führt sehr schnell in das Bayestheorem ein, das es ermöglicht Wahrscheinlichkeiten zu gewichten und deshalb eine hervorragend Methode darstellt, Objekte anhand von Eigenschaften zu klassifizieren.
Ein Beispiel: 4/10 aller Objekte gehören zu Klasse A, 6/10 zu Klasse B, 9/10 aller Objekte, die zur Klasse A gehören und 5/10 aller Elemente die zu Klasse B gehören, besitzen das Merkmal A.
Wie groß ist die Wahrscheinlichkeit, dass ein Objekt, an dem das Merkmal A festgestellt wurde zur Klasse A gehört?
P(KA)=6/10
P(KB)=4/10
P(A/KA)=9/10
P(A)=4/10*9/10+6/10*5/10=36/100+30/100=66/100
P(KA/A)=P(KA)*P(A/KA)/P(A)=0,81
-> Zu 81% gehört ein Objekt, an dem Merkmal A festgestellt wurde in die Klasse A
Aufgrund der so genannten Desicion Theory wird ein Klassifier diesem Fall dem Merkmal A, die Klasse A zuordnen.
Dieses Verfahren kann man weiter verfeinern, wenn man einen Bias auf eine der beiden Klassen legt.
Hierzu wieder ein Beispiel: Es ist tragbar, wenn bei einer automatischen Diagnose Krebs festgestellt wird und deshalb weitere Untersuchungen durch einen Arzt angeordnet werden, der den Fehler leicht beheben kann, es hat aber fatale Folgen, wenn das Programm Krebs nicht diagnostiziert, weil er nicht 100% eindeutig ist.
Nun zum Nachmittag, dem eigentlichen Grund meiner Dokumentation:
Die Aufgabe war simpel:
Finde einen Algorithmus, der sich besonders gut auf die vorgegebenen Daten anwenden lässt und überschreite damit 60% bei Crossvalidierungsverfahren.
Überlege, wie man mit der großen Datenmenge umgehen kann (~62000 Datensätze mit 16 Attributen), um weiterhin schnell Ergebnisse präsentiert zu bekommen.
Die zweite Frage lässt sich einfach beantworten:
Entweder man skaliert die Performance des PCs mit der Größe der Datenmenge oder aber man reduziert die Datenmenge.
Statistisch gesehen ist der Unterschied, ob ich mehrere Algorithmen auf 100% oder nur zufällige 10% der Daten anwende, um festzustellen, welcher besser passt, marginal.
Getestet habe ich 20 Algorithmen sowohl auf eine unbiased und eine biased Variante Datensätze.
Zuerst alle auf das Trainingsset (um schlecht geeignete Algorithmen von vornherein auszusortieren [Achtung IB1 (ein 1NN Algorithmus) ergibt bei Validierung auf das Trainingsset immer 100%]), dann auf die verkleinerten Datensätze.
Die bestabschneidenden Algorithmen werden daraufhin per Parameter feingetuned und aufgrund iheres Abschneidens gewertet.
Die Bestgerweteten werden dann auf die gesamte Datenmenge (unbiased) losgelassen, wobei sowohl die Parameter für die biased als auch für die unbiased Variante getestet werden.
Derzeitiger Stand ist, dass der populäre Algorithmus Random Forest das beste Ergebnis geliefert hat (>90% korrekt klassifiziert), wobei ein Algorithmus noch immer rechnet, der bei kleineren Datenmengen tendenziell bessere Ergebnisse lieferte.

Dienstag, 4. August 2009

  Divide et impera

Teile und herrsche
Genau das soll ein Classifier, Schritt 3, tun - aufgrund von statistischen Daten werden neue Daten in verschiedene Gruppen einteilen. Vorurteilsbasiert aufgrund von Wahrscheinlichkeitswerten.
Nachdem ich bis heute Mittag eine Einführung in diverse Ansätze für Classifier erhalten habe, darf ich heute Nachmittag mit einigen davon spielen.
Ein Paar Gruppen/Ansätze für Classifier:
Münze - vollkommen zufällig (Kopf oder Zahl)
Nearest Neighbour - trifft Entscheidung aufgrund von Datenpunkten innerhalb eines Radius des neuen Datenpunkts
ZeroR - trifft Entscheidung aufgrund des am häufigsten vorkommenden Klassentyps (entspricht Nearest Neighbour mit Radius unendlich)
K Nearest Neighbour - findet die K nächsten Nachbarn
Treebased - findet den Datentyp aufgrund von Entscheidungsbäumen
Ist Mensch?
Ja: Ist Mann?
Ja: -> Klasse Mann
Nein: -> Klasse Frau
Nein: Ist Tier?
Ja: Klasse Tier
Nein: Klasse Außerirdisches Wesen

Montag, 3. August 2009

  Des Praktikums zweiter Teil

Heute begann der zweite Teil meines Praktikums im FLLL einen Halbstock tiefer als bisher.
Als Einführung durfte ich mich in die Theorie hinter dem Digital Image Processing einlesen und näheres zu den ersten zwei Schritten am Weg zum Machine Learning erfahren.
Schritt 1 - Imaging: Die Aufnahme eines Bildes und das herausrechnen diverser Störfaktoren wie Noise (http://de.wikipedia.org/wiki/Rauschen_%28Physik%29)
Schritt 2: Das reduzieren des Bildes auf das Wesentliche
Schritt 2,5: Segmentierung (Einteilung) des Bildes in Abschnitte

summerschool.at | gen-au labor blogs

User Status

Username:

Passwort:


Suche

 

Aktuellste Beiträge

Bioinformatik
Warst du auch in der Bioinformatik tätig? Ich...
martin.bertschler - 14. Okt, 21:08
wenn die entscheidungsbäume...
wenn die entscheidungsbäume nur immer so einfach...
thomas.bumberger - 17. Aug, 10:42
Der Aufgabe erste Lösung
Nun, alle 10 Datensätze sind analysiert, am besten...
thomas.bumberger - 11. Aug, 11:49
Zum ersten Teil meinse...
http://www.zukunftwissen.apa.at/cms/zukunft-wissen/schule-und-bildung/topnews_einzel.html?id=CMS1248444533896
thomas.bumberger - 7. Aug, 10:43
Eine Aufgabe - 4 Tage...
4 Tage lang (beginnend ab gestern) werde ich auf 10...
thomas.bumberger - 7. Aug, 10:41

Status

Online seit 930 Tagen
Zuletzt aktualisiert: 14. Okt, 21:08

Credits

Bundesmininsterium für Wissenschaft und Forschung

Genomforschung in Österreich

supported by



built with

powered by Antville powered by Helma


  • xml version of this page