Ab ins Statistikseminar

Ab ins Statistikseminar

So langsam kommen wir der Sache näher.

Als sich vor einiger Zeit Künstliche Intelligenz als Megathema herauskristallisierte und plötzlich alle begannen, über Machine Learning und lernende Algorithmen zu reden, herrschte erst einmal ein großes Durcheinander. Darüber, was lernende Algorithmen eigentlich genau sind, geisterten die unterschiedlichsten Vorstellungen durch die Medien – und damit auch durch unser Haus. Das ging von „das sind einfach nur regelbasierte Systeme“ bis hin zu „das sind Algorithmen, die sich selber umschreiben.“

Inzwischen hat sich der erste Pulverdampf verzogen und die Sicht klart auf. Nach einigen Recherchen, Diskussionen und Hintergrundgesprächen mit Kunden wird immer deutlicher, dass lernende Algorithmen im Grunde genommen nichts anderes sind als angewandte Statistik. Soweit die gute Nachricht. Die nicht ganz so gute Nachricht: Wir reden hier nicht über Prozentrechnung, sondern über echte, richtige Hardcore-Statistik.

Das zeigt das Beispiel der Support Vector Machine, oder Stützvektormaschine, das mir vor Kurzem begegnet ist. Dieser Algorithmus bildet ein mathematisches Verfahren ab, um Gemeinsamkeiten in Objekten zu erkennen, die Objekte darauf aufbauend zu klassifizieren und die Grenzen zwischen den einzelnen Klassen klar festzulegen. Damit eignet er sich unter anderem ideal für die automatische Textklassifikation. Nach einer Trainingsphase mit Beispieltexten ist der Algorithmus in der Lage, neue, unbekannte Texte eigenständig den richtigen Themenkategorien zuzuordnen.

Eine der mathematischen Formeln, die dieses Verfahren beschreiben, sieht laut Wikipedia so aus:

Alles klar? Also mich erinnert das ja an die Folge von The Big Bang Theory, in der die Gang um Sheldon Cooper bei einem Physikquiz mitmacht und eine hochkomplizierte Gleichung lösen soll. Die resignierende Reaktion von Howard Wolowitz: „It looks like something they found on the ship at Roswell“.

Aber mal im Ernst. Wollen wir die Funktionsweise von lernenden Algorithmen verstehen, so wie das Stimmen aus Politik und Gesellschaft ja immer wieder fordern, müssen wir vor allem die dahinterstehenden statistischen Verfahren verstehen. Natürlich können wir jetzt nicht einfach alle Statistikexperten werden. Andere Leute studieren sowas ja schließlich extra. Und das ist auch gar nicht nötig. Aber darum, uns mit ihren Grundlagen auseinanderzusetzen, werden wir wohl nicht herumkommen.

Dafür wünscht man sich doch glatt einen lernenden Algorithmus in den Kopf.