Maschinen können nicht lesen

Mittwoch, 6. Juni 2007, 18.34 Uhr | Giesbert Damaschke

Eine der größte Spamquellen neben E-Mail-Spam ist der so genannte “Kommentarspam”. Dabei handelt es sich um Spam-Beiträge in Gästebüchern, Schwarzen Brettern oder den Kommentaren in Blogs.
Wie der E-Mail-Spam zeichnet sich auch der Kommentarspam durch eine hohen Automatisierungsgrad aus. Es sitzt also niemand am Computer und trägt die Spambotschaften manuell in die Kommentarfelder ein, sondern ein Roboterprogramm sucht gezielt nach solchen Eingabeformularen und füllt sie vollautomatisch aus.

Diesen Spam bekämpft man zum einen auf ähnliche Weise wie bei E-Mail, in dem man verschiedene Filtersysteme benutzt, die die Spreu vom Weizen trennen. Zum anderen aber hat man auch völlig neue und sehr wirkungsvolle Abwehrverfahren entwickelt, die darauf basieren, dass Maschinen und Roboter nicht lesen können.

Eine der einfachsten Methoden besteht darin, vom Benutzer zur Kontrolle eine einfache Frage beantworten zu lassen, bevor ein Kommentar angenommen wird, etwa: “Geben Sie bitte das aktuelle Jahr ein”. Das ist für einen Menschen kein Problem, für eine Maschine dagegen schon, weil sie nicht in der Lage ist, die Frage zu verstehen und daher auch nicht weiß, welches Angabe in ein bestimmtes Feld eingetragen werden muss.

Eine ausgefeiltere Methode sind die so genannten “Captchas”. Dabei wird ein Mix aus Buchstaben und Ziffern – also zum Beispiel “13yZWx” oder “A90Bc” – in einer kleinen Grafik integriert, die zum größten Teil aus optischen Rauschen besteht, also aus wilden Punkt, Strich oder Farbmustern. Das menschliche Auge ist trotz des hohen Störpegels in der Lage, den abgebildeten Text zu lesen. Wer nun einen Kommentar eintragen will, muss vor allem das “Captcha” korrekt lesen und in einem entsprechenden Kontrollfeld eintragen können. Und das können zumindest derzeit nur Menschen, keine Maschinen (allerdings arbeitet die Spamindustrie mit Hochdruck daran, diese Captchas auszutricksen).

Rund 60 Millionen (!) solcher kleinen Bilderrätsel werden von den Netznutzern weltweit pro Tag gelöst, wofür insgesamt rund 150.000 Stunden benötigt werden. Das zumindest behaupten die Entwickler des Projekts Recaptcha, mit dem diese Arbeitsleistung sinnvolleren Zwecken als dem Entziffern sinnloser Buchstabenfetzen genutzt werden soll.

Statt den Anwendern einen zufälligen Zeichensalat zum Lesen zu geben, werden zwei schwer lesbare Begriffe aus dem großen Scan-Programm von Archive.org gezeigt. Im Rahmen dieses Programms werden jeden Monat etwa 12.000 Bücher eingescannt und via OCR in Text gewandelt. Allerdings gibt es dabei immer wieder den Fall, dass das OCR-Programm einen gescannten Begriff nicht richtig erkennt. Und genau diese Problemfälle werden als Captcha eingesetzt. Denn wie gesagt – Maschinen können nicht lesen, Menschen schon.

Wer seine Formulare also mit Recaptcha statt mit dem üblichen Captcha schützt, der bekämpft nicht nur Spam, sondern hilft auch dabei, ein gemeinnütziges Scanprojekt voranzutreiben.