Captcha: Codes, Bilder und Rätsel zur Spam-Prävention

„Spam will be a thing of the past in two years’ time!” Mit dieser Prophezeiung überraschte Bill Gates die Öffentlichkeit im Jahr 2004 im Rahmen des World Economic Forums in Davos. Ein fataler Irrtum, der die Internetgemeinde noch heute zum Lachen bringt und dem Microsoft-Mitbegründer vermutlich für alle Zeiten einen Platz in der Liste der spektakulärsten Falschaussagen der IT-Branche sichert.

Nicht mal Gates hatte 2004 eine Vorstellung davon, welche Entwicklung Spam in den kommenden 12 Jahren nehmen sollte. Noch heute vergeht für die meisten Internetnutzer nicht ein Tag, an dem sie nicht mit automatisch generierten Werbe-Inhalten konfrontiert werden: sei es im E-Mail-Postfach, auf dem Lieblings-Blog, in der Kommentarfunktion eines Onlineshops oder im Gästebuch der eigenen Homepage.

Tatsächlich werden Spam-Bots immer intelligenter. Die weitgehend autonom agierenden Computerprogramme durchforsten das Internet nach Formularfeldern und anderen interaktiven Webseiten-Elementen, um die Werbebotschaften Ihrer Programmierer zu platzieren – und überwinden dabei selbst ausgeklügelte Anti-Spam-Verfahren im Handumdrehen.

Als Bollwerk gegen Spam-Kommentare galt lange Zeit das Captcha. Doch die nervigen Abfragen stellen für menschliche Nutzer heute oft ein größeres Hindernis als für die ausgeklügelten Programme. Tatsächlich ergaben aktuelle Studien zur Captcha-Technologie, dass bei den etablierten Verfahren Spam-Bots häufig eine geringe Fehlerquote aufweisen als Menschen. Ist das das Ende der Captcha-Codes, Bilderpuzzle und Logik-Rätsel? Wir liefern Ihnen einen Überblick über die Anwendungsbereiche der Captcha-Technologie, stellen verschiedene Captcha-Typen gegenüber und zeigen auf, welche Alternativen der Spam-Prävention es gibt.

Was ist ein Captcha?

Bei einem Captcha handelt es sich um ein Verfahren im Rahmen des Spamschutzes. Ziel ist es, interaktive Webseiten vor Missbrauch zu schützen, indem automatisch generierte Eingaben ausgefiltert werden. Das Akronym Captcha steht für „Completely Automated Public Turing test to tell Computers and Humans Apart”. Ins Deutsche übersetzt ist ein Captcha der Definition zufolge somit ein „vollautomatischer öffentlicher Turing-Test zur Unterscheidung von Computern und Menschen“.

Bereits 1950 schlug der Informatiker Alan Turing ein Verfahren vor, um das Denkvermögen künstlicher Intelligenz auf die Probe zu stellen. Dem Computerpionier zufolge ist eine Maschine in der Lage, das menschliche Denkvermögen nachzuahmen, wenn es ihr gelingt, sich in einem Chat mit Menschen zu unterhalten, ohne dass diese bemerken, dass es sich um einen Computer handelt.

Der Turing-Test ging in die Geschichte der KI-Forschung (Künstliche Intelligenz) ein und wurde erst 2014 von einem Computerprogramm bestanden: Als erste Maschine der Welt gelang es dem Supercomputer Eugene Goostman mehr als 30 Prozent einer unabhängigen Jury für mindestens 5 Minuten zu täuschen. Eugene gab sich erfolgreich als ukrainischer Teenager mit Meerschweinchen aus, der sich für die politisch inkorrekten Texte des Rappers EMINEM begeistern kann.

Was sich nach Science-Fiction anhört, ist heute eines der Kernprobleme des Internets. Für interaktive Webseiten ist es von zentraler Bedeutung, im Rahmen einer Human Verification menschliche Webseitenbesucher von Computerprogrammen unterscheiden zu können. Immer raffiniertere Captchas sollen dabei helfen, automatische Eingaben oder Abfragen von Spam- und Click-Robotern (Bots) abzuwehren.

Welchem Verwendungszweck dienen Captchas?

Zum Einsatz kommen Captchas meist dann, wenn Webanwendungen Nutzereingaben erfordern. Stellen Sie sich vor, Sie betreiben einen Onlineshop und geben Ihren Kunden die Möglichkeit, durch eine Kommentarfunktion Produktbewertungen zu verfassen. In diesem Fall möchten Sie sicherstellen, dass die Einträge tatsächlich von Ihren Kunden oder zumindest von menschlichen Besuchern Ihrer Website stammen. Häufig findet man stattdessen unter den Produkten zahlreiche automatisch generierte Spam-Beiträge – im schlimmsten Fall mit Links zur Konkurrenz.

Begrenzen lässt sich dieser Schaden, indem Sie Online-Formulare durch ein Captcha absichern, mit dem sich Nutzer zunächst als Menschen verifizieren müssen, bevor sie ihre Eingaben absenden können. Captchas finden sich heute in nahezu allen Bereichen, in denen es menschliche Nutzer von Bots zu unterscheiden gilt. Das betrifft beispielsweise Anmeldeformulare für E-Mail-Services, Newsletter, Communities und soziale-Netzwerke, aber auch Online-Umfragen oder Web-Services wie Suchmaschinendienste.

Im Laufe der Zeit entwickelte man verschiedene Methoden, um eine Human Verification durchzuführen. Grundsätzlich gilt jedoch: Kein etabliertes Verfahren bietet eine 100-prozentige Sicherheit vor Spam und in jedem Fall geht die Captcha-Technologie mit Einbußen in der Benutzerfreundlichkeit einher.

Welche Arten von Captchas gibt es?

Dem Konzept des Captchas liegt die Annahme zugrunde, dass trotz der rasanten Fortschritte der KI-Forschung nach wie vor Unterschiede zwischen der gedanklichen Leistungsfähigkeit eines Menschen und der eines Computerprogramms bestehen. Jedes Captcha umfasst daher mindestens eine Aufgabe, die von menschlichen Nutzern ohne weiteres zu bewältigen sein sollte, Maschinen in der Theorie jedoch vor ein unlösbares Problem stellt.

Captcha-basierte Verfahren zur Human Verification lassen sich grob in text- und bildbasierte Captchas, Audio-Captchas, mathematische Captchas, Logik-Captchas und Gamification-Captchas unterteilen.

Textbasierte Captchas

Die älteste Form der Human Verification ist das textbasierte Captcha. Dabei werden bekannte Wörter oder zufällige Kombinationen aus Buchstaben und Ziffern verfremdet. Um die Prüfung zu bestehen, muss ein Nutzer das in der Captcha-Box dargestellte Lösungswort entziffern und über die Tastatur in ein dafür vorgesehenes Textfeld eingeben. Klassische Verfahren, die bei der Erstellung textbasierten Captchas zum Einsatz kommen, sind Gimpy, ez-Gimpy, Gimpy-r und Simard’s HIP.

Die Verfremdung umfasst verschiedene Schritte, bei denen die einzelnen Zeichen des Lösungswortes verzerrt, skaliert, rotiert oder gekrümmt und mit zusätzlichen grafischen Elementen wie Linien, Bögen, Punkten, Farbverläufe oder Hintergrundrauschen kombiniert werden. Folgende Grafik zeigt eine Auswahl möglicher Texttransformationen, die einem im Internet begegnen können.

Einen zuverlässigen Schutz vor Spam gewähren Text-Captchas nur dann, wenn das dargestellte Lösungswort für Programme mit automatischer Texterkennung eine unüberwindbare Hürde darstellt. In der Regel setzt dies jedoch eine Verfremdung voraus, die auch die Lesbarkeit für menschliche Nutzer signifikant einschränkt.

Demonstrieren lässt sich dies an folgenden Beispielen. Wer bei GMX eine kostenlose E-Mail-Adresse registrieren möchte, wird mit textbasierten Captchas nach folgendem Schema konfrontiert.

Ein menschlicher Nutzer erkennt unschwer die Zeichen n88n5. Anders hingegen ist dies bei folgendem Captcha, das auf Facebook zum Einsatz kommt, um automatische Abfragen durch Spambots zu verhindern.

Hier lautet die korrekte Lösung trM7wsL. Das zweite Zeichen des stark verfremdet dargestellten Lösungswortes könnte von Nutzern jedoch ebenso gut als p oder o gewertet werden.

Während man sich beim ersten Captcha fragt, ob dieses für eine ausgereifte Texterkennungssoftware tatsächlich ein Hindernis dargestellt, geht die Verfremdung im zweiten Beispiel so weit, dass selbst menschliche Nutzer überfordert sein könnten. In der Regel beinhaltet ein gut implementiertes Captcha daher die Möglichkeit, das aktuelle Lösungswort zu überspringen und es mit einem anderen, etwas besser lesbaren zu versuchen. Doch Sie können sich die „Begeisterung“ von Webseitenbesuchern vorstellen, die häufiger mit Captchas dieser Art konfrontiert werden.

Im Laufe der Zeit haben sich daher zahlreiche Alternativen zur textbasierten Captcha-Technologie etabliert. Eine prominente Variante des klassischen Text-Captchas bietet Google mit reCAPTCHA an. Statt zufällige Lösungswörter zu generieren, speist sich reCAPTCHA aus diversen Digitalisierungsprojekten wie Google Books oder Google Street View. Nutzer bekommen beispielsweise Straßennamen, Hausnummern, Verkehrs- und Ortsschilder sowie Fragmente eingescannter Textabschnitte angezeigt, müssen diese entziffern und über die Tastatur in ein Textfeld eingeben. Die Software bietet dabei stets zwei Elemente an – ein bekanntes, bereits bestätigtes sowie ein bisher noch unbestätigtes. Prinzipiell müssen Nutzer lediglich das erste Element erkennen, um das Captcha erfolgreich zu absolvieren. Nutzer, die auch das zweite Element entziffern, nehmen damit an Googles Digitalisierungsprogramm teil. Verifiziert werden die Eingaben auf statistischer Basis. Die zu entziffernden Elemente werden stets mehreren Nutzern präsentiert. Die häufigste Antwort gilt als richtig.

Folgendes Beispiel zeigt zwei unterschiedlich gestaltete reCAPTCHA-Abfragen, die Nutzern beispielsweise im Rahmen von Community-Anmeldungen begegnen.

Bildbasierte Captchas

Eine Alternative zu Text-Captchas stellen bildbasierte Verfahren dar. Statt Nutzern ein verfremdetes Lösungswort aus Ziffern und Buchstaben zu präsentieren, stützen sich bildbasierte Captchas auf schnell erfassbare grafische Elemente. In der Regel werden mehrere Fotos alltäglicher Motive nebeneinander dargestellt. Der Nutzer hat die Aufgabe, ein bestimmtes Motiv anzuklicken, ähnliche Motive zu identifizieren oder einen semantischen Zusammenhang darzustellen.

Folgendes Beispiel zeigt ein bildbasiertes Captcha, das im Rahmen des Google Dienstes reCAPTCHA zum Einsatz kommt. Der Nutzer wird aufgefordert, alle Bilder auszuwählen, auf denen Kaffee abgebildet ist.

Alternativ verwendet Google Captchas, bei denen Nutzer lediglich bestimmte Bereiche eines Fotos auswählen sollen – beispielsweise alle Felder auf denen Teile eines Straßenschildes dargestellt sind. Anders als bei textbasierten reCAPTCHAs genügt ein Klick auf die entsprechenden Bildbereiche, um den Prüfschritt zu absolvieren.

Die meisten Nutzer erfassen die Lösung eines bildbasierten Captchas mit wenigen Blicken. Die Fähigkeit von Computerprogrammen, ein abgebildetes Motiv zu erfassen, semantisch einzuordnen und gleichartige Motive zu klassifizieren, ist heutzutage jedoch noch stark begrenzt. Bildbasierten Captchas wird daher eine höhere Schutzwirkung zugesprochen als textbasierten Verfahren.

Audio-Captcha

Text- und Bild-Captchas lassen sich den grafischen Human-Verification-Verfahren zuordnen. Ob ein menschlicher Nutzer einen solchen Prüfschritt ohne weiteres passieren kann, hängt maßgeblich mit dessen Fähigkeit zusammen, die dargestellten Text- oder Bildinformationen zu erkennen. Für Menschen mit eingeschränkter Sehfähigkeit bzw. Sehbehinderung kann ein grafisches Captcha eine unüberwindbare Hürde darstellen. Captchas, die lediglich über einen der menschlichen Sinne wahrnehmbar sind, weisen daher eine geringe Usability (Gebrauchstauglichkeit) auf und gelten als nicht barrierefrei. Webseitenbetreiber, die Captchas einsetzen, sollten daher darauf achten, dass das gewählte Prüfverfahren Nutzern mehrere Lösungswege auf verschiedenen Sinneskanälen zur Verfügung stellt.

Um auch sehbehinderten Menschen einen Zugang zu captcha-geschützten Bereichen einer Webanwendung zu ermöglichen, werden text- oder bildbasierte Prüfverfahren in der Regel mit sogenannten Audio-Captchas kombiniert. Oft wird dazu eine Schaltfläche implementiert, mit der Nutzer bei Bedarf ersatzweise eine Audio-Aufnahme abrufen – zum Beispiel eine kurze Zahlenfolge, die in ein dafür vorgesehenes Eingabefeld eingetippt wird.

Google setzt Audio-Captchas derzeit folgendermaßen um:

Mathematische Aufgaben und Logik-Captchas

Eine Captcha-Alternative, die ebenfalls die Bedürfnisse sehbehinderter Menschen berücksichtigt, setzt auf mathematische Aufgaben oder Rätsel, um Spam-Bots auszusieben. Eine Aufgabenstellung wie folgende, lässt sich bei Bedarf auch mit einem Screenreader auslesen und steht Nutzern somit auch über nicht-visuelle Ausgabegeräte zur Verfügung.

Einfache mathematische Rechenaufgaben setzen in der Regel lediglich Grundschulwissen voraus, stellen damit jedoch auch für Spambots kein großes Hindernis dar. Zumal Computer Menschen im Umgang mit Zahlen deutlich überlegen sind. Diese Art des Capchas wird daher oft mit den verschiedenen Möglichkeiten der Textverfremdung kombiniert, was jedoch die Zugänglichkeit für Screenreader zunichtemacht. Deutlich schwieriger wird es für Programme, wenn das Rechenergebnis nicht als Ziffer, sondern als Zahlwort abgefragt wird oder lediglich eine einzelne Ziffer des Ergebnisses eingetragen werden soll (Beispiel: Rechne 7 x 7 und trage die erste Ziffer des Ergebnisses in das dafür vorgesehene Feld ein. Das Rechenergebnis wäre 49, aber die Captcha-Lösung 4).

Neben Rechenaufgaben kommen auch logische Aufgaben oder auf Allgemeinwissen beruhende Fragen in Captchas zum Einsatz. Oft mit thematischem Bezug zur jeweiligen Webanwendung. In einem Forum zum Themenspektrum HiFi und Audio wird die Benutzerregistrierung beispielsweise mit folgendem Captcha geschützt.

Logik-Captchas umfassen Fragen, die menschlichen Nutzern trivial erscheinen mögen. Klassische Spam-Bots sind in der Regel jedoch nicht in der Lage, folgende Zusammenhänge herzustellen.

Nenne alle Farbe in der Liste: Apfel, Grün, Orange, Tomate, Gelb. (Antwortwort: Grün, Gelb)

Geben Sie das fünfte Wort in diesem Satz ein. (Antwort: Wort)

Wie lautet der dritte Buchstabe des vorletzenden Wortes? (Antwort: r)

Wie viele Euter hat eine Kuh? (Antwort: einen)

Captchas dieser Art werden meist so gestaltet, dass mehrere Antwortvariationen (zum Beispiel Groß- und Kleinschreibung) zum gewünschten Ergebnis führen.

Gamification-Captchas

Webseitenbetreiber, die befürchten, Ihre Besucher mit kryptischen Text-Captchas oder kniffligen Mathe-Aufgaben zu verschrecken, können sich den Trend zur Gamification zunutze machen. Anbieter wie SweetCaptcha und FunCaptcha bieten mehr oder weniger unterhaltsame Minispiele, die sich als Gamification-Captcha einbinden lassen.

SweetCaptcha verlässt sich auf die Assoziationsfähigkeit des Menschen und stellt Webseitenbesuchern einfache Zuordnungsaufgaben. In folgendem Beispiel genügt es, die Drumsticks auf die Trommel zu bewegen, um sich als Mensch zu outen.

SweetCaptcha nutzt somit eine Variation klassischer Puzzle-Captchas, bei denen Nutzer Bildelemente per Drag&Drop in die richtige Position bewegen müssen.

Bei FunCaptcha hingegen dreht sich alles im Kreis. Erst wenn sich der Hund in der richtigen Position befindet, gibt sich die Software mit der Eingabe zufrieden und lässt den Benutzer passieren.

Zugegeben, richtiger Spaß sieht anders aus, aber unterhaltsamer als ein verzerrter Textschnipsel ist so ein Gamification-Captcha allemal.

Vor- und Nachteile von Captchas?

Ist ein Captcha in der Lage, Spambots zuverlässig abzuwehren, menschliche Nutzer jedoch ungehindert passieren zu lassen, reduziert dies den Administrationsaufwand einer Website erheblich. Seitenbetreiber die user-generierten Content anbieten, sparen sich die Mühe, Beiträge manuell zu verifizieren. Zudem wird ein Server deutlich entlastet, wenn automatische Eingaben und Abfragen, bereits abgeblockt werden, bevor diese ressourcenintensive Reaktionen des Systems hervorrufen. Doch was macht ein gutes Captcha aus?

Die KI-Forschung macht kontinuierlich Fortschritte. Die Fähigkeit spezialisierter Programme, verfremdete Texte auszulesen oder logische Aufgaben zu lösen, verbessert sich rasant. Bereits 2014 veröffentlichte ein Google-Forscherteam einen Ansatz (PDF-Download via arxiv.org), mit dem sich klassische reCAPTCHAs in 99,8 Prozent der Fälle automatisch lösen lassen. Als Datenbasis kamen 10 Millionen annotierte Hausnummern zum Einsatz, die das Team via Google Street View generierte.

Viele Captcha-Anbieter versuchen die Fortschritte im Maschinenlernen durch immer schwierigere Prüfungsverfahren zu kompensieren. In der Praxis streifen Captchas dabei nicht selten die Grenze der Unlösbarkeit.

Bereits 2010 zeigten Forscher der Stanford University (PDF-Dowload via http://web.stanford.edu), dass Capchas in vielen Fällen selbst für menschliche Internetnutzer eine große Herausforderung darstellen. In einer Studie wurden mehr als 1.100 Personen gebeten, rund 318.000 Captchas aus den damals gebräuchlichsten Schemata zu lösen.

Im Durchschnitt absolvierten die Versuchspersonen grafische Captchas in 9,8 Sekunden. Für Audio-Captchas benötigten die Probanden mit 28,4 Sekunden mehr als dreimal so viel Zeit. Wurde ein und dasselbe grafische Captcha 3 verschiedenen Versuchspersonen gezeigt, kamen diese nur in 71 Prozent der Fälle zur selben Lösung. Bei Audio-Captchas war die Übereinstimmung mit 31 Prozent noch deutlich geringer. Zudem stellten die Forscher bei audiobasierten Capchas eine Absprungrate von 50 Prozent fest. Ob eine Human Verification zum Einsatz kommt und wie diese realisiert wird, wirkt sich somit auch auf die Motivation eines Besuchers aus, mit der jeweiligen Website zu interagieren.

Bereits 2009 veröffentliche das SaaS-Unternehmen MOZ in diesem Zusammenhang einen Blogartikel über den Effekt von Captchas auf die Conversion-Rates von Web-Formularen. In einer Fallstudie untersuchte der YouMoz-Autor Casey Henry über einen Zeitraum von 6 Monaten mehr als 50 verschieden Unternehmens-Websites und kam zu dem Ergebnis, dass die Converion-Rates von Online-Formularen (z. B. im Rahmen der Newsletter-Anmeldung) im Durchschnitt um 3,2 Prozent sanken, wenn Captchas aktiviert waren. Allerdings reduzierte sich auch das Spam-Aufkommen um 88 Prozent.

Gerade Unternehmen, die Einnahmen dadurch generieren, dass Internetnutzer Interaktionen auf der Website ausführen, sollten sich überlegen, ob eine Absprungrate in dieser Größenordnung akzeptabel ist. Hier gilt es, die Kosten alternativer Anti-Spam-Methoden mit den Einnahmeverlusten durch Captchas gegenzurechnen.

Captchas und Barrierefreiheit

Schwierig wird die Wahl einer geeigneten Captcha-Technologie für Webseitenbetreiber, die ihre Internetangebote barrierefrei und somit auch für Menschen mit Behinderung in vollem Umfang zur Verfügung stellen möchten.

In Deutschland nutzen 4 von 5 Menschen mit Behinderung das Internet. Gerade für Internetnutzer, die ihr Leben mit Einschränkungen bestreiten, versprechen die Möglichkeiten des World Wide Web oft eine deutliche Erleichterung im Alltag. Doch noch immer ist ein Großteil der Online-Angebote nicht barrierefrei zugänglich. Auch Captchas stellen oft eine unüberwindbare Barriere dar – beispielsweise, wenn die Möglichkeit der Verifikation aufgrund einer eingeschränkten Sehfähigkeit oder geistigen Behinderung nicht wahrgenommen werden kann.

Auch die Web Content Accessibility Guidelines (WCAG) der Web Accessibility Initiative (WAI) des World Wide Web Consortiums (W3C) thematisieren das Problem der Accessibility (Barrierefreiheit) im Zusammenhang mit Captchas und geben folgende Punkte als Minimalanforderungen für ein barrierearmes Captcha vor:

  • Wird ein Nicht-Text-Inhalt (z.B. eine Grafik) verwendet, um menschliche Nutzer von Computerprogrammen zu unterscheiden, sollte eine Textalternative bereitgestellt werden, die den Zweck des Nicht-Text-Inhalts erläutert.
  • Kommt eine Captcha-Technologie zum Einsatz, sollte diese so gestaltet sein, dass alternative Lösungsmöglichkeiten zur Auswahl stehen, die verschiedene Formen der Behinderungen Rechnung tragen.

In dieser Form wurden die Minimalvorgaben zu barrierearmen Captchas auch in die Verordnung zur Schaffung barrierefreier Informationstechnik nach dem Behindertengleichstellungsgesetz (Barrierefreie-Informationstechnik-Verordnung - BITV 2.0) der Bundesrepublik Deutschland übernommen.

Über diese Minimalanforderungen hinaus empfiehlt es sich, Captchas immer in einen erklärenden Begleittext einzubetten. Webseitenbetreiber, die Captchas als Mittel der Spam-Prävention einsetzen, sollten sicherstellen, dass Anwender verstehen, wie sie sich als menschlicher Nutzer verifizieren können. Dies umfasst eine verständliche Anleitung des dargebotenen Turing-Tests in maschinenlesbarer Textform sowie ausreichend beschriftete Eingabefelder. Nutzer sollten in jedem Fall die Möglichkeit bekommen, unlesbare Captchas zu überspringen und die Verifizierung mit einem neuen Captcha zu wiederholen, falls die Eingabe falsch war.

Darüber hinaus sollte das Captcha nie die einzige Möglichkeit darstellen, ein Web-Angebot zu nutzen. Bieten Sie Nutzern alternativ zum Captcha immer auch die Option, sich durch die Kontaktaufnahme mit dem Administrator oder einem Kundendienst freischalten zu lassen. Es empfiehlt sich zudem, den Einsatz von Captchas auf ein Minimum zu reduzieren. Ist ein Nutzer bereits erfolgreich am System angemeldet, sollte keine weitere Verifikation in Form von Captchas stattfinden.

Gibt es Alternativen zu Captchas?

Auch wenn Captchas heute allgegenwärtig sind, die an den Turing-Test angelehnten Verfahren bilden bei Weitem nicht die einzige Möglichkeit, eine interaktive Website gegen Spam abzusichern. Bereits 2005 hat das WAI mit der https://www.w3.org/TR/turingtest/Working Group Note 23 „Inaccessibility of CAPTCHA – Alternatives to Visual Turing Tests on the Web” einen Vorschlagskatalog zur Spam-Prävention ohne Captcha entwickelt. Im Laufe der Zeit haben sich zahlreiche Methoden etabliert, automatische Anfragen oder Eingaben zu identifizieren.

  • Black-Lists: Lässt sich für Spambeiträge oder massenhafte, automatische Abfragen eine bestimmte Quelle ausmachen, haben Webseitenbetreiber die Möglichkeiten, alle Interaktionen aus dieser Richtung durch eine Aufnahme in die Black-List zu unterbinden. Dabei handelt es sich um eine Sperrliste, die alle Server oder IP-Adressen aufführt, die bei zukünftigen Abfragen blockiert werden sollen. Eine solche Black-List lässt sich manuell via .htaccess anlegen. Alternativ finden sich im Internet diverse Anti-Spam-Netzwerke sowie professionelle Dienstleister, die zentralisierte, kontinuierlich aktualisierte Sperrlisten zur Verfügung stellen.
  • Honeypots: Manche Webseitenbetreiber entlarven potenzielle Kandidaten für die Black-List, indem sie Online-Formulare mit Spam-Fallen versehen. Bei diesen sogenannten Honeypots (Honigtöpfe) handelt es sich beispielsweise um Eingabefelder die via CSS oder JavaScript vor menschlichen Nutzern versteckt werden. Einfache Spam-Bots hingegen lesen in der Regel nur den HTML-Code einer Website aus und füllen selbst versteckte Felder mit automatisch generierten Inhalten. Ein klares Indiz dafür, dass die Interaktion mit der Webseite nicht über einen Webbrowser erfolgt und somit kein menschlicher Nutzer hinter der Anfrage steckt.
  • Content-Filter: Eine Möglichkeit, Kommentarspam auf Blogs, in Onlineshops oder Foren entgegenzuwirken bieten Content-Filter. Auch diese arbeiten mit Black-Lists. Dabei definieren Webseitenbetreiber sogenannte „Hot Words“, Keywords die in erster Linie im Rahmen von Spam-Kommentaren vorkommen, um verdächtige Eingaben automatisch als computergeneriert zu identifizieren. Kommen Content-Filter zum Einsatz, steigt jedoch die Gefahr, dass auch Beiträge menschlicher Nutzer blockiert werden, sofern diese Keywords der Black-List enthalten.
  • Serverseitige Filterung: Auf den meisten Webservern kommt eine Filter-Software zum Einsatz, die es ermöglicht, auffällige Interaktionen mit bestimmten Bereichen einer Website zu erkennen und so den Schaden durch Spam-Bots zu begrenzen. Spam-Filter stützen sich auf statische, heuristische und verhaltensbasierte Analysen, um verdächtige Interaktionen anhand auffälliger Merkmaler und bekannter Muster zu identifizieren. Analysen im Rahmen der Spamfilterung beziehen sich auf technische Merkmale des User Agents. Ausgewertet werden beispielsweise der Umfang der angefragten Daten, die IP-Adresse, die verwendete Dateneingabemethoden sowie Signaturdaten und bereits im Vorfeld besuchte Webseiten. Darüber hinaus lässt sich via Zeitstempel nachvollziehen, wie viel Zeit zwischen der Auslieferung eines Online-Formulars und dem Eingang der Antwort vergeht. Denn im Gegensatz zu menschlichen Nutzern legen Spam-Bots ein beträchtliches Tempo beim Ausfüllen von Eingabefeldern an den Tag.

Eine weit verbreitete Alternative zum klassischen Captcha, die sich auf verhaltensbasierte Analysen stützt, stammt ebenfalls aus dem Hause Google. Unter dem Namen „No CAPTCHA reCaptcha“ bietet Google seit 2013 einen Human-Verification-Service an, der interaktive Webseiten zuverlässig gegen Missbrauch absichert und dabei in den meisten Fällen ohne Captcha auskommt.

Statt Nutzer vor eine auf visuellen, auditiven oder logischen Zusammenhängen beruhende Aufgabe zu stellen, umfasst Googles neustes reCAPTCHA lediglich eine einfache Check-Box.

Setzt ein Nutzer ein Häkchen bei „Ich bin kein Roboter“ prüft die Software im Hintergrund, mit welcher Wahrscheinlichkeit es sich eine automatische Eingabe handelt. Dabei setzt Google auf eine fortgeschrittene Risikoanalyse. Welche Prüfschritte dieser Prüfalgorithmus umfasst hält das Unternehmen geheim. Im Netz werden jedoch folgende Merkmale diskutiert:

  • Cookies
  • IP-Adresse
  • Mausbewegungen im Bereich der Checkbox
  • Dauer des Aufenthalts

Kommt die Software zu dem Schluss, dass es sich um einen menschlichen Nutzer handelt, kann dieser ungehindert fortfahren. Nur, wenn das Ergebnis der Analyse auf ein hohes Spam-Risiko schießen lässt, muss ein Captcha absolviert werden. No CAPTCHA ist somit ein vorgelagertes Prüfverfahren, das evaluiert, ob eine Verification via Turing Test notwendig ist oder übersprungen werden kann. Das kommt dem Nutzer in Bezug auf die Usability entgegen, wirft jedoch datenschutzrechtliche Probleme auf.

Webseitenbetreiber, die das neue reCAPTCHA verwenden, übermitteln Google automatisch Bewegungsdaten ihrer Nutzer. Die User müssen in der Datenschutzerklärung daher explizit darauf hingewiesen werden, dass Drittanbietersoftware im Rahmen der Spam-Prävention zur Anwendung kommt.

Auffällig ist zudem, dass Google für das neue reCAPTCHA die allgemeinen Nutzungsbedingungen sowie eine globale Datenschutzerklärung angibt. Diese kommt auch bei allen anderen Google-Diensten zur Anwendung. Es ist daher nicht auszuschließen, dass das Unternehmen die gesammelten Daten auch jenseits der Spam-Prävention zur Optimierung der eigenen Dienstleistungen einsetzt – zum Beispiel im Bereich der Werbung. Thematisiert wird diese Problematik in einem Artikel des Online-Magazins Business Insider. Obwohl sich der Google-Dienst großer Beliebtheit erfreut, sucht man eine öffentliche Stellungnahme deutscher Datenschutzbehörden bisher vergeblich.

Auf der aktuellen Startseite des reCaptcha-Projekts (Stand: Januar 2017) kündigt Google mit Invisible reCAPTCHA bereist eine Weiterentwicklung den des No CAPTCHA reCAPTCHA an, das ohne interaktive Check-Box auskommt.

In der Theorie funktioniert das Invisible reCAPTCHA folgendermaßen: Füllt ein Nutzer ein Online-Formular aus, laufen im Hintergrund diverse Analyseprozesse ab, über die sich Google bisher allerdings noch in Schweigen hüllt.