Die Funk­tio­na­li­tät ver­schie­de­ner Elemente mithilfe von A/B-Tests zu über­prü­fen, gehört mitt­ler­wei­le zur gängigen Praxis der meisten Website-Ent­wick­ler und -Betreiber. Sofern aus­rei­chend Traffic vorhanden ist, verrät dieses Test­ver­fah­ren schnell, ob ein Szenario A bei­spiels­wei­se eher zur ge­wünsch­ten Con­ver­si­on führt als ein Szenario B. Doch sowohl bei der Planung als auch während der Testphase und der ab­schlie­ßen­den Aus­wer­tung warten einige Stol­per­fal­len auf Sie. Welche Statistik-Fehler und Irrtümer besonders ver­brei­tet sind und wie Sie diese am besten vermeiden, erfahren Sie im Folgenden.

Die größten Fehler bei der A/B-Test-Planung

Noch bevor mit dem Testing begonnen wird, können falsche Annahmen und das daraus re­sul­tie­ren­de Set-up bereits die Weichen für einen Miss­erfolg stellen. Fehler 1: Auf eine Hypothese ver­zich­ten und statt­des­sen auf den Zufall setzen Der wohl gra­vie­rends­te Fehler, der in der Vor­be­rei­tungs­pha­se gemacht werden kann, ist der, auf eine Hypothese zu ver­zich­ten und darauf zu hoffen, dass bei einer aus­rei­chend hohen Zahl an ge­tes­te­ten Varianten schon die richtige dabei sein wird. Zwar steigt mit der Anzahl an zufällig aus­ge­wähl­ten Test-Varianten auch die Chance, einen Gewinner de­kla­rie­ren zu können, doch steigt ebenso die Chance, dass dieser Gewinner in Wirk­lich­keit überhaupt keine Ver­bes­se­rung für das Web­pro­jekt darstellt. Bei einer einzigen Variante wird man in 5 Prozent aller Fälle auf einen si­gni­fi­kan­ten Op­ti­mie­rungs­ef­fekt der Test­va­ri­an­te stoßen, den es aber in Wahrheit gar nicht gibt. Die Wahr­schein­lich­keit eines solchen Alpha-Fehlers erhöht sich, je mehr Varianten ein­ge­setzt werden – bei 3 ver­schie­de­nen Test­ob­jek­ten sind es zum Beispiel bereits 14 Prozent, bei 8 Varianten schon 34 Prozent. Wenn Sie zuvor keine These for­mu­lie­ren, wissen Sie später nicht, aus welchem Grund der er­mit­tel­te Sieger überhaupt für eine Op­ti­mie­rung sorgt. Stellen Sie hingegen vorab bei­spiels­wei­se die Hypothese auf, dass die Ver­grö­ße­rung eines Buttons zum Anstieg der Con­ver­si­ons führen wird, können Sie das an­schlie­ßen­de Ergebnis einordnen. Zu­sam­men­ge­fasst lässt sich also sagen, dass ein A/B-Test kei­nes­wegs vom Zufall bestimmt, sondern immer hy­po­the­sen­ge­trie­ben sowie in der Anzahl seiner Varianten be­schränkt sein sollte. Wenn Sie zu­sätz­lich mit Tools wie Op­ti­mi­ze­ly arbeiten, die eine Po­ten­zie­rung der Feh­ler­quo­te ver­hin­dern, steht einem er­folg­rei­chen Testing nichts mehr im Wege.

Fehler 2: Die falschen In­di­ka­to­ren für den Erfolg einer Test­va­ri­an­te bestimmen

Auch beim A/B-Testing spielen Key-Per­for­mance-In­di­ca­tors (KPIs) – also die für Ihr Projekt ent­schei­den­den Kenn­zif­fern – eine wichtige Rolle, die Sie nicht ver­nach­läs­si­gen sollten. Während an­stei­gen­de Sei­ten­auf­ru­fe und Klicks für einen Blog oder ein Nach­rich­ten­por­tal bereits wertvolle Con­ver­si­ons dar­stel­len, sind diese Faktoren für einen On­line­shop nicht mehr als ein positiver Trend. Für Shops sind Kenn­zif­fern wie Be­stel­lun­gen, Retouren-Rate, Umsatz oder Gewinn deutlich wichtiger. Aufgrund ihrer schwe­re­ren Mess­bar­keit sind A/B-Tests, die auf einen Haupt-KPI wie den absoluten Gewinn abzielen, selbst­ver­ständ­lich mit einem höheren Aufwand verbunden. Im Gegenzug lassen sie aber sehr viel ver­läss­li­che­re Er­folgs­pro­gno­sen zu als solche Test, die bei­spiels­wei­se nur das Plat­zie­ren eines Artikels in den Warenkorb erfassen. Denn in solchen Fällen ist es immer noch möglich, dass der Kunde letztlich doch keinen Kauf tätigt.

Es ist also wichtig, die ge­eig­ne­ten Messwerte zu finden. Al­ler­dings sollten Sie nicht zu viele ver­schie­de­ne wählen. Be­schrän­ken Sie sich statt­des­sen auf die we­sent­li­chen Faktoren und erinnern Sie sich der zuvor for­mu­lier­ten Hypothese. Das mindert das Risiko, dass Sie fälsch­li­cher­wei­se einen dau­er­haf­ten Stei­ge­rungs­ef­fekt vermuten, wo ei­gent­lich nur ein zufällig ent­stan­de­ner Effekt ohne Nach­hal­tig­keit vorliegt.

Fehler 3: Mul­ti­va­ria­te Testing ka­te­go­risch aus­schlie­ßen In einigen Fällen stehen Sie bei der Vor­be­rei­tung eines A/B-Tests vor dem Problem, dass Sie in den Varianten gerne mehrere Elemente testen wollen. Mit einem einfachen A/B-Test ist das nicht wirklich rea­li­sier­bar, weshalb vielen das so­ge­nann­te Mul­ti­va­ria­te Testing als Al­ter­na­ti­ve in den Sinn kommt. Al­ler­dings wird dieser Gedanke oft vorzeitig wieder verworfen, da die Mul­ti­va­ri­an­ten-Tests als zu aufwendig und zu ungenau gelten. Dabei können sie richtig ein­ge­setzt die optimale Lösung des ge­schil­der­ten Problems sein. Mit den richtigen Tools sind die ver­schie­de­nen Test­sei­ten nicht nur schnell ge­schal­tet, sondern im Anschluss auch leicht zu ana­ly­sie­ren. Mit ein wenig Übung lässt sich außerdem der Einfluss der einzelnen ver­än­der­ten Kom­po­nen­ten fest­stel­len. Vor­aus­set­zung ist jedoch, dass Ihr Web­pro­jekt genügend Traffic aufweist. Die Chance, einen falschen Gewinner zu de­kla­rie­ren, steigt ebenso wie beim A/B-Testing mit der Zahl der ein­ge­setz­ten Test­va­ri­an­ten – eine Be­schrän­kung auf eine Vor­auswahl ist demnach auch bei dieser Methode zu empfehlen. Um Ge­wiss­heit zu erlangen, dass eine po­ten­zi­ell bessere Version das Original tat­säch­lich über­flü­gelt, können Sie das Ergebnis im Nach­hin­ein mit einem A/B-Test va­li­die­ren. Dabei bleibt al­ler­dings die übliche Wahr­schein­lich­keit eines Alpha-Fehlers von 5 Prozent.

Statistik-Fallen und Irrtümer während des Test­vor­gangs

Ist der Test online und alle re­le­van­ten Daten werden wie gewünscht auf­ge­zeich­net, meinen viele, einem er­folg­rei­chen Ablauf des A/B-Tests stünde nichts mehr im Wege. Ungeduld und Fehl­ein­schät­zun­gen führen al­ler­dings oft dazu, dass dem nicht so ist. Daher sollte man die folgenden typischen Fehler unbedingt vermeiden.

Fehler 4: Den Test­vor­gang vorzeitig bzw. zu schnell stoppen

Die Mög­lich­keit, bereits während des Tests aus­führ­li­che Sta­tis­ti­ken aus­zu­le­sen, ist zwar überaus nützlich, führt jedoch oftmals dazu, dass voreilige Schlüsse gezogen werden und der A/B-Test im Ex­trem­fall sogar vorzeitig beendet wird. Prin­zi­pi­ell gilt: Jeder Test benötigt eine minimale Testgröße, denn gerade zu Beginn schwanken die Er­geb­nis­se in der Regel sehr stark. Außerdem erhöht sich die Aus­sa­ge­kraft, je länger die Testphase andauert, da mit fort­schrei­ten­der Testdauer zufällige Effekte aus­ge­schlos­sen werden können. Stoppen Sie Ihren Test also zu früh, riskieren Sie, ein voll­kom­men falsches Bild über die Per­for­mance der Variante zu erhalten und selbige falsch ein­zu­stu­fen – entweder zu gut oder zu schlecht.

Da es nicht einfach ist, die optimale Testdauer zu bestimmen, gibt es ver­schie­de­ne Tools wie den A/B-Test Testdauer-Rechner von con­ver­ly­tics, die Sie bei der Be­rech­nung zur Hilfe nehmen können. Natürlich gibt es durchaus auch sehr gute Gründe dafür, einen Test vorzeitig ab­zu­bre­chen, zum Beispiel, wenn eine si­gni­fi­kant schlecht per­for­men­de Variante beginnt, Ihre wirt­schaft­li­chen In­ter­es­sen zu gefährden.

Fehler 5: Moderne Test­ver­fah­ren zum Anlass nehmen, die Testdauer zu verkürzen

Es ist bereits an­ge­klun­gen, dass diverse A/B-Testing-Tools mit Verfahren arbeiten, die bei den ein­ge­setz­ten Varianten die Feh­ler­quo­te möglichst gering halten. Das Bayessche Verfahren, das bei­spiels­wei­se bei den An­wen­dun­gen Op­ti­mi­ze­ly und Visual Website Optimizer zum Einsatz kommt, ver­spricht darüber hinaus sogar aus­sa­ge­kräf­ti­ge Er­geb­nis­se, wenn die minimale Testgröße noch nicht erreicht wurde. Auch hier drohen Sie in die Statistik-Falle zu tappen, wenn Sie einen zu frühen Stand als Grundlage für Ihre Aus­wer­tung verwenden. Denn ei­ner­seits basiert die Methode auf Ihren Schät­zun­gen über den Erfolg einer Variante und an­de­rer­seits kann auch das Bayessche Verfahren an­fäng­li­che Zu­falls­ef­fek­te nicht als solche iden­ti­fi­zie­ren.

Ver­brei­te­te Fehl­schlüs­se bei der Aus­wer­tung von A/B-Test-Er­geb­nis­sen

Ohne Zweifel ist es bereits eine große Her­aus­for­de­rung, geeignete KPIs zu finden, treffende Hy­po­the­sen zu for­mu­lie­ren und den A/B-Test letzt­end­lich zu or­ga­ni­sie­ren und durch­zu­füh­ren. Die wirkliche Her­aus­for­de­rung erwartet Sie al­ler­dings erst ganz zum Schluss, wenn es darum geht, die ge­sam­mel­ten Werte zu ana­ly­sie­ren und deren Nutzen für den Erfolg Ihres Web­pro­jek­tes her­aus­zu­ar­bei­ten. Dass dabei selbst Profis Fehl­ent­schei­dun­gen treffen können, steht außer Frage. An­fän­ger­feh­ler wie solche, die in den folgenden Ab­schnit­ten be­leuch­tet werden, sollten Sie hingegen unbedingt vermeiden.

Fehler 6: Sich lediglich auf die Er­geb­nis­se des Testing-Tools verlassen

Ihr ver­wen­de­tes Testing-Tool un­ter­stützt Sie nicht einfach nur dabei, den Test zu in­iti­ie­ren und alle ge­sam­mel­ten Daten visuell dar­zu­stel­len, sondern liefert auch gleich komplette Angaben darüber, ob die jeweilige Variante eine Ver­bes­se­rung bedeuten und inwiefern ein Umstieg Ihre Con­ver­si­on-Rate be­ein­flus­sen würde. Außerdem wird auch gleich eine Variante zum absoluten Gewinner erklärt. Einen KPI wie den absoluten Umsatz oder Retouren können diese Tools dabei nicht messen, weshalb Sie unbedingt auch den ent­spre­chen­den externen Da­ten­be­stand mit­ein­be­zie­hen müssen. Ins­be­son­de­re, wenn die Er­geb­nis­se nicht den Er­war­tun­gen ent­spre­chen, lohnt sich auch ein Blick auf die separaten Er­geb­nis­se Ihres Web­ana­ly­se-Programms, das in der Regel einen we­sent­lich de­tail­lier­te­ren Überblick über das Verhalten der User bietet.

Die gezielte In­spek­ti­on der einzelnen Daten ist auch der einzige Weg, um Ausreißer fest­zu­stel­len und eventuell aus dem Ge­samt­ergeb­nis her­aus­zu­fil­tern. Warum dies ein ganz ent­schei­den­des Kriterium zur Ver­mei­dung einer falschen Annahme sein kann, ver­deut­licht das folgende Beispiel: Variante A wird vom Tool zur optimalen Version erklärt und auch ein Blick auf den erzielten Umsatz zeigt, dass mit Variante A das beste Ergebnis erzielt wurde. Bei der genaueren Un­ter­su­chung fällt al­ler­dings auf, dass dieser Umstand ins­be­son­de­re auf den Einkauf eines einzelnen Users – eines B2B-Kunden – zu­rück­zu­füh­ren ist. Rechnet man diesen einen Einkauf aus der Statistik heraus, weist plötzlich Variante B das bessere Umsatz-Ergebnis auf.

Das gleiche Beispiel ließe sich auch auf den Warenkorb, die Be­stell­ra­te oder ver­schie­de­ne andere KPIs anwenden. In jedem dieser Fälle werden Sie fest­stel­len, dass Ex­trem­wer­te den Mit­tel­wert stark be­ein­flus­sen und so schnell falsche Schluss­fol­ge­run­gen entstehen können.

Fehler 7: Er­geb­nis­se zu stark seg­men­tie­ren

Die de­tail­lier­te Über­prü­fung der Daten des A/B-Tests in Kom­bi­na­ti­on mit externen Da­ten­quel­len eröffnet natürlich noch ganz andere Optionen. Besonders beliebt ist es, die Er­geb­nis­se in­di­vi­du­ell de­fi­nier­ten Nut­zer­grup­pen zu­zu­ord­nen. So bringen Sie zum Beispiel in Erfahrung, wie Nutzer einer be­stimm­ten Al­ters­grup­pe, aus einer be­stimm­ten Region oder eines be­stimm­ten Browsers auf die jeweilige Variante reagiert haben. Je mehr Segmente Sie mit­ein­an­der ver­glei­chen, desto höher wird jedoch die Feh­ler­wahr­schein­lich­keit.

Sie sollten sich aus diesem Grund darum bemühen, dass die gewählten Gruppen eine hohe Relevanz für Ihr Test­kon­zept besitzen und jeweils einen re­prä­sen­ta­ti­ven Teil der Ge­samt­nut­zer ausmachen. Wenn Sie zum Beispiel lediglich die Besucher unter die Lupe nehmen, die männlich und unter 30 Jahre alt sind, vom Tablet zugreifen und Ihre Seite aus­schließ­lich am Wo­chen­en­de besuchen, decken Sie eine Testgröße ab, die kei­nes­falls re­prä­sen­ta­tiv für die gesamte Ziel­grup­pe ist. Wenn Sie schon im Vorfeld planen, die Er­geb­nis­se eines A/B-Tests zu seg­men­tie­ren, sollten Sie unbedingt auch eine ent­spre­chend lange Testdauer ansetzen.

Fehler 8: Den Erfolg aufgrund vager Hoch­rech­nun­gen in Frage stellen

Um zu ver­deut­li­chen, inwiefern der Umstieg auf eine neue Variante die Con­ver­si­on-Rate zukünftig be­ein­flusst, werden die A/B-Test-Er­geb­nis­se häufig als Basis für konkrete Hoch­rech­nun­gen genutzt. Zu Prä­sen­ta­ti­ons­zwe­cken mag dies ein ef­fek­ti­ves Mittel sein, wirklich prak­ti­ka­bel sind solche Zu­kunfts­pro­gno­sen aufgrund ver­schie­de­ner Einflüsse al­ler­dings nicht. Während die Er­geb­nis­se eines A/B-Tests nämlich lediglich Auf­schluss über kurz­fris­ti­ge Ver­än­de­run­gen im Verhalten der User geben, sind lang­fris­ti­ge Effekte wie der Einfluss auf die Zu­frie­den­heit der Kunden innerhalb der kurzen Testdauer nicht messbar – von der Konstanz eines fest­ge­stell­ten Wachstums aus­zu­ge­hen, ist daher voreilig. Hinzu kommen Einflüsse wie zum Beispiel saisonale Schwan­kun­gen, Lie­fer­eng­päs­se, Ver­än­de­run­gen im Pro­dukt­sor­ti­ment, die Ver­än­de­rung des Kun­den­stam­mes oder tech­ni­sche Probleme, die beim A/B-Testing unmöglich ein­be­zo­gen werden können.

Wie bei den anderen Statistik-Fallen und Fehl­an­nah­men bei der Durch­füh­rung und Aus­wer­tung eines Website-Usability-Tests gilt es, einen kühlen Kopf zu bewahren. Voreilige Schlüsse führen schnell auch dazu, dass Sie von dem an­schlie­ßen­den Live-Ergebnis ent­täuscht werden, obwohl die op­ti­mier­te Version Ihres Web­pro­jek­tes ei­gent­lich gut funk­tio­niert. Nur wenn Sie bei der For­mu­lie­rung einer Zu­kunfts­pro­gno­se sowie bei der nach­fol­gen­den Bewertung dieser Prognose auf eine saubere und überlegte Ar­beits­wei­se setzen, werden Sie die A/B-Test-Er­geb­nis­se sinnvoll auswerten und deuten können.

Zum Hauptmenü