Immer mehr Un­ter­neh­men verfügen über große Mengen von Daten, die für die Kun­den­seg­men­tie­rung, die Ver­triebs­steue­rung oder das Target-Marketing wertvolle Res­sour­cen sind. Solange diese Da­ten­sät­ze aber nicht hin­rei­chend ana­ly­siert und aus­ge­wer­tet werden können, sind sie für ein Un­ter­neh­men wertlos. Es gibt Unmengen an In­for­ma­tio­nen, aber nur wer sie zu nutzen weiß, hat auch etwas davon. Darauf weist auch der Trend- und Zu­kunfts­for­scher John Naisbitt mit seinem viel­zi­tier­ten Satz hin:

Zitat

„We are drowning in in­for­ma­ti­on, but starving for knowledge.“

– der Trend- und Zu­kunfts­for­scher John Naisbitt über wachsende Mengen digitaler Daten.

Data-Mining-Tools helfen dabei, die Menge an Daten zu be­wäl­ti­gen und in ihnen die mög­li­cher­wei­se ent­schei­den­den Trends und Muster zu erkennen. Zu diesem Zweck wird die Data-Mining-Software immer komplexer und die Auswahl an Tools immer größer. Damit Sie die Übersicht behalten, stellen wir Ihnen die wich­tigs­ten Data-Mining-Programme im Vergleich vor.

Techniken, Aufgaben und Kom­po­nen­ten des Data-Minings

Als Data-Mining be­zeich­net man al­go­rith­mi­sche Methoden der Da­ten­aus­wer­tung, die auf besonders große und komplexe Da­ten­sät­ze an­ge­wen­det werden. Das Data-Mining soll ver­bor­ge­ne In­for­ma­tio­nen aus großen Da­ten­be­stän­den (ins­be­son­de­re aus Mas­sen­da­ten, sog. Big Data) her­aus­ho­len und damit noch besser verdeckte Zu­sam­men­hän­ge, Trends und Muster erkennen, die sich in ihnen abbilden. Dabei helfen Data-Mining-Tools. Der Begriff „Data-Mining“ meint weder die Da­ten­ge­ne­rie­rung noch die Da­ten­sät­ze selbst, sondern aus­schließ­lich die Praxis der Da­ten­ana­ly­se. Viele der ein­ge­setz­ten Verfahren stammen aus der Statistik; Data-Mining ist jedoch kein rein sta­tis­ti­sches, sondern ein in­ter­dis­zi­pli­nä­res Verfahren, das Er­kennt­nis­se aus der In­for­ma­tik und Ma­the­ma­tik mit Techniken des Machine-Learnings (ins­be­son­de­re dem un­über­wach­ten Lernen) und der künst­li­chen In­tel­li­genz verbindet. Diese leis­tungs­star­ken Methoden werden in Data-Mining-Software in­te­griert, um die Aus­wer­tung großer Da­ten­sät­ze zu er­mög­li­chen.

Fakt

Text-Mining ist eine Son­der­form des Data-Minings, die durch die Be­liebt­heit von Sprach­soft­ware und Sprach­tech­no­lo­gie eine besondere Relevanz bekommt. Die In­for­ma­ti­ons­ge­win­nung bezieht sich hier nicht auf Da­ten­sät­ze, sondern auf Text­do­ku­men­te. Aus großen Text­men­gen (Fach­ar­ti­kel oder Dokumente des Un­ter­neh­mens) werden Kern­aus­sa­gen ex­tra­hiert. Damit ist das Text-Mining für Un­ter­neh­men etwa bei Re­cher­chen für neue Projekte hilfreich.

Dennoch gilt: Auch für er­folg­rei­ches Data-Mining müssen Anwender ein gutes Ver­ständ­nis von den Da­ten­sät­zen haben. Denn nur dann können sie die Data-Mining-Werkzeuge sinnvoll und aus­sa­ge­kräf­tig einsetzen – Pro­gram­mier­kennt­nis­se sind hierzu jedoch nicht er­for­der­lich –, implizite Zu­sam­men­hän­ge erkennen, Prognosen über Ab­satz­zah­len treffen oder Kauf­ver­hal­ten ana­ly­sie­ren.

Einzelne Aufgaben des Data-Minings:

  • Klas­si­fi­ka­ti­on: Ordnet einzelne Da­ten­ob­jek­te be­stimm­ten vor­de­fi­nier­ten Klassen (z. B. Katzen oder Fahrräder) zu, die diesen Klassen bisher nicht zu­ge­ord­net waren; zur Klas­si­fi­ka­ti­on eignet sich besonders die so­ge­nann­te Ent­schei­dungs­baum­ana­ly­se.
  • Ab­wei­chungs­ana­ly­se bzw. Aus­rei­ßer­ana­ly­se: Iden­ti­fi­ziert Objekte, die den Regeln der Ab­hän­gig­kei­ten bei ver­wand­ten Objekten nicht ent­spre­chen; dadurch lassen sich Ursachen für die Ab­wei­chun­gen finden.
  • Clus­ter­ana­ly­se: Iden­ti­fi­ziert Häufungen von Ähn­lich­kei­ten und bildet danach Gruppen von Objekten, die sich hin­sicht­lich be­stimm­ter Aspekte stärker ähneln als andere Gruppen; im Gegensatz zur Klas­si­fi­ka­ti­on sind die Gruppen (bzw. Cluster) nicht vor­de­fi­niert und können je nach ana­ly­sier­ten Daten un­ter­schied­li­che Formen annehmen.
  • As­so­zia­ti­ons­ana­ly­se: Deckt Kor­re­la­tio­nen zwischen zwei oder mehreren von­ein­an­der un­ab­hän­gi­gen Items auf, die zwar in keinem direkten Zu­sam­men­hang stehen, aber vermehrt gemeinsam auftreten.
  • Re­gres­si­ons­ana­ly­se: Deckt Be­zie­hun­gen zwischen einer ab­hän­gi­gen Variable (z. B. dem Pro­dukt­ab­satz) und einer oder mehreren un­ab­hän­gi­gen Variablen (z. B. dem Pro­dukt­preis oder dem Kun­den­ein­kom­men) auf; wird u. a. ein­ge­setzt, um Prognosen über die abhängige Variable zu machen (z. B. eine Ab­satz­pro­gno­se).
  • Pre­dic­ti­ve Analytics: Ei­gent­lich eine über­ge­ord­ne­te Aufgabe, die darauf abzielt, Vor­her­sa­gen über Zu­kunfts­trends zu treffen; bedient sich dazu u. a. des Data-Minings und arbeitet mit einer Variable (Prä­di­ka­tor), die für einzelne Personen oder größere Entitäten gemessen wird.
Fakt

Mithilfe der As­so­zia­ti­ons­ana­ly­se wurden auf­schluss­rei­che Zu­sam­men­hän­ge bei Kauf­ent­schei­dun­gen un­ter­schied­li­cher Produkte her­ge­stellt, womit die Wa­ren­korb­ana­ly­se ent­schei­dend ver­bes­sert werden konnte. Mit dieser Methode werden Kauf­emp­feh­lun­gen bei Online-Ver­sand­händ­lern ermittelt.

Die un­ter­schied­li­chen Verfahren kann man grob un­ter­tei­len in so­ge­nann­te Be­ob­ach­tungs­pro­ble­me (Ab­wei­chungs­ana­ly­se, Clus­ter­ana­ly­se) und Pro­gno­sen­pro­ble­me (Re­gres­si­ons­ana­ly­se, Klas­si­fi­ka­ti­on). Eine de­tail­lier­te Erklärung un­ter­schied­li­cher Methoden des Data-Minings finden sich im Tec­Work­shop von com­pu­ter­wo­che.de.

Data-Mining-Tools im Vergleich

Für einen Vergleich der besten Data-Mining-Tools stellen wir nun die Werkzeuge Ra­pidMi­ner, WEKA, Orange, KNIME und SAS vor. Es hat sich bewährt, dass Anwender mehrere Tools verwenden, da Data-Mining-Werkzeuge jeweils un­ter­schied­li­che Stärken haben, die mit­ein­an­der kom­bi­niert werden können. Data-Mining-Tools sind nämlich oft mit­ein­an­der kom­pa­ti­bel. Doch auch mit einem einzigen guten All­roun­der-Tool kann man als Ein­stei­ger schon eine Menge aus­rich­ten.

Ra­pidMi­ner

Ra­pidMi­ner (zuvor: YALE, „Yet Another Learning En­vi­ron­ment“) ist eines der be­lieb­tes­ten Data-Mining-Tools. Im Jahr 2014 war es laut einer Umfrage von KDnuggets vor dem Tool R das meist­ver­wen­de­te Data-Mining-Werkzeug. Es ist kos­ten­frei zu­gäng­lich und auch ohne besondere Pro­gram­mier­kennt­nis­se leicht an­zu­wen­den. Dennoch bietet es eine große Auswahl an Ope­ra­to­ren. Besonders Start-ups greifen häufig auf dieses Tool zurück.

Ra­pidMi­ner wurde in Java ge­schrie­ben und be­inhal­tet mehr als 500 Ope­ra­to­ren mit un­ter­schied­li­chen Ansätzen, um Zu­sam­men­hän­ge in Daten auf­zu­zei­gen – u. a. gibt es Optionen fürs Data-Mining, Text-Mining und Web-Mining, aber auch für Stim­mungs­ana­ly­sen (Sentiment-Analyse, Opinion-Mining). Außerdem im­por­tiert das Programm Excel-Tabellen, SPSS-Dateien und Da­ten­sät­ze vieler Da­ten­ban­ken und in­te­griert auch die Data-Mining-Tools WEKA und R. Damit ist es ein um­fang­rei­cher All­roun­der.

Ra­pidMi­ner un­ter­stützt alle Schritte des Data-Mining-Prozesses, was auch die Vi­sua­li­sie­rung der Er­geb­nis­se mit­ein­schließt. Das Tool besteht aus drei großen Modulen: Ra­pidMi­ner Studio, Ra­pidMin­der Server und Ra­pidMi­ner Radoop, die jeweils un­ter­schied­li­che Techniken des Data-Minings ausführen. Außerdem bereitet Ra­pidMi­ner die Daten vor der Analyse auf und optimiert sie zur schnellen Wei­ter­ver­ar­bei­tung. Von jedem dieser drei Module exis­tie­ren eine kos­ten­freie und un­ter­schied­li­che kos­ten­pflich­ti­ge Versionen.

Die besondere Stärke von Ra­pidMi­ner liegt in Pre­dic­ti­ve Analytics, also in der Vor­her­sa­ge künftiger Ent­wick­lun­gen auf Basis der ge­sam­mel­ten Daten. Ver­gleicht man Data-Mining-Software, ist Ra­pidMi­ner hier eines der stärksten Tools.

WEKA

WEKA (Waikato En­vi­ron­ment for Knowledge Analysis) ist eine Open-Source-Software und wurde von der Uni­ver­si­ty of Waikato ent­wi­ckelt. Das Data-Mining-Tool basiert auf Java und kann sowohl mit Windows und macOS als auch mit Linux verwendet werden. Es ist für seine um­fang­rei­chen Machine-Learning-Funk­tio­nen bekannt und un­ter­stützt alle wichtigen Data-Mining-Tasks wie Clus­te­ring, As­so­zia­ti­on, Re­gres­si­on oder Klas­si­fi­ka­ti­on. Die grafische Be­nut­zer­ober­flä­che er­leich­tert den Zugang zur Software. Außerdem bietet WEKA Anschluss an SQL-Da­ten­ban­ken und kann dort an­ge­frag­te Daten wei­ter­ver­ar­bei­ten. Die Stärke von WEKA liegt in der Klas­si­fi­ka­ti­on: Das Data-Mining-Werkzeug ist für seine vielen Klas­si­fi­ka­tio­nen bekannt, darunter künst­li­che neuronale Netze, Ent­schei­dungs­bäu­me, ID3- oder C4.5-Al­go­rith­men. Weniger stark ist WEKA dagegen bei anderen Techniken wie der Clus­ter­ana­ly­se. Hier werden nur die wich­tigs­ten Verfahren angeboten. Ein weiterer Nachteil: WEKA kann Ver­ar­bei­tungs­pro­ble­me haben, wenn große Da­ten­men­gen zu be­wäl­ti­gen sind – denn diese versucht das Data-Mining-Tool allesamt in den Ar­beits­spei­cher zu laden. Als Ausweg bietet WEKA eine einfache Kom­man­do­zei­le (CLI) an, über die der Umgang mit großen Da­ten­men­gen besser gelingt.

Fakt

WEKA wurde 2005 mit dem „SIGKDD Service Award“ der As­so­cia­ti­on for Computing Machinery für seinen hohen For­schungs­bei­trag aus­ge­zeich­net. Das 1999 erstmals ver­öf­fent­lich­te Stan­dard­werk zum ma­schi­nel­len Lernen „Data-Mining: Prak­ti­sche Werkzeuge und Techniken für das ma­schi­nel­le Lernen“ von Eibe Frank und Ian H. Witten bezieht sich maß­geb­lich auf diese Software. Im Vergleich zu anderen Data-Mining-Werk­zeu­gen hat sich WEKA also besonders für Lehr- und For­schungs­zwe­cke bewährt.

Orange

Das Data-Mining-Tool Orange existiert seit mehr als 20 Jahren und ist ein Projekt der Uni­ver­si­tät Ljubljana. Der Kern der Software wurde in C++ ge­schrie­ben, doch schon früh er­wei­ter­te man das Programm um die Pro­gram­mier­spra­che Python, die nun als Zu­griffs­spra­che verwendet wird. Die kom­pli­zier­te­ren Ope­ra­tio­nen werden hingegen weiterhin in C++ durch­ge­führt. Orange ist eine um­fäng­li­che Data-Mining-Software, die de­mons­triert, wie viel man mit Python aus­rich­ten kann: Es bietet nützliche An­wen­dun­gen zur Daten- und Text­ana­ly­se sowie Features zum Machine-Learning an und im Bereich des Data-Minings arbeitet es mit Ope­ra­to­ren zur Klas­si­fi­ka­ti­on, zur Re­gres­si­on, zum Clus­te­ring u. v. m. Außerdem in­te­griert dieses Data-Mining-Tool visuelles Pro­gram­mie­ren.

Auffällig an diesem Tool: Anwender betonen immer wieder den Spaß, den sie mit dieser Data-Mining-Software im Vergleich zu anderer haben. Sowohl Neu­ein­stei­ger als auch erfahrene Nutzer sind immer wieder fas­zi­niert von Orange. Diese Po­pu­la­ri­tät verdankt sich zwei Dingen: erstens der an­spre­chen­den Da­ten­vi­sua­li­sie­rung, mit der man sich gern be­schäf­tigt; zweitens der Schnel­lig­keit und Leich­tig­keit, mit der diese Vi­sua­li­sie­rung gelingt. Das Programm bereitet ein­ge­speis­te Daten umgehend visuell auf. Sowohl das Ver­ständ­nis dieser Grafiken als auch die Wei­ter­ver­ar­bei­tung der Da­ten­ana­ly­sen gelingen ver­hält­nis­mä­ßig leicht und er­mög­li­chen zügige Business-Ent­schei­dun­gen. Das macht Orange zu einem optimalen Ein­stiegs­tool ins Data-Mining.

Ein weiterer Vorteil für Neu­ein­stei­ger: Den Nutzern stehen zahl­rei­che Online-Tutorials für das Tool zur Verfügung. Eine Be­son­der­heit an Orange ist außerdem, dass es mit der Zeit die Vorlieben seines Anwenders kennen lernt und sich danach verhält. Dies kann die Benutzung des Data-Mining-Werkzeugs noch an­ge­neh­mer machen.

KNIME

KNIME (Konstanz In­for­ma­ti­on Miner) wurde von der Uni­ver­si­tät Konstanz ent­wi­ckelt und ist mitt­ler­wei­le bei einer großen in­ter­na­tio­na­len Ent­wick­ler­ge­mein­de beliebt. Zwar war KNIME von Anfang an für die kom­mer­zi­el­le Nutzung gedacht, ist aber dennoch als Open-Source-Software verfügbar. Es wurde in Java ge­schrie­ben und mit Eclipse auf­be­rei­tet. Be­trach­tet man diese Data-Mining-Software im Vergleich mit anderen, so fällt zunächst ihr Funk­ti­ons­um­fang auf: Mit mehr als 1.000 Modulen und vor­ge­fer­tig­ten An­wen­dungs­pa­ke­ten hilft dieses Tool umfassend dabei, ver­bor­ge­ne Da­ten­struk­tu­ren auf­zu­de­cken. Die Module lassen sich um weitere, kom­mer­zi­el­le Funk­tio­nen erweitern. Unter den Funk­tio­nen überzeugt vor allem die in­te­gra­ti­ve Da­ten­ana­ly­se – auf diesem Gebiet ist KNIME eines der stärksten Werkzeuge und erlaubt die In­te­gra­ti­on zahl­rei­cher Verfahren des ma­schi­nel­len Lernens und des Data-Minings. Außerdem ist es besonders leis­tungs­fä­hig in der Vor­ver­ar­bei­tung von Daten, also beim Ex­tra­hie­ren, Trans­for­mie­ren und Laden von Daten. Durch sein modulares Pipe­lining gilt es vor allem als ein da­ten­fluss­ori­en­tier­tes Data-Mining-Werkzeug. Seit 2006 wird KNIME in der phar­ma­zeu­ti­schen Forschung ein­ge­setzt und ist auch für den Fi­nanz­da­ten­sek­tor ein starkes Data-Mining-Tool. Doch auch im Bereich Business-In­tel­li­gence (BI) wird KNIME häufig verwendet. Dort gilt KNIME als das Tool, das Pre­dic­ti­ve Analytics auch für un­er­fah­re­ne Nutzer zu­gäng­lich gemacht hat. Für Neu­ein­stei­ger ist das Tool außerdem in­ter­es­sant, da es trotz seiner vielen starken Features nur mit einer relativ kurzen Ein­ar­bei­tungs­zeit verbunden ist. KNIME gibt es als kos­ten­lo­ses wie auch als kos­ten­pflich­ti­ges Programm.

SAS

SAS (Sta­tis­ti­cal Analysis System) ist ein Produkt des SAS Institute, eines der weltweit größten Software-Un­ter­neh­men in Pri­vat­be­sitz. SAS ist das führende Data-Mining-Tool für Business-Analysen – und auch das kost­spie­ligs­te der hier auf­ge­führ­ten Programme. Dafür ist es aber dasjenige, das sich am besten für den Einsatz in großen Un­ter­neh­men eignet. SAS punktet besonders im pro­gnos­ti­schen Bereich und bei der in­ter­ak­ti­ven Da­ten­vi­sua­li­sie­rung, die sich optimal für große Prä­sen­ta­tio­nen eignet. Grund­sätz­lich hat man mit dieser Data-Mining-Software eine komplexe Rundum-Aus­stat­tung für er­folg­rei­ches Data-Mining zur Hand. Dabei zeichnet sich das Tool durch eine sehr hohe Ska­lier­bar­keit aus – es ist also in der Lage, seine Leistung durch das Hin­zu­fü­gen von weiterer Hardware oder anderen Res­sour­cen pro­por­tio­nal zu steigern. Auch das macht es zu einem leis­tungs­star­ken Werkzeug für hoch­wer­ti­ge Business-Lösungen. Für technisch weniger versierte Nutzer verfügt es über eine grafische Ober­flä­che. Al­ler­dings lässt sich diese Software nur kostenlos nutzen, wenn man eine ent­spre­chen­de Lizenz von einer öf­fent­li­chen Ein­rich­tung erhält. Grund­sätz­lich ist SAS also immer kos­ten­pflich­tig. Die Kosten werden auf Anfrage geregelt, spezielle Kon­di­tio­nen, z. B. für Behörden oder Bil­dungs­ein­rich­tun­gen, sind möglich. Es heißt, dass man ab ca. 5.500 Euro eine ein­jäh­ri­ge Nut­zungs­li­zenz erwerben kann, womit SAS auch unter den kom­mer­zi­el­len Tools zu den teureren Al­ter­na­ti­ven gehört. Es ist aber möglich, den Funk­ti­ons­um­fang in­di­vi­du­ell an­zu­pas­sen und dadurch den Preis zu be­ein­flus­sen. SAS wird vor allem in Phar­ma­be­trie­ben ein­ge­setzt, wo es sich als Standard eta­blie­ren konnte. Auch im Ban­ken­sek­tor findet es häufige Ver­wen­dung und bietet für die Bereiche BI und Web-Mining optimale Lösungen. Hierfür verfügt es u. a. über eine eigene Business-In­tel­li­gence-Software. Damit ist es eines der mäch­tigs­ten Data-Mining-Tools auf dem Markt.

Data-Mining-Tools im Überblick

Nach dem de­tail­lier­ten Vergleich der Data-Mining-Software nun noch einmal alle wichtigen Ei­gen­schaf­ten der Data-Mining-Tools im Überblick:

Merkmale Pro­gram­mier­spra­che Be­triebs­sys­te­me Kosten/Lizenz
Ra­pidMi­ner Starker All­roun­der mit einer be­son­de­ren Stärke in Pre­dic­ti­ve Analytics Java Windows, macOS, Linux Freeware, Ver­schie­de­ne kos­ten­pflich­ti­ge Versionen, Ver­schie­de­ne kos­ten­pflich­ti­ge Versionen
WEKA Besonders viele Methoden der Klas­si­fi­ka­ti­on Java Windows, macOS, Linux Freie Software (GPL)
Orange Kreiert besonders an­spre­chen­de und in­ter­es­san­te Da­ten­vi­sua­li­sie­run­gen, ohne dass viele Vor­kennt­nis­se nötig sind Software-Kern: C++, Er­wei­te­run­gen und Zu­griffs­spra­che: Python Windows, macOS, Linux Freie Software (GPL)
KNIME Das führende offene Data-Mining-Tool, das Pre­dic­ti­ve Analytics allgemein zu­gäng­lich gemacht hat Java Windows, macOS, Linux Freie Software (GPL) (ab Version 2.1)
SAS Kost­spie­li­ge, aber mächtige Data-Mining-Software für große Un­ter­neh­men SAS Language Windows, macOS, Linux Ein­ge­schränk­te Freeware über Bil­dungs­ein­rich­tun­gen er­hält­lich, Preis nur auf Anfrage, Un­ter­schied­lich um­fang­rei­che Modelle möglich
Zum Hauptmenü