Was ist eigentlich dieses Hadoop? – Teil 1

Von | 19. Mai 2014

In der IT-Branche gibt es momentan 3 dominierende Themen, die auf der Agenda eines jeden Unternehmens stehen und die nahezu in jeder Präsentation heutzutage eine Rolle spielen oder zumindest referenziert werden:

  • Social/Mobile
  • Cloud Computing
  • Big Data

Dieser Artikel beschäftigt sich mit Hadoop, einem der Schlagworte, dass eigentlich immer im Zusammenhang mit Big Data genannt wird und derzeit eine regelrechte Euphorie auslöst.

Um Hadoop zu verstehen, empfiehlt es sich auf die IT-Vergangenheit der letzten 20 Jahre zu schauen:

Im Jahr 1995 gab es eine Reihe von Programmen, die helfen sollten, Informationen im schnellwachsenden Internet zu indizieren und durchsuchbar zu machen: AltaVista, Lycos, Fireball, Infoseek, eXcite und Webcrawler waren sog. Suchmaschinen. Jedes dieser Unternehmen erzielte beachtliche Erfolge im schnellwachsenden Internet und war zu seiner Zeit unbestrittener Marktführer.

Heutzutage sind viele dieser damals erfolgreichen Marken entweder verschwunden, wurden übernommen oder sind nur noch in Marktnischen des Internets erfolgreich und vertreten.

Wie kam es aber dazu? Warum sind die vielen einstigen Pioniere des heutigen Internets verschwunden oder nahezu bedeutungslos?

Die Antwort auf die Frage gibt das Jahr 2000, in dem eine neue Suchmaschine die Spielwiese des Internets betrat: Google.

Aus heutiger Sicht ist Google aus dem Internet nicht mehr wegzudenken – wie aber kam es dazu?

Der Erfolg von Google war die Qualität der Suchergebnisse (Google PageRank), die Schnelligkeit der Suche und das wahnsinnig schnelle Indizieren neuer Inhalte.

Google ging hierbei komplett neue Wege; man beschloss das gesamte Internet als Kopie im eigenen Rechenzentrum vorzuhalten und alle Daten des Internets zu analysieren. Schnell wurde offensichtlich, dass eine derartige Massenspeicherung von Daten mit einer traditionellen Architektur (Relationale Datenbanken, Enterprise-Storage, Enterprise-Server) aus Kosten- und Technologiegründen nicht umsetzbar war und man erfand zwei revolutionäre, neue Ansätze:

  • Das Google File System (GFS)
  • Google MapReduce

Das Google File System ist in der Lage riesige Datenmengen auf Clustern von Commodity-Hardware (LowCost) zu speichern und Hardware-Fehler zu tolerieren.

Um diese riesigen Datenmengen berechnen und auswerten zu können, erfand Google den Alghoritmus MapReduce, der im Gegensatz zu bisherigen Methoden, entwickelt wurde einen Nutzen aus den verteilten Dateien auf dem Google File System zu ziehen.

Im Wesentlichen vereinfacht MapReduce die Programmierung von distribuierten Systemen, in dem es die Rechenoperationen (Compute) zu den Daten schickt; jedes System im Filesystem-Cluster berechnet gleichzeitig einen Teilbereich der Gesamtdaten (Map) und die Ergebnisse werden am Ende aufsummiert auf Basis von Key-Value-Paaren (Reduce).

Google veröffentliche entsprechende Papiere über das Design von GFS und MapReduce in 2003 und 2004: daraus wurde das Apache-Projekt Hadoop geboren, das im Grundsatz ebenfalls aus 2 Komponenten besteht:

  • Distribuiertes Filesystem: Hadoop Distributed Filesystem (HDFS)
  • MapReduce: Hadoop MapReduce

Ist Hadoop ein Produkt?

  • Hadoop ist ein Ökosystem von Software-Projekten
  • Hadoop basiert auf Konzepten von Google
  • Hadoop ist ein großer “Computer”, der Daten verarbeitet
  • Hadoop ist ein Data-OS
  • Hadoop ist ein verteiltes Dateisystem
  • Hadoop nutzt Commodity-Hardware

Hadoop ist KEIN Produkt.

Im nächsten Teil dieser Reihe wird Hadoop spezifischer erklärt und es wird beschrieben wie Hadoop und das damit verbundene Ökosystem für Unternehmen hilfreich sein kann.

 

 

 

print

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.