{"id":1028,"date":"2014-05-20T17:23:11","date_gmt":"2014-05-20T15:23:11","guid":{"rendered":"http:\/\/wiegehtdasmitdemcloud.de\/?p=1028"},"modified":"2015-05-08T16:41:56","modified_gmt":"2015-05-08T14:41:56","slug":"was-ist-eigentlich-dieses-hadoop-teil-2","status":"publish","type":"post","link":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/","title":{"rendered":"Was ist eigentlich dieses Hadoop? \u2013 Teil 2"},"content":{"rendered":"<p>Wie in Teil 1 der Artikelserie beschrieben, basiert Hadoop im Grundsatz und urspr\u00fcnglich auf zwei Konzepten von Google:<\/p>\n<ul>\n<li>einem distribuierten File-System (Hadoop Distributed File System = HDFS)<\/li>\n<li>einem Algorithmus zur Analyse dieser verteilten Daten<\/li>\n<\/ul>\n<p>Bevor es um das File-System geht, m\u00f6chte ich zun\u00e4chst versuchen, MapReduce zu erkl\u00e4ren. Hierf\u00fcr m\u00f6chte ich gerne zun\u00e4chst ein Beispiel aus dem t\u00e4glichen Leben nehmen<!--more--> und anschlie\u00dfend in Teil 3 der Reihe einen technischen \u00dcberblick geben.<\/p>\n<p>Bei jeder Wahl in Deutschland kann theoretisch jeder zu einem Wahlhelfer werden und die Wahlberechtigungen kontrollieren oder die Stimmzettel ausz\u00e4hlen. Am Ende eines erfolgreichen Wahltages m\u00f6chten die Parteien unbedingt und schnell wissen, wer es denn in das Parlament, den Land- oder Bundestag geschafft hat und wieviele Prozentpunkte jede Partei im Vergleich zum Vorjahr gewonnen oder verloren hat.<\/p>\n<p>Das Ergebnis einer Wahl wird \u00fcblicherweise als Torten- oder Balkendiagramm dargestellt und verwendet als Datenfundament eine Liste aus Key-Value-Paaren:<\/p>\n<p><strong>Parteiname : Wahlergebnis (in Prozent)<\/strong><\/p>\n<p>Wie kommt aber die einzelne Stimme in den vielen verschiedenen Bundesl\u00e4ndern, Wahlkreisen und Gemeinden zu einer zentralen Aufsummierung der Wahlergebnisse.<\/p>\n<p>Betrachten wir einmal das kleine Wahlb\u00fcro um die Ecke und nehmen mal an, dass der ausgew\u00e4hlte Wahlkreis aus 100 Personen und 4 Parteien besteht. Es gibt zudem 4 Wahlhelfer, die bei der Stimmz\u00e4hlung helfen d\u00fcrfen. Nachdem alle 100 Wahlberechtigte Ihren Stimmzettel abgegeben haben, beginnt die Auswertung. Hierzu wird der gro\u00dfe Stapel aus der Wahlurne (bestehend aus 100 Stimmzetteln &#8211; alle g\u00fcltig) an die 4 Wahlhelfer verteilt: jeder erh\u00e4lt demnach 25 Stimmzettel, die er auswerten muss.<\/p>\n<p>Halten wir fest, dass zu diesem Zeitpunkt niemand alle Stimmzettel (Daten) besitzt und alle Wahlhelfer dieselbe Z\u00e4hlung (Rechenoperation) f\u00fcr\u00a0einen Teilbereich der Gesamtanzahl aller Stimmzettel durchf\u00fchren. Am Ende der Z\u00e4hlung verf\u00fcgt jeder der 4 Wahlhelfer \u00fcber eine Liste von den 4 Parteien und den dazugeh\u00f6rigen aufsummierten Stimmenanzahl. Jeder hat also ein Key-Value-Paar gebildet aus <strong>Parteiname <\/strong>und<strong> Anzahl der Stimmen<\/strong>.<\/p>\n<p>Dieser Vorgang spielt sich in einem der vielen Wahlb\u00fcros parallel ab. In MapReduce wird dieser Vorgang als <strong>Map-Phase<\/strong> bezeichnet, d.h. jeder (Cluster-Knoten) f\u00fchrt parallel dieselbe Rechenoperation auf einem Teilbestand der Daten aus.<\/p>\n<p>Die <strong>Reduce-Phase<\/strong> besteht in unserem Fall einfach darin, dass jemand die Teilergebnisse der <strong>Map-Phase<\/strong> (Teilausz\u00e4hlung) zusammenfasst und ebenfalls als Key-Value-Paar darstellt. F\u00fcr jedes regionale Wahlb\u00fcro gibt es demnach ein Ergebnis, dass aus einer Liste der 4 Parteien und der\u00a0dazugeh\u00f6rigen Stimmenanzahl besteht.<\/p>\n<p>Gibt nun jedes Wahlb\u00fcro diese Daten an die n\u00e4chst h\u00f6here Instanz weiter, k\u00f6nnen auch dort die Ergebnisse zusammengefast (reduziert) werden, so dass in letzter Instanz auf h\u00f6chster Ebene das vormals angesprochene Endergebnis als Key-Value-Paar vorliegt.<\/p>\n<p>Halten wir also fest:<\/p>\n<ul>\n<li>Gerechnet wird immer dort, wo die Daten auch gerade sind. (Auf dem Schreibtisch des Wahlhelfers)<\/li>\n<li>Es wird parallel gerechnet (Es gibt sehr viele Wahlb\u00fcros)<\/li>\n<li>Die Ergebnisse werden von wenigen Instanzen zusammengefasst<\/li>\n<\/ul>\n<p>Das beschriebene Konstrukt kann auch auf Daten \u00fcbertragen werden, wobei Key und Value nat\u00fcrlich vom Programmierer definiert werden k\u00f6nnen. Als eines der typischen Beispiele wird gerne &#8220;Wordcount&#8221; benutzt, in dem es darum geht die Anzahl (Value) eines bestimmten Wortes (Key) in einem Text zu bestimmen. Es gibt jedoch noch diverse andere Berechnungen, die mit MapReduce durchgef\u00fchrt werden k\u00f6nnen.<\/p>\n<p>Dazu mehr in Teil 3 &#8230;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wie in Teil 1 der Artikelserie beschrieben, basiert Hadoop im Grundsatz und urspr\u00fcnglich auf zwei Konzepten von Google: einem distribuierten File-System (Hadoop Distributed File System = HDFS) einem Algorithmus zur Analyse dieser verteilten Daten Bevor es um das File-System geht, m\u00f6chte ich zun\u00e4chst versuchen, MapReduce zu erkl\u00e4ren. Hierf\u00fcr m\u00f6chte ich gerne zun\u00e4chst ein Beispiel aus\u2026 <span class=\"read-more\"><a href=\"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/\">Weiterlesen &raquo;<\/a><\/span><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_exactmetrics_skip_tracking":false,"_exactmetrics_sitenote_active":false,"_exactmetrics_sitenote_note":"","_exactmetrics_sitenote_category":0,"footnotes":""},"categories":[11],"tags":[],"class_list":["post-1028","post","type-post","status-publish","format-standard","hentry","category-unkategorisiert"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.4 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Was ist eigentlich dieses Hadoop? \u2013 Teil 2 &#187; vrealize.it - TechBlog VMware SDDC<\/title>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/\" \/>\n<meta property=\"og:locale\" content=\"de_DE\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Was ist eigentlich dieses Hadoop? \u2013 Teil 2 &#187; vrealize.it - TechBlog VMware SDDC\" \/>\n<meta property=\"og:description\" content=\"Wie in Teil 1 der Artikelserie beschrieben, basiert Hadoop im Grundsatz und urspr\u00fcnglich auf zwei Konzepten von Google: einem distribuierten File-System (Hadoop Distributed File System = HDFS) einem Algorithmus zur Analyse dieser verteilten Daten Bevor es um das File-System geht, m\u00f6chte ich zun\u00e4chst versuchen, MapReduce zu erkl\u00e4ren. Hierf\u00fcr m\u00f6chte ich gerne zun\u00e4chst ein Beispiel aus\u2026 Weiterlesen &raquo;\" \/>\n<meta property=\"og:url\" content=\"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/\" \/>\n<meta property=\"og:site_name\" content=\"vrealize.it - TechBlog VMware SDDC\" \/>\n<meta property=\"article:published_time\" content=\"2014-05-20T15:23:11+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2015-05-08T14:41:56+00:00\" \/>\n<meta name=\"author\" content=\"admin\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:label1\" content=\"Verfasst von\" \/>\n\t<meta name=\"twitter:data1\" content=\"admin\" \/>\n\t<meta name=\"twitter:label2\" content=\"Gesch\u00e4tzte Lesezeit\" \/>\n\t<meta name=\"twitter:data2\" content=\"3\u00a0Minuten\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\\\/\\\/schema.org\",\"@graph\":[{\"@type\":\"Article\",\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/2014\\\/05\\\/20\\\/was-ist-eigentlich-dieses-hadoop-teil-2\\\/#article\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/2014\\\/05\\\/20\\\/was-ist-eigentlich-dieses-hadoop-teil-2\\\/\"},\"author\":{\"name\":\"admin\",\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/#\\\/schema\\\/person\\\/82e6ae52e830379f87709f472bb0d99e\"},\"headline\":\"Was ist eigentlich dieses Hadoop? \u2013 Teil 2\",\"datePublished\":\"2014-05-20T15:23:11+00:00\",\"dateModified\":\"2015-05-08T14:41:56+00:00\",\"mainEntityOfPage\":{\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/2014\\\/05\\\/20\\\/was-ist-eigentlich-dieses-hadoop-teil-2\\\/\"},\"wordCount\":550,\"commentCount\":0,\"articleSection\":[\"Unkategorisiert\"],\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"CommentAction\",\"name\":\"Comment\",\"target\":[\"https:\\\/\\\/vrealize.it\\\/de\\\/2014\\\/05\\\/20\\\/was-ist-eigentlich-dieses-hadoop-teil-2\\\/#respond\"]}]},{\"@type\":\"WebPage\",\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/2014\\\/05\\\/20\\\/was-ist-eigentlich-dieses-hadoop-teil-2\\\/\",\"url\":\"https:\\\/\\\/vrealize.it\\\/de\\\/2014\\\/05\\\/20\\\/was-ist-eigentlich-dieses-hadoop-teil-2\\\/\",\"name\":\"Was ist eigentlich dieses Hadoop? \u2013 Teil 2 &#187; vrealize.it - TechBlog VMware SDDC\",\"isPartOf\":{\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/#website\"},\"datePublished\":\"2014-05-20T15:23:11+00:00\",\"dateModified\":\"2015-05-08T14:41:56+00:00\",\"author\":{\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/#\\\/schema\\\/person\\\/82e6ae52e830379f87709f472bb0d99e\"},\"breadcrumb\":{\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/2014\\\/05\\\/20\\\/was-ist-eigentlich-dieses-hadoop-teil-2\\\/#breadcrumb\"},\"inLanguage\":\"de\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\\\/\\\/vrealize.it\\\/de\\\/2014\\\/05\\\/20\\\/was-ist-eigentlich-dieses-hadoop-teil-2\\\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/2014\\\/05\\\/20\\\/was-ist-eigentlich-dieses-hadoop-teil-2\\\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Startseite\",\"item\":\"https:\\\/\\\/vrealize.it\\\/de\\\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Was ist eigentlich dieses Hadoop? \u2013 Teil 2\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/#website\",\"url\":\"https:\\\/\\\/vrealize.it\\\/de\\\/\",\"name\":\"vrealize.it - TechBlog VMware SDDC\",\"description\":\"Information zu sicherem Hybrid und Multi-Cloud Computing - dispruptive Technologien im IT- Umfeld\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\\\/\\\/vrealize.it\\\/de\\\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"de\"},{\"@type\":\"Person\",\"@id\":\"https:\\\/\\\/vrealize.it\\\/de\\\/#\\\/schema\\\/person\\\/82e6ae52e830379f87709f472bb0d99e\",\"name\":\"admin\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"de\",\"@id\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/c496960fb41f514bddb6eead79f0ba339bab37246d1ab3ceb01f8ac94221e5b0?s=96&d=mm&r=g\",\"url\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/c496960fb41f514bddb6eead79f0ba339bab37246d1ab3ceb01f8ac94221e5b0?s=96&d=mm&r=g\",\"contentUrl\":\"https:\\\/\\\/secure.gravatar.com\\\/avatar\\\/c496960fb41f514bddb6eead79f0ba339bab37246d1ab3ceb01f8ac94221e5b0?s=96&d=mm&r=g\",\"caption\":\"admin\"},\"url\":\"https:\\\/\\\/vrealize.it\\\/de\\\/author\\\/admin\\\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Was ist eigentlich dieses Hadoop? \u2013 Teil 2 &#187; vrealize.it - TechBlog VMware SDDC","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/","og_locale":"de_DE","og_type":"article","og_title":"Was ist eigentlich dieses Hadoop? \u2013 Teil 2 &#187; vrealize.it - TechBlog VMware SDDC","og_description":"Wie in Teil 1 der Artikelserie beschrieben, basiert Hadoop im Grundsatz und urspr\u00fcnglich auf zwei Konzepten von Google: einem distribuierten File-System (Hadoop Distributed File System = HDFS) einem Algorithmus zur Analyse dieser verteilten Daten Bevor es um das File-System geht, m\u00f6chte ich zun\u00e4chst versuchen, MapReduce zu erkl\u00e4ren. Hierf\u00fcr m\u00f6chte ich gerne zun\u00e4chst ein Beispiel aus\u2026 Weiterlesen &raquo;","og_url":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/","og_site_name":"vrealize.it - TechBlog VMware SDDC","article_published_time":"2014-05-20T15:23:11+00:00","article_modified_time":"2015-05-08T14:41:56+00:00","author":"admin","twitter_card":"summary_large_image","twitter_misc":{"Verfasst von":"admin","Gesch\u00e4tzte Lesezeit":"3\u00a0Minuten"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"Article","@id":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/#article","isPartOf":{"@id":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/"},"author":{"name":"admin","@id":"https:\/\/vrealize.it\/de\/#\/schema\/person\/82e6ae52e830379f87709f472bb0d99e"},"headline":"Was ist eigentlich dieses Hadoop? \u2013 Teil 2","datePublished":"2014-05-20T15:23:11+00:00","dateModified":"2015-05-08T14:41:56+00:00","mainEntityOfPage":{"@id":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/"},"wordCount":550,"commentCount":0,"articleSection":["Unkategorisiert"],"inLanguage":"de","potentialAction":[{"@type":"CommentAction","name":"Comment","target":["https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/#respond"]}]},{"@type":"WebPage","@id":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/","url":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/","name":"Was ist eigentlich dieses Hadoop? \u2013 Teil 2 &#187; vrealize.it - TechBlog VMware SDDC","isPartOf":{"@id":"https:\/\/vrealize.it\/de\/#website"},"datePublished":"2014-05-20T15:23:11+00:00","dateModified":"2015-05-08T14:41:56+00:00","author":{"@id":"https:\/\/vrealize.it\/de\/#\/schema\/person\/82e6ae52e830379f87709f472bb0d99e"},"breadcrumb":{"@id":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/#breadcrumb"},"inLanguage":"de","potentialAction":[{"@type":"ReadAction","target":["https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/vrealize.it\/de\/2014\/05\/20\/was-ist-eigentlich-dieses-hadoop-teil-2\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Startseite","item":"https:\/\/vrealize.it\/de\/"},{"@type":"ListItem","position":2,"name":"Was ist eigentlich dieses Hadoop? \u2013 Teil 2"}]},{"@type":"WebSite","@id":"https:\/\/vrealize.it\/de\/#website","url":"https:\/\/vrealize.it\/de\/","name":"vrealize.it - TechBlog VMware SDDC","description":"Information zu sicherem Hybrid und Multi-Cloud Computing - dispruptive Technologien im IT- Umfeld","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/vrealize.it\/de\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"de"},{"@type":"Person","@id":"https:\/\/vrealize.it\/de\/#\/schema\/person\/82e6ae52e830379f87709f472bb0d99e","name":"admin","image":{"@type":"ImageObject","inLanguage":"de","@id":"https:\/\/secure.gravatar.com\/avatar\/c496960fb41f514bddb6eead79f0ba339bab37246d1ab3ceb01f8ac94221e5b0?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/c496960fb41f514bddb6eead79f0ba339bab37246d1ab3ceb01f8ac94221e5b0?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/c496960fb41f514bddb6eead79f0ba339bab37246d1ab3ceb01f8ac94221e5b0?s=96&d=mm&r=g","caption":"admin"},"url":"https:\/\/vrealize.it\/de\/author\/admin\/"}]}},"_links":{"self":[{"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/posts\/1028","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/comments?post=1028"}],"version-history":[{"count":8,"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/posts\/1028\/revisions"}],"predecessor-version":[{"id":1039,"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/posts\/1028\/revisions\/1039"}],"wp:attachment":[{"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/media?parent=1028"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/categories?post=1028"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/vrealize.it\/de\/wp-json\/wp\/v2\/tags?post=1028"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}