Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

--- bigdata:hadoop [2015/09/23 12:06] – [YARN] brueck
+++ bigdata:hadoop [2015/10/05 20:49] – [Bestandteile] brueck
@@ Zeile 3: / Zeile 3: @@
 **Hadoop** ist ein in Java geschriebenes und quelloffenes Framework für das Verarbeiten und Analysieren großer Datenmengen auf verteilten Systemen der Apache Software Foundation. Ursprünglich wurde es 2005 von Doug Cutting und Mike Cafarella bei Yahoo! entwickelt.
-Für einen effizienten Umgang mit enormen Datenmengen werden diese nicht als Ganzes verwertet, sondern in kleinere Stücke zerteilt, parallel verarbeitet und anschließend wieder zusammengeführt. Im Kern besteht Hadoop im Grunde aus zwei Komponenten: Dem „**Hadoop distributed file system**“, ein Dateisystem für verteilte Anwendungen, das seinen Ursprung in Googles „Google File System“ ([[bigdata:literatur|Ghemawat et al. 2003]]) hat und „**MapReduce**“, das auf [[bigdata:mapreduce|Googles MapReduce-Modell]] ([[bigdata:literatur|Dean/Ghemawat 2004]]) basiert und für die Verteilung der Aufgaben auf die Knoten und das anschließende Zusammenführen zuständig ist. Dazu kommt **Hadoop Common**, das gewisse Grundfunktionalitäten und Schnittstellen zur Verfügung stellt.
+Für einen effizienten Umgang mit enormen Datenmengen werden diese nicht als Ganzes verwertet, sondern in kleinere Stücke zerteilt, parallel verarbeitet und anschließend wieder zusammengeführt. Im Kern besteht Hadoop im Grunde aus zwei Komponenten: Dem „**Hadoop distributed file system**“, ein Dateisystem für verteilte Anwendungen, das seinen Ursprung in Googles „Google File System“ ([[bigdata:literatur#g|Ghemawat et al. 2003]]) hat und „**MapReduce**“, das auf [[bigdata:mapreduce|Googles MapReduce-Modell]] ([[bigdata:literatur#d|Dean/Ghemawat 2004]]) basiert und für die Verteilung der Aufgaben auf die Knoten und das anschließende Zusammenführen zuständig ist. Dazu kommt **Hadoop Common**, das gewisse Grundfunktionalitäten und Schnittstellen zur Verfügung stellt.
-In gewisser Weise übernimmt Hadoop für verteilte Systeme die Rolle des Betriebssystems auf Cluster-Ebene (die einzelnen Maschinen haben immer noch ihr eigenes) ([[bigdata:literatur|Barroso et al. 2013: S. 33]]). Es fasst alle Rechner zusammen und stellt mit HDFS ein Dateisystem zur Verfügung und verwaltet zudem Ressourcen, teilt sie den Prozessen zu und überwacht diese.
+In gewisser Weise übernimmt Hadoop für verteilte Systeme die Rolle des Betriebssystems auf Cluster-Ebene (die einzelnen Maschinen haben immer noch ihr eigenes) ([[bigdata:literatur#b|Barroso et al. 2013: S. 33]]). Es fasst alle Rechner zusammen und stellt mit HDFS ein Dateisystem zur Verfügung und verwaltet zudem Ressourcen, teilt sie den Prozessen zu und überwacht diese.
-===== Bestandteile =====
-==== Hadoop Common ====
+===== Hadoop Common =====
 Grundlage eines Hadoop Clusters ist **Hadoop Common**, das eine Sammlung der notwendigen Dienstprogramme und Bibliotheken bereitstellt und als Schnittstelle zu den anderen Bestandteilen dient. Es enthält auch die nötigen JAR-Files, die es braucht, um Hadoop zu starten.