Benutzer-Werkzeuge

Webseiten-Werkzeuge


bigdata:hadoop

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
Nächste ÜberarbeitungBeide Seiten der Revision
bigdata:hadoop [2015/10/05 20:53] – [MapReduce] brueckbigdata:hadoop [2015/10/05 21:02] – [Hadoop] brueck
Zeile 1: Zeile 1:
 ====== Hadoop ====== ====== Hadoop ======
 +{{ :bigdata:hadoop.png|}}
  
 **Hadoop** ist ein in Java geschriebenes und quelloffenes Framework für das Verarbeiten und Analysieren großer Datenmengen auf verteilten Systemen der Apache Software Foundation. Ursprünglich wurde es 2005 von Doug Cutting und Mike Cafarella bei Yahoo! entwickelt. **Hadoop** ist ein in Java geschriebenes und quelloffenes Framework für das Verarbeiten und Analysieren großer Datenmengen auf verteilten Systemen der Apache Software Foundation. Ursprünglich wurde es 2005 von Doug Cutting und Mike Cafarella bei Yahoo! entwickelt.
Zeile 6: Zeile 7:
  
 In gewisser Weise übernimmt Hadoop für verteilte Systeme die Rolle des Betriebssystems auf Cluster-Ebene (die einzelnen Maschinen haben immer noch ihr eigenes) ([[bigdata:literatur#b|Barroso et al. 2013: S. 33]]). Es fasst alle Rechner zusammen und stellt mit HDFS ein Dateisystem zur Verfügung und verwaltet zudem Ressourcen, teilt sie den Prozessen zu und überwacht diese.  In gewisser Weise übernimmt Hadoop für verteilte Systeme die Rolle des Betriebssystems auf Cluster-Ebene (die einzelnen Maschinen haben immer noch ihr eigenes) ([[bigdata:literatur#b|Barroso et al. 2013: S. 33]]). Es fasst alle Rechner zusammen und stellt mit HDFS ein Dateisystem zur Verfügung und verwaltet zudem Ressourcen, teilt sie den Prozessen zu und überwacht diese. 
 +
 +(Grafik-Quelle: [[bigdata:literatur#g|GeekFluent 2013]])
  
  
Zeile 73: Zeile 76:
  
  
-==== YARN ====+===== YARN =====
  
 **YARN** steht für „**Y**et **A**nother **R**esource **N**egotiator“ („noch ein Ressourcen-Vermittler“) oder auch **MapReduce 2.0** (**MRv2**) und kam als wichtigste neue Komponente des Hadoop 2 Upgrades und übernimmt den Part des Ressourcen-Managements und Job-Schedulings und kommt so als Nachfolger des MapReduce-Frameworks daher. Es bildet eine neue Abstraktionsschicht, die das Cluster-Ressourcen-Management von der Datenverarbeitung durch MapReduce trennt, sodass MapReduce zwar weiterhinals Verarbeitungsmodell verwendet werden kann, aber daneben nun auch andere Alternativen verfügbar werden. **YARN** steht für „**Y**et **A**nother **R**esource **N**egotiator“ („noch ein Ressourcen-Vermittler“) oder auch **MapReduce 2.0** (**MRv2**) und kam als wichtigste neue Komponente des Hadoop 2 Upgrades und übernimmt den Part des Ressourcen-Managements und Job-Schedulings und kommt so als Nachfolger des MapReduce-Frameworks daher. Es bildet eine neue Abstraktionsschicht, die das Cluster-Ressourcen-Management von der Datenverarbeitung durch MapReduce trennt, sodass MapReduce zwar weiterhinals Verarbeitungsmodell verwendet werden kann, aber daneben nun auch andere Alternativen verfügbar werden.
  
 {{ bigdata:yarn.png?650 }} {{ bigdata:yarn.png?650 }}
-(Bild-Quelle: [[bigdata:literatur|Sullivan 2014]])+(Bild-Quelle: [[bigdata:literatur#s|Sullivan 2014]])
  
-=== Architektur ===+==== Architektur ====
 Ein YARN-Cluster besteht aus folgenden Komponenten: Ein YARN-Cluster besteht aus folgenden Komponenten:
  
Zeile 91: Zeile 94:
   * **Container** (pro Applikation): Meint die Ressourcen, die einer Applikation pro Knoten zur Verfügung stehen.   * **Container** (pro Applikation): Meint die Ressourcen, die einer Applikation pro Knoten zur Verfügung stehen.
  
-(Vgl. [[bigdata:literatur|Apache 2014]]; [[bigdata:literatur|Jones/Nelson 2013]])+(Vgl. [[bigdata:literatur#a|Apache 2014]]; [[bigdata:literatur#j|Jones/Nelson 2013]])
  
 {{ bigdata:figure2.png }} {{ bigdata:figure2.png }}
-(Bild-Quelle: [[bigdata:literatur|Jones/Nelson 2013]])+(Bild-Quelle: [[bigdata:literatur#j|Jones/Nelson 2013]])
  
-Das Trennen des Ressourcenmanagements von MapReduce durch die YARN-Architektur, die nun einen ResoucreManager mit der Aufgabe betraut, können über die ApplicationMaster, die für die Ausführung eines Jobs verantwortlich sind, nun auch mehrere verschiedene Anwendungen gleichzeitig in der Hadoop-Umgebung laufen (seien sie nun MapReduce-Jobs, graphbasierte Verarbeitung, effizientere Echtzeit-Verarbeitung oder Machine Learning). YARN bleibt dabei kompatibel zu MapReduce-Anwndungen, die unter Hadoop 1 geschrieben wurden.+Das Trennen des Ressourcenmanagements von MapReduce durch die YARN-Architektur, die nun einen ResoucreManager mit der Aufgabe betraut, können über die ApplicationMaster, die für die Ausführung eines Jobs verantwortlich sind, nun auch mehrere verschiedene Anwendungen gleichzeitig in der Hadoop-Umgebung laufen (seien sie nun MapReduce-Jobs, graphbasierte Verarbeitung, effizientere Echtzeit-Verarbeitung oder [[bigdata:machinelearning|Machine Learning]]). YARN bleibt dabei kompatibel zu MapReduce-Anwndungen, die unter Hadoop 1 geschrieben wurden.
bigdata/hadoop.txt · Zuletzt geändert: 2016/06/27 23:12 von hohmann