Benutzer-Werkzeuge

Webseiten-Werkzeuge


bigdata:big_data

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Letzte ÜberarbeitungBeide Seiten der Revision
bigdata:big_data [2015/10/05 20:38] – [Hintergrund] brueckbigdata:big_data [2015/10/05 20:47] – [Hintergrund] brueck
Zeile 29: Zeile 29:
  
 Im Jahre 2014 wurden jede Minute rund 72 Stunden Videomaterial auf YouTube hochgeladen, 277.000 Tweets getwittert, 4 Millionen Google-Suchanfragen aufgegeben und 204 Millionen E-Mails versendet ([[bigdata:literatur#d|DOMO 2014]]). Im Jahre 2014 wurden jede Minute rund 72 Stunden Videomaterial auf YouTube hochgeladen, 277.000 Tweets getwittert, 4 Millionen Google-Suchanfragen aufgegeben und 204 Millionen E-Mails versendet ([[bigdata:literatur#d|DOMO 2014]]).
-Die Dimensionen, in denen Daten anfallen und erhoben werden, führen zu zwei Problemen: Zum einen bedeutet ein zu großes Datenvolumen ein Speicherproblem. Jedoch ist Speicher im Laufe der Zeit und im Zuge des technischen Fortschritts immer günstiger geworden. Das erlaubt es, massenweise Daten zu speichern. Für Unternehmen bietet sich die Option, die Daten im einem eigenem Datenzentrum im Haus zu sichern oder sie in einem externen Cloudspeicher auszulagern. Speziell für den schnellen und effizienten Umgang mit großem Datenvolumen wurden Open Source Plattformen wie Hadoop oder diverse NoSQL-Datenbanksysteme entwickelt. Cloudspeicher in Kombination mit Open Source Werkzeugen erlauben es nun jedermann, kostengünstig mit Daten im großen Stil zu arbeiten.+Die Dimensionen, in denen Daten anfallen und erhoben werden, führen zu zwei Problemen: Zum einen bedeutet ein zu großes Datenvolumen ein Speicherproblem. Jedoch ist Speicher im Laufe der Zeit und im Zuge des technischen Fortschritts immer günstiger geworden. Das erlaubt es, massenweise Daten zu speichern. Für Unternehmen bietet sich die Option, die Daten im einem eigenem Datenzentrum im Haus zu sichern oder sie in einem externen Cloudspeicher auszulagern. Speziell für den schnellen und effizienten Umgang mit großem Datenvolumen wurden Open Source Plattformen wie [[bigdata:hadoop|Hadoop]] oder diverse [[bigdata:nosql#unterteilung|NoSQL-Datenbanksysteme]] entwickelt. Cloudspeicher in Kombination mit Open Source Werkzeugen erlauben es nun jedermann, kostengünstig mit Daten im großen Stil zu arbeiten.
 Der größte Teil des weltweiten Datenvolumens ist jedoch flüchtiger Natur (Musik- oder Filmstreaming, Online-TV, Sensorsignale, etc.), d.h. die Daten werden nur kurzfristig oder gar nicht gespeichert, sondern gleich verarbeitet oder gelöscht. Nur etwa 33% hätten 2013 gespeichert werden können und 2020 wären es weniger als 15%, da die Speicherentwicklung mit der rasanten Datenwachstumsrate nicht mithalten kann ([[bigdata:literatur#t|Turner et al. 2014: S. 3]]). Der größte Teil des weltweiten Datenvolumens ist jedoch flüchtiger Natur (Musik- oder Filmstreaming, Online-TV, Sensorsignale, etc.), d.h. die Daten werden nur kurzfristig oder gar nicht gespeichert, sondern gleich verarbeitet oder gelöscht. Nur etwa 33% hätten 2013 gespeichert werden können und 2020 wären es weniger als 15%, da die Speicherentwicklung mit der rasanten Datenwachstumsrate nicht mithalten kann ([[bigdata:literatur#t|Turner et al. 2014: S. 3]]).
 Neben etwaiger Speicherprobleme führen große Mengen an Daten jedoch zusätzlich zu einem Datenanalyse-Problem. Für die Informationsgewinnung ist nicht unbedingt die Datenmenge entscheidend, da meist nur ein geringer Anteil der Daten überhaupt relevant ist, wichtiger ist, auch die richtigen Daten zu haben. Im Jahre 2013 waren nur etwa 5% aller Daten tatsächlich von Interesse ([[bigdata:literatur#t|Turner et al. 2014: S. 2]]). Um Kosten für Speicher und Aufwand für Analysen einzudämmen, stellt sich also die Frage, welche Daten überhaupt erhoben und gespeichert werden sollen. Neben etwaiger Speicherprobleme führen große Mengen an Daten jedoch zusätzlich zu einem Datenanalyse-Problem. Für die Informationsgewinnung ist nicht unbedingt die Datenmenge entscheidend, da meist nur ein geringer Anteil der Daten überhaupt relevant ist, wichtiger ist, auch die richtigen Daten zu haben. Im Jahre 2013 waren nur etwa 5% aller Daten tatsächlich von Interesse ([[bigdata:literatur#t|Turner et al. 2014: S. 2]]). Um Kosten für Speicher und Aufwand für Analysen einzudämmen, stellt sich also die Frage, welche Daten überhaupt erhoben und gespeichert werden sollen.
bigdata/big_data.txt · Zuletzt geändert: 2015/10/29 20:15 von brueck