Benutzer-Werkzeuge

Webseiten-Werkzeuge


bigdata:big_data

Unterschiede

Hier werden die Unterschiede zwischen zwei Versionen angezeigt.

Link zu dieser Vergleichsansicht

Beide Seiten der vorigen RevisionVorhergehende Überarbeitung
Nächste Überarbeitung
Vorhergehende Überarbeitung
bigdata:big_data [2015/10/05 20:38] – [Hintergrund] brueckbigdata:big_data [2015/10/29 20:15] (aktuell) – Übersetzungsfehler bei "Veracity" korrigiert: "Milliarden" zu "Billionen" brueck
Zeile 29: Zeile 29:
  
 Im Jahre 2014 wurden jede Minute rund 72 Stunden Videomaterial auf YouTube hochgeladen, 277.000 Tweets getwittert, 4 Millionen Google-Suchanfragen aufgegeben und 204 Millionen E-Mails versendet ([[bigdata:literatur#d|DOMO 2014]]). Im Jahre 2014 wurden jede Minute rund 72 Stunden Videomaterial auf YouTube hochgeladen, 277.000 Tweets getwittert, 4 Millionen Google-Suchanfragen aufgegeben und 204 Millionen E-Mails versendet ([[bigdata:literatur#d|DOMO 2014]]).
-Die Dimensionen, in denen Daten anfallen und erhoben werden, führen zu zwei Problemen: Zum einen bedeutet ein zu großes Datenvolumen ein Speicherproblem. Jedoch ist Speicher im Laufe der Zeit und im Zuge des technischen Fortschritts immer günstiger geworden. Das erlaubt es, massenweise Daten zu speichern. Für Unternehmen bietet sich die Option, die Daten im einem eigenem Datenzentrum im Haus zu sichern oder sie in einem externen Cloudspeicher auszulagern. Speziell für den schnellen und effizienten Umgang mit großem Datenvolumen wurden Open Source Plattformen wie Hadoop oder diverse NoSQL-Datenbanksysteme entwickelt. Cloudspeicher in Kombination mit Open Source Werkzeugen erlauben es nun jedermann, kostengünstig mit Daten im großen Stil zu arbeiten.+Die Dimensionen, in denen Daten anfallen und erhoben werden, führen zu zwei Problemen: Zum einen bedeutet ein zu großes Datenvolumen ein Speicherproblem. Jedoch ist Speicher im Laufe der Zeit und im Zuge des technischen Fortschritts immer günstiger geworden. Das erlaubt es, massenweise Daten zu speichern. Für Unternehmen bietet sich die Option, die Daten im einem eigenem Datenzentrum im Haus zu sichern oder sie in einem externen Cloudspeicher auszulagern. Speziell für den schnellen und effizienten Umgang mit großem Datenvolumen wurden Open Source Plattformen wie [[bigdata:hadoop|Hadoop]] oder diverse [[bigdata:nosql#unterteilung|NoSQL-Datenbanksysteme]] entwickelt. Cloudspeicher in Kombination mit Open Source Werkzeugen erlauben es nun jedermann, kostengünstig mit Daten im großen Stil zu arbeiten.
 Der größte Teil des weltweiten Datenvolumens ist jedoch flüchtiger Natur (Musik- oder Filmstreaming, Online-TV, Sensorsignale, etc.), d.h. die Daten werden nur kurzfristig oder gar nicht gespeichert, sondern gleich verarbeitet oder gelöscht. Nur etwa 33% hätten 2013 gespeichert werden können und 2020 wären es weniger als 15%, da die Speicherentwicklung mit der rasanten Datenwachstumsrate nicht mithalten kann ([[bigdata:literatur#t|Turner et al. 2014: S. 3]]). Der größte Teil des weltweiten Datenvolumens ist jedoch flüchtiger Natur (Musik- oder Filmstreaming, Online-TV, Sensorsignale, etc.), d.h. die Daten werden nur kurzfristig oder gar nicht gespeichert, sondern gleich verarbeitet oder gelöscht. Nur etwa 33% hätten 2013 gespeichert werden können und 2020 wären es weniger als 15%, da die Speicherentwicklung mit der rasanten Datenwachstumsrate nicht mithalten kann ([[bigdata:literatur#t|Turner et al. 2014: S. 3]]).
 Neben etwaiger Speicherprobleme führen große Mengen an Daten jedoch zusätzlich zu einem Datenanalyse-Problem. Für die Informationsgewinnung ist nicht unbedingt die Datenmenge entscheidend, da meist nur ein geringer Anteil der Daten überhaupt relevant ist, wichtiger ist, auch die richtigen Daten zu haben. Im Jahre 2013 waren nur etwa 5% aller Daten tatsächlich von Interesse ([[bigdata:literatur#t|Turner et al. 2014: S. 2]]). Um Kosten für Speicher und Aufwand für Analysen einzudämmen, stellt sich also die Frage, welche Daten überhaupt erhoben und gespeichert werden sollen. Neben etwaiger Speicherprobleme führen große Mengen an Daten jedoch zusätzlich zu einem Datenanalyse-Problem. Für die Informationsgewinnung ist nicht unbedingt die Datenmenge entscheidend, da meist nur ein geringer Anteil der Daten überhaupt relevant ist, wichtiger ist, auch die richtigen Daten zu haben. Im Jahre 2013 waren nur etwa 5% aller Daten tatsächlich von Interesse ([[bigdata:literatur#t|Turner et al. 2014: S. 2]]). Um Kosten für Speicher und Aufwand für Analysen einzudämmen, stellt sich also die Frage, welche Daten überhaupt erhoben und gespeichert werden sollen.
Zeile 49: Zeile 49:
 **Veracity** **Veracity**
  
-Steht für die Verunsicherung über Datenqualität und/oder deren Korrektheit. Es sollte bedacht werden, dass unter Umständen nicht alle Daten immer so schnell aufbereitet oder bereinigt werden können, wie sie eintreffen. Das bedeutet eventuell, dass fehlerhafte Datensätze mitverarbeitet werden und zu ungenauen oder falschen Ergebnissen führen können. Zudem gibt es keine Garantie dafür, dass grundsätzlich alle gesammelten Daten und Informationen auch korrekt sind. Absichtliche Fehlinformationen oder Falschangaben sind keine Seltenheit, wenn etwa Nutzer online ihre Privatsphäre schützen möchten, indem sie in Formularen Falschangaben machen. Gerade auch auf Social Media Plattformen ist vermehrt mit übertriebener Selbstdarstellung und unrichtigen Angaben zu rechnen. Mangelhafte Datenqualität kostet den US-Wirtschaft jährlich über 3 Milliarden Dollar ([[bigdata:literatur#i|IBM o. J.]]). Dieser Punkt kann also neben dem Wahrheitsgehalt durchaus auch für den Wert der Daten stehen.+Steht für die Verunsicherung über Datenqualität und/oder deren Korrektheit. Es sollte bedacht werden, dass unter Umständen nicht alle Daten immer so schnell aufbereitet oder bereinigt werden können, wie sie eintreffen. Das bedeutet eventuell, dass fehlerhafte Datensätze mitverarbeitet werden und zu ungenauen oder falschen Ergebnissen führen können. Zudem gibt es keine Garantie dafür, dass grundsätzlich alle gesammelten Daten und Informationen auch korrekt sind. Absichtliche Fehlinformationen oder Falschangaben sind keine Seltenheit, wenn etwa Nutzer online ihre Privatsphäre schützen möchten, indem sie in Formularen Falschangaben machen. Gerade auch auf Social Media Plattformen ist vermehrt mit übertriebener Selbstdarstellung und unrichtigen Angaben zu rechnen. Mangelhafte Datenqualität kostet den US-Wirtschaft jährlich über 3 Billionen Dollar ([[bigdata:literatur#i|IBM o. J.]]). Dieser Punkt kann also neben dem Wahrheitsgehalt durchaus auch für den Wert der Daten stehen.
  
  
bigdata/big_data.txt · Zuletzt geändert: 2015/10/29 20:15 von brueck