bigdata:big_data
Unterschiede
Hier werden die Unterschiede zwischen zwei Versionen angezeigt.
Beide Seiten der vorigen RevisionVorhergehende ÜberarbeitungNächste Überarbeitung | Vorhergehende Überarbeitung | ||
bigdata:big_data [2015/09/21 09:38] – [Begriffsdefinition] brueck | bigdata:big_data [2015/10/29 20:15] (aktuell) – Übersetzungsfehler bei "Veracity" korrigiert: "Milliarden" zu "Billionen" brueck | ||
---|---|---|---|
Zeile 1: | Zeile 1: | ||
- | ====== | + | ====== |
+ | ===== Begriffsdefinition | ||
- | Es existiert keine eindeutig festgelegte Definition für den Begriff „Big Data“. Es setzt sich aus den englischen Worten //big// für „groß“ und //data// für „Daten“ zusammen. Es liegt daher nahe, dass man Big Data mit dem Ausmaß und Umfang an Daten assoziiert. Gemeinhin versteht man unter Big Data große Mengen an strukturierten, | + | Es existiert keine eindeutig festgelegte Definition für den Begriff „**Big Data**“. Es setzt sich aus den englischen Worten //big// für „groß“ und //data// für „Daten“ zusammen. Es liegt daher nahe, dass man Big Data mit dem Ausmaß und Umfang an Daten assoziiert. Gemeinhin versteht man unter Big Data große Mengen an strukturierten, |
Die Formulierung „Big Data“ bezieht sich jedoch nicht ausschließlich auf die Größenordnung der Datensätze, | Die Formulierung „Big Data“ bezieht sich jedoch nicht ausschließlich auf die Größenordnung der Datensätze, | ||
Zeile 9: | Zeile 10: | ||
//"Big Data ist ein Begriff, der die Speicherung und Analyse großer und oder komplexer Datensätze unter Verwendung einer Reihe von Techniken beschreibt, die unter anderem [[bigdata: | //"Big Data ist ein Begriff, der die Speicherung und Analyse großer und oder komplexer Datensätze unter Verwendung einer Reihe von Techniken beschreibt, die unter anderem [[bigdata: | ||
- | (Original: //"Big data is a term describing the storage and analysis of large and or complex data sets using a series of techniques including, but not limited to: NoSQL, MapReduce and machine learning"// | + | (Original: //"Big data is a term describing the storage and analysis of large and or complex data sets using a series of techniques including, but not limited to: NoSQL, MapReduce and machine learning"// |
===== Hintergrund ===== | ===== Hintergrund ===== | ||
- | Vom Anbeginn der Zeitrechnung bis zum Jahre 2003 wurden etwa fünf Milliarden Gigabyte an Daten erschaffen. Im Jahre 2011 entstand diese Menge bereits in nur zwei Tagen und ab dem Jahre 2013 schon alle zehn Minuten ([[bigdata: | + | Vom Anbeginn der Zeitrechnung bis zum Jahre 2003 wurden etwa fünf Milliarden Gigabyte an Daten erschaffen. Im Jahre 2011 entstand diese Menge bereits in nur zwei Tagen und ab dem Jahre 2013 schon alle zehn Minuten ([[bigdata: |
Zu Big Data zählen aber nicht nur Kommunikationsdaten von Personen untereinander, | Zu Big Data zählen aber nicht nur Kommunikationsdaten von Personen untereinander, | ||
- | Die zunehmende Technisierung und Vernetzung der Gesellschaft geht einher mit einer ununterbrochen anhaltenden Entstehung neuer Daten und tragen so zu einer stetig wachsenden Datenflut bei. Dieses Phänomen stellt die Datenverarbeitung –und Analyse vor ganz neue Herausforderungen. Oft werden diese mit dem Drei-V-Modell beschrieben (vgl. [[bigdata: | + | Die zunehmende Technisierung und Vernetzung der Gesellschaft geht einher mit einer ununterbrochen anhaltenden Entstehung neuer Daten und tragen so zu einer stetig wachsenden Datenflut bei. Dieses Phänomen stellt die Datenverarbeitung –und Analyse vor ganz neue Herausforderungen. Oft werden diese mit dem Drei-V-Modell beschrieben (vgl. [[bigdata: |
- **Volume**: Meint die Größenordnung der Datenmengen. | - **Volume**: Meint die Größenordnung der Datenmengen. | ||
- **Variety**: | - **Variety**: | ||
- **Velocity**: | - **Velocity**: | ||
- | IBM erweitert dieses Modell mit „Veracity“ (Wahrhaftigkeit) um eine zusätzliche Dimension ([[bigdata: | + | IBM erweitert dieses Modell mit „Veracity“ (Wahrhaftigkeit) um eine zusätzliche Dimension ([[bigdata: |
* **Veracity**: | * **Veracity**: | ||
Zeile 27: | Zeile 28: | ||
**Volume** | **Volume** | ||
- | Im Jahre 2014 wurden jede Minute rund 72 Stunden Videomaterial auf YouTube hochgeladen, | + | Im Jahre 2014 wurden jede Minute rund 72 Stunden Videomaterial auf YouTube hochgeladen, |
- | Die Dimensionen, | + | Die Dimensionen, |
- | Der größte Teil des weltweiten Datenvolumens ist jedoch flüchtiger Natur (Musik- oder Filmstreaming, | + | Der größte Teil des weltweiten Datenvolumens ist jedoch flüchtiger Natur (Musik- oder Filmstreaming, |
- | Neben etwaiger Speicherprobleme führen große Mengen an Daten jedoch zusätzlich zu einem Datenanalyse-Problem. Für die Informationsgewinnung ist nicht unbedingt die Datenmenge entscheidend, | + | Neben etwaiger Speicherprobleme führen große Mengen an Daten jedoch zusätzlich zu einem Datenanalyse-Problem. Für die Informationsgewinnung ist nicht unbedingt die Datenmenge entscheidend, |
\\ | \\ | ||
Zeile 36: | Zeile 37: | ||
Ein besonderes Merkmal von Big Data ist sicherlich die Vielzahl an unterschiedlichen Daten, die anfallen können. Traditionelle Relationale Datenbankmanagementsysteme (RDBMS) sind für die Arbeit mit Daten in strukturierter Form ausgelegt. Sie speichern Daten nach einem festen Schema. Dazu werden die Inhalte in Beziehungen zueinander gestellt und Daten dann in strukturierten Tabellen, den Relationen, gespeichert. Mit der zunehmenden Zahl der verfügbaren Datenquellen kann aber keine geordnete Struktur und Homogenität der Daten mehr sichergestellt werden. Massenhafte Datenerhebung aus unterschiedlichsten Quellen führen dazu, dass auch unterschiedlichste Datenformate anfallen, von klassisch strukturierten, | Ein besonderes Merkmal von Big Data ist sicherlich die Vielzahl an unterschiedlichen Daten, die anfallen können. Traditionelle Relationale Datenbankmanagementsysteme (RDBMS) sind für die Arbeit mit Daten in strukturierter Form ausgelegt. Sie speichern Daten nach einem festen Schema. Dazu werden die Inhalte in Beziehungen zueinander gestellt und Daten dann in strukturierten Tabellen, den Relationen, gespeichert. Mit der zunehmenden Zahl der verfügbaren Datenquellen kann aber keine geordnete Struktur und Homogenität der Daten mehr sichergestellt werden. Massenhafte Datenerhebung aus unterschiedlichsten Quellen führen dazu, dass auch unterschiedlichste Datenformate anfallen, von klassisch strukturierten, | ||
- | Bei Big Data werden nun aber sämtliche Daten, ungeachtet ihrer Struktur, zusammengefasst und analysiert. Dabei können die zusammengefassten Daten ihrem Ursprung entsprechend in Kategorien unterteilt werden, wobei die Daten entweder durch Mensch-Mensch-, | + | Bei Big Data werden nun aber sämtliche Daten, ungeachtet ihrer Struktur, zusammengefasst und analysiert. Dabei können die zusammengefassten Daten ihrem Ursprung entsprechend in Kategorien unterteilt werden, wobei die Daten entweder durch Mensch-Mensch-, |
\\ | \\ | ||
**Velocity** | **Velocity** | ||
- | Dem Volumen ähnlich, verhält es sich mit der Geschwindigkeit. Ein exponentielles Datenwachstum bedeutet gleichermaßen eine erhöhte Datenwachstumsrate, | + | Dem Volumen ähnlich, verhält es sich mit der Geschwindigkeit. Ein exponentielles Datenwachstum bedeutet gleichermaßen eine erhöhte Datenwachstumsrate, |
Während Daten früher hauptsächlich durch Transaktionen entstanden sind und intern gespeichert wurden und deren Verarbeitung trotz längerer Wartezeit von Wert waren, fallen heute Daten in Echtzeit an, die nur wertvolle Informationen liefern können, wenn sie entsprechend schnell verarbeitet werden. Der Trend geht hin zu ad hoc Datenauswertungen. | Während Daten früher hauptsächlich durch Transaktionen entstanden sind und intern gespeichert wurden und deren Verarbeitung trotz längerer Wartezeit von Wert waren, fallen heute Daten in Echtzeit an, die nur wertvolle Informationen liefern können, wenn sie entsprechend schnell verarbeitet werden. Der Trend geht hin zu ad hoc Datenauswertungen. | ||
- | Ein Extrembeispiel für die Geschwindigkeit, | + | Ein Extrembeispiel für die Geschwindigkeit, |
\\ | \\ | ||
**Veracity** | **Veracity** | ||
- | Steht für die Verunsicherung über Datenqualität und/oder deren Korrektheit. Es sollte bedacht werden, dass unter Umständen nicht alle Daten immer so schnell aufbereitet oder bereinigt werden können, wie sie eintreffen. Das bedeutet eventuell, dass fehlerhafte Datensätze mitverarbeitet werden und zu ungenauen oder falschen Ergebnissen führen können. Zudem gibt es keine Garantie dafür, dass grundsätzlich alle gesammelten Daten und Informationen auch korrekt sind. Absichtliche Fehlinformationen oder Falschangaben sind keine Seltenheit, wenn etwa Nutzer online ihre Privatsphäre schützen möchten, indem sie in Formularen Falschangaben machen. Gerade auch auf Social Media Plattformen ist vermehrt mit übertriebener Selbstdarstellung und unrichtigen Angaben zu rechnen. Mangelhafte Datenqualität kostet den US-Wirtschaft jährlich über 3 Milliarden | + | Steht für die Verunsicherung über Datenqualität und/oder deren Korrektheit. Es sollte bedacht werden, dass unter Umständen nicht alle Daten immer so schnell aufbereitet oder bereinigt werden können, wie sie eintreffen. Das bedeutet eventuell, dass fehlerhafte Datensätze mitverarbeitet werden und zu ungenauen oder falschen Ergebnissen führen können. Zudem gibt es keine Garantie dafür, dass grundsätzlich alle gesammelten Daten und Informationen auch korrekt sind. Absichtliche Fehlinformationen oder Falschangaben sind keine Seltenheit, wenn etwa Nutzer online ihre Privatsphäre schützen möchten, indem sie in Formularen Falschangaben machen. Gerade auch auf Social Media Plattformen ist vermehrt mit übertriebener Selbstdarstellung und unrichtigen Angaben zu rechnen. Mangelhafte Datenqualität kostet den US-Wirtschaft jährlich über 3 Billionen |
bigdata/big_data.txt · Zuletzt geändert: 2015/10/29 20:15 von brueck