Datenberge

Big Data

Aus Datenbergen entscheidungsrelevantes Wissen gewinnen

Autoren: Hans Schramm*/Michael Holzerland*

Die richtigen Informationen zur richtigen Zeit am richtigen Ort bereitstellen: Dies ist einer der Schlüsselfaktoren für den Unternehmenserfolg. Dell bietet zur Bewältigung der Datenflut zwei Lösungen: Erstens eine zertifizierte Hadoop-Referenzarchitektur auf Basis von Intel-basierten Dell-PowerEdge-Servern, um sehr große Datenmengen für Businessentscheidungen aufzubereiten, und zweitens die Dell-Fluid-Data-Architektur zur effizienten Speicherung und Verwaltung von Informationen.

Informationen aus Daten Ähnlich wie im 19. Jahrhundert scheint heute wieder ein neuer Goldrausch ausgebrochen zu sein. Allerdings werden keine Flusslandschaften umgepflügt, sondern es wird in digitalen Datenbergen nach wertvollen Informationen geforscht. Marktforscher IDC schätzt, „dass sich die Datenmengen, die innerhalb eines Jahres erstellt, vervielfältigt und konsumiertwerden, bis 2020 alle zwei Jahre verdoppeln.“ Es werde aber nur ein halbes Prozent der weltweiten Datenbestände analysiert, der Rest lediglich archiviert und vieles bald wieder gelöscht, so IDC.

Die riesigen Datenmengen entstehen durch eine Reihe neuer Technologien, die Unternehmen dabei unterstützen, agiler und innovativer zu werden. Im Wesentlichen sind es drei große Bereiche, die für das enorme Datenwachstum verantwortlich zeichnen: erstens Bilddaten wie Grafiken, Bilder und Videos, zweitens Daten, die auf den unterschiedlichsten Social- Media-Plattformen erzeugt werden, und drittens durch Maschinen generierte Daten im „Internet der Dinge“. Durch die rasche, manchmal sogar in Echtzeit erfolgende Auswertung großer Datenmengen wird eine Grundlage für wichtige Businessentscheidungen geschaffen oder erweitert. Wer jetzt beginnt, sehr große Datenmengen zu analysieren, verbessert seine Entscheidungsprozesse. Unternehmen aus dem Konsumgütersektor können zum Beispiel schneller und effizienter auf ein verändertes Kundenverhalten reagieren und damit Wettbewerbsvorteile erzielen. Produzierende Unternehmen können beispielsweise auf Basis maschinell erzeugter Daten (Sensordaten) ihre Fertigungsprozesse optimieren. Auf den ersten Blick handelt es sich um große Datenmengen, und in Zukunft wird es um noch deutlich größere Volumina gehen. Aber die Bedeutung des Themas ist weitaus komplexer. Die Datenmenge ist nur einer von drei zentralen Aspekten. Der zweite ist die enorme Vielfalt an strukturierten, semistrukturierten und unstrukturierten Informationen (Bilder, Blogs, Chats, Dokumente, Videos etc.), die das Datenwachstum massiv antreiben. Der dritte schließlich betrifft die schnelle Entstehung und Veränderung dieser Daten. Entscheidungsrelevante Erkenntnisse aus der Datenflut zu gewinnen, ist eines der Kernthemen, um einen Vorsprung gegenüber dem Wettbewerber zu haben oder schneller auf unvorhergesehene Businessereignisse reagieren zu können. Aus Sicht der IT bringen große Datenmengen vor allem vier neue Herausforderungen: die Verarbeitung, Analyse, Speicherung und Bereitstellung rasant wachsender Datenmengen. Aus Sicht der Fachabteilungen stellt sich die Frage: In welcher Weise kann ich meinem Business einen Vorteil verschaffen? Je nach Herausforderung bieten sich dabei unterschiedliche Lösungsansätze an. Im Kern geht es darum: Wie können die Daten ermittelt und aufbereitet werden, damit sie für Big Data Analysen schnell und umfassend zur Verfügung stehen?

Sehr große Datenmengen erfassen und verarbeiten

Big Data bezeichnet die wirtschaftlich sinnvolle Gewinnung und Nutzung entscheidungsrelevanter Erkenntnisse aus qualitativ vielfältigen und unterschiedlich strukturierten Informationen, die einem schnellen Wandel unterliegen und in bisher ungekanntem Umfang anfallen“, schreibt BITKOM in einem aktuellen Leitfaden zu Big Data¹.

Klar ist: Big Data erfordert einen neuen Umgang mit Informationen. Es geht immer darum, sehr große Datenmengen zu speichern und die aus Businessicht relevanten Daten möglichst effizient zu durchsuchen; das gilt für strukturierte, semistrukturierte und unstrukturierte Daten. Gemeinsam mit Partnern hat Dell Lösungspakete geschnürt, um riesige Datenberge effizienter erfassen, verarbeiten, analysieren und aufbereiten zu können. Bald unterstützt Dell auch die neue Intel® Distribution for Apache Hadoop Software (Intel® Distribution). Einer der Kernbestandteile von Hadoop ist das Hadoop Distributed File System (HDFS), ein leistungsfähiges, hochverfügbares Dateisys-tem, mit dem sehr große Datenmengen verteilt auf mehreren Serverknoten (Nodes) gespeichert werden. Zum Einsatz kommt Hadoop etwa auf dem Dell  PowerEdge Server R720xd (einem 2-HE-Rack-Server mit zwei Sockeln und Intel® Xeon® E5- 2600-Prozessoren), dem C6220 (bis zu vier unabhängige, Hot- Swap-fähige 2-Sockel-Serverknoten in einem 2-HE-Gehäuse mit Intel® Xeon® E5-2600-Prozessoren) oder dem C8000. Der PowerEdge C8000 (ebenfalls mit Intel ® Xeon® E5-2600 Prozessoren) bietet eine Shared-Infrastructure-Lösung, mit der sich unterschiedliche CPU-, GPU/Coprozessor- und Storage-Einschübe in einem 4 HE hohen Gehäuse verbinden lassen.

 

Bestandsaufnahme aktueller Speicherstrategien

Riesige Datenmengen zu erfassen, sie zu verarbeiten und aufzubereiten ist ein zentraler Baustein bei Big Data. Mindestens ebenso wichtig ist die Frage einer intelligenten Speicherung. In Anbetracht des rasant steigenden Datenvolumens in nahezu allen Segmenten müssen die IT-Verantwortlichen auch ihre bisherigen Speicherstrategien auf den Prüfstand stellen. Alles zu speichern, ohne den Businesswert der jeweiligen Information zu berücksichtigen, ist angesichts der Menge wirtschaftlich unsinnig.

Die Datenflut lässt sich in zwei große Bereiche untergliedern. Bei dem „kleineren“ Segment handelt es sich um sogenannte strukturierte Daten, beispielsweise die Applikationsszenarien anzupassen. Zur Datenauswertung dient die MapReduce-Funktion von Hadoop. Der von Google entwickelte MapReduce-Algorithmus basiert auf einer automatisierten Parallelisierung von Arbeitsaufträgen. Im Bereich der Datenaufbereitung hat Dell ein Ecosystem mit Partnern wie Pentaho, Datameer, Paraccel und Katinga aufgebaut. Während die BI-Plattform von Datameer (DAS, Datameer Analytics Solution) mit einer tabellarischen Darstellung arbeitet, verwendet beispielsweise Pentaho eine grafische ETL (Extract, Transform and Load)-Umgebung, um Hadoop-MapReduce-Aufgaben auszuführen und zu verwalten. Über Infrastruktur-Pools ist eine gemeinsame Nutzung von Ressourcen für Rechenleistung, Storage, Stromversorgung und Kühlung möglich. Das flexible und innovative Konzept des PowerEdge C8000 erlaubt, den Server flexibel an unterschiedliche Datenbanken, wie sie von den betriebswirtschaftlichen Standardapplikationen genutzt werden. Hier ist über die Jahre hinweg ein stetiges Wachstum zu verzeichnen. Die echten Herausforderungen ergeben sich jedoch erst bei den unstrukturierten Daten, und hier sehen sich die IT-Abteilungen mit einem immensen Wachstum und einer enormen Vielfalt konfrontiert. Das Spektrum reicht von E-Mails und Instant Messages über PDFs und Officedokumenten jeder Art bis zu Audio- und Videofiles.

Fluid-Data-Lösungen von Dell

Dell bietet mit seinem Storage-Konzept Fluid Data für all diese Themen einen umfassenden Ansatz. Der erste Eckpfeiler ist das automatische, dynamische Tiering. Erfahrungen aus Storage-Assessments zeigen, dass Unternehmen bis zu 90 Prozent der gespeicherten Daten nie wieder benötigen. Von den verbleibenden zehn Prozent werden dann etwa zwei Drittel nur noch ein Mal aufgerufen. Es liegt also nahe, sich mit der Datenklassifizierung zu befassen – einem der Kernelemente von Fluid Data. Demnach werden Daten ihrer Bedeutung nach an der effektivsten Stelle eines Systems gespeichert. Informationen, auf die häufig zugegriffen wird, liegen auf schnellen und kleinen Medien (zum Beispiel 15k-SAS-Platten oder SSD-Laufwerken). Daten, die selten benötigt werden, speichert das System auf großen und kostengünstigen Medien (beispielsweise Nearline-SAS-Platten). Dieser Vorgang geschieht dynamisch und automatisch: Die Informationen werden zunächst schnell geschrieben, werden sie nicht benötigt, verlagert das System sie automatisch auf langsamere Medien. Ein zweiter Eckpfeiler ist die effiziente Speicherauslastung mit Thin Provisioning, denn das dynamische Tiering ist nicht die einzige Möglichkeit, eine Storage-Lösung effizienter und flexibler zu gestalten. Bei Thin Provisioning geht es vor allem um die Bereiche in einem System, die zwar allokiert, aber noch nicht mit Daten „gefüllt“ beziehungsweise beschrieben wurden. Solche Speichermedien liegen brach. Thin Provisioning schafft hier Abhilfe. Die Effizienz der Storage-Infrastruktur steigt dadurch weiter.

Der dritte Eckpfeiler ist die Skalierbarkeit. Fluid-Data-Lösungen von Dell vermeiden kostspielige Hardware-Upgrades. Dell-Lösungen lassen sich durch den flexiblen, modularen Aufbau nicht nur kapazitätsmäßig, sondern auch technologisch leicht an neue Bedürfnisse anpassen (Scale Out).

So bilden beispielsweise die Compellent-Storage-Arrays von Dell ein skalierbares, hochperformantes Storage-System, das sich beliebig um neue Arrays erweitern lässt. Die leistungsfähigen Intel-basierten Controller können die oben genannten Eckpfeiler nahezu in Echtzeit umsetzen. Unternehmen können so ihren Speicherplatz flexibel und einfach erweitern. Für unstrukturierte Daten, die den größten Anteil des Wachstums bilden, bietet Dell speziell das skalierbare Fluid-File-System an, das auf den bekannten Array-Familien PowerVault, EqualLogic und Compellent aufsetzt und vielfältige Möglichkeiten für intelligentes Datenmanagement bietet.

Intelligentes Datenmanagement

Wie intelligentes Datenmanagement und eine Fluid-Data-Lösung dazu beitragen, möglichst effizient ein riesiges Datenvolumen zu speichern und damit Geschäftsprozesse zu steuern und zu optimieren, zeigt das Beispiel eines Windparkbetreibers. Was mit wenigen Windrädern anfing, entwickelte sich in den letzten Jahren rasch weiter. Pro Monat fallen in dem Anwendungsszenario ein TB neue Daten an. Sie stammen von Messwerten, die in Echtzeit an den Windrädern ermittelt werden. Direkt nach der dezentralen Erfassung der Messwerte werden diese an eine Leitwarte übermittelt, von der aus der gesamte Windpark gesteuert wird. Allein hier entsteht bereits ein beachtliches Datenvolumen, das für einen reibungslosen Betrieb ausgewertet werden muss. Das enorme Datenwachstum ließ sich mit herkömmlichen Speichermethoden nicht bewältigen, und daher entschied sich das Unternehmen für die Einführung von Dell Compellent Storage Arrays mit einem virtualisierten und hochskalierbaren Speicherpool. Die Dell-Lösung verfügt, wie bereits erwähnt, über intelligente und automatisch arbeitende Funktionen zur Bewertung der tatsächlichen Datennutzung. Sie verschiebt aktuell benötigte Messwerte auf sehr schnelle SSD-Festplatten, während Daten, auf die nicht mehr zugegriffen wird, auf kostengünstigere Festplatten verschoben werden. Zeigen sich im laufenden Betrieb Unregelmäßigkeiten bei den Windrädern, können Daten, die bereits inaktiv waren, jederzeit wieder aktiviert und auf schnelle Medien verlagert werden. Kern dieses Anwendungsszenarios ist eine selbstoptimierende, intelligente Speicherung sehr großer Datenmengen, die eine entscheidende Rolle für einen ausfallsicheren Betrieb der Anlage spielt. Mit der End-to-End-Speicherlösung wird die Datenflut beherrschbar und die Daten stehen jederzeit für weitergehende Big- Data-Analysen zur Verfügung.

Passgenaue Big-Data-Lösungen schaffen Raum für Innovation

Unternehmen verschaffen sich durch zwei zentrale Lösungsansätze die notwendigen Freiräume für Innovationen und Aktivitäten, die einen entscheidenden Wettbewerbsvorteil bringen: Erstens, indem sie riesige Datenmengen mit Hadoop verarbeiten und für Businessentscheidungen aufbereiten. Und zweitens, indem sie ein automatisiertes, intelligentes Datenmanagement implementieren, wie es die Fluid-Data-Lösungen von Dell bieten. Abhängig davon, wo der Schwerpunkt jeweils liegt, sind Unternehmen damit bestens für Big Data gerüstet. Dell und Intel arbeiten hierbei eng zusammen, um eine konsistente und performante Infrastruktur über Server, Storage- und Netzwerksysteme bereitzustellen. Dell bietet für alle Big-Data-Herausforderungen eine passende Lösung – angefangen von Consulting und Planung über das Design und die Implementierung bis hin zur Wartung komplexer Server- und Storage-Umgebungen.
 

¹ BITKOM: Leitfaden Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte. Berlin 2012.
Ultrabook, Celeron, Celeron Inside, Core Inside, Intel, Intel Logo, Intel Atom, Intel Atom Inside, Intel Core, Intel Inside, Intel Inside Logo, Intel vPro, Itanium, Itanium Inside, Pentium, Pentium Inside, vPro Inside, Xeon, Xeon Phi und Xeon Inside sind eingetragene Marken der Intel Corporation in den USA und anderen Ländern.
Big Data
*Hans Schramm ist Field Product Manager Enterprise bei Dell in Frankfurt am Main
*Michael Holzerland ist System Engineer Datacenter and Cloud bei Dell in Frankfurt am Main


Höhere Speichereffizienz, weniger Speicherbelegung? Lassen Sie sich von einem unserer Dell-Experten unverbindlich beraten. Füllen Sie einfach dieses Formular aus.

*Vorname
*Nachname
*E-Mail-Adresse
*Tel.-Nr.
Unternehmen / Organisation
Land
Ihre Frage
*Pflichtfeld

> Datenwachstum

Marktforscher schätzen, dass sich die Datenmengen, die innerhalb eines Jahres erstellt, vervielfältigt und konsumiert werden, bis 2020 alle zwei Jahre verdoppeln.
Weitere Informationen >

> Big Data

Auf einen Blick: Treiber und Eigenschaften von Big Data.
Weitere Informationen >

> Dimensionen

Big Data ist ohne ein effizientes und intelligentes Datenmanagement nicht möglich, da sonst die Applikations-Performance sinkt und Kosten und Komplexität steigen.
Weitere Informationen >

> Speichermanagement

Beim klassischen Speichermanagement sind 10% Bewegungsdaten. 70% der Daten sind statisch, und 20% des vorhandenen Volumens werden nie genutzt.
Weitere Informationen >

> Fluid-Architektur

Die Fluid-Data-Architektur überwindet die Grenzen traditioneller Storage-Architekturen.
Weitere Informationen >

> Dell-Lösungen:

  • PowerEdge R720xd - Der Rackserver Dell PowerEdge R720xd: einfach skalierbar für ein rasantes Datenwachstum.
    Weitere Informationen >
  • PowerEdge C6220 - Der Rackserver Dell PowerEdge C6220 bietet bis zu vier unabhängige, Hot-Swap-fähige Serverknoten in einem Gehäuse.
    Weitere Informationen >