Untersuchung der Migration einer MySQL basierten Monitoring & Data-Warehouse LÃ¶sung nach Hadoop

Jonas Kress (Autor)

Buch | Softcover

104 Seiten

2013 | 13001 A. 1. Auflage
GRIN Verlag
978-3-656-44047-5 (ISBN)

Titel nicht im Sortiment

Artikel merken

Masterarbeit aus dem Jahr 2012 im Fachbereich Informatik - Angewandte Informatik, Note: 1.0, Hochschule für Technik und Wirtschaft Berlin, Sprache: Deutsch, Abstract: Die escape GmbH betreibt ein MySQL basiertes Dataware-House in das Daten ausverschiedenen Webpräsenzen fließen, um dort ausgewertet zu werden. Nach Jahren deserfolgreichen Betriebs nimmt mit der ständig steigenden Menge an gespeicherten Datendie Leistung des Systems allerdings ab. Die Laufzeiten für Auswertungen steigen unddie Agilität sinkt. Kleine Optimierungen und Veränderungen des Systems können dasUnbrauchbarwerden hinauszögern, als aber aus Gründen der Leistung auf einen Teilder Abfragen verzichtet werden muss, wird schließlich klar, dass nur eine grundlegendeVeränderung des Systems den langfristigen Betrieb sicherstellen kann. Aus diesem Grundwurde nach Technologien gesucht, deren Fähigkeiten die Leistung des bestehendenDataware-Houses verbessern können. Dies führte zu Hadoop [Fouc][Whi10a], einem OpenSource Framework, welches die Verarbeitung von riesigen Datenmengen in einem Clustererlaubt.Diese Arbeit untersucht, wie Komponenten des bisherigen Systems durch Dienste vonHadoop ersetzt werden können. Sie wertet die Möglichkeiten zur Strukturierung vonDaten in einer spaltenbasierten Datenbank aus, evaluiert in einem Benchmark, wie sichdie Zeit von Abfragen im Verhältnis zu einer stetig steigenden Datenmenge verhält undanalysiert detailliert den Ressourcenverbrauch des Clusters und dessen Knoten.Die Implementierung zeigt, dass sich die spaltenbasierten Datenbank HBase sehr gutzum Speichern von einer sehr großen Menge an semistrukturierten Daten eignet und dieDataware-House Komponente Hive durch die Unterstützung eines SQL ähnlichen Syntaxdas Erstellen von Abfragen komfortabel ermöglicht. Die Literatur beschreibt, dass HBaseautomatisch linear mit dem Hinzufügen von neuen Knoten skaliert. Der durchgeführteBenchmark zeigt, dass die Ausführungs-Zeit der getesteten Abfragen fast genau linear zurDatenmenge steigt, der Ressourcenverbrauch nur gering wächst und die Last im Clustergleichmäßig verteilt wird. Dies lässt die Schlussfolgerung zu, dass sich Hadoop gut zumBetrieb einer Dataware-House Lösung eignet.

Erscheint lt. Verlag	25.7.2013
Sprache	deutsch
Maße	148 x 210 mm
Gewicht	161 g
Themenwelt	Informatik ► Datenbanken ► MySQL
Schlagworte	Big Data • BigData • Cluster • Datamining • Data Mining • Datawarehouse • Data Warehouse • ETL • Ganglia • Hadoop • HBase • Hive • hql • MapReduce • MySQL • NoSQL • PHP • SQL • thrift
ISBN-10	3-656-44047-6 / 3656440476
ISBN-13	978-3-656-44047-5 / 9783656440475
Zustand	Neuware