Webbasierte Datenintegration - Steven Helmis, Robert Hollmann

Blick ins Buch

Webbasierte Datenintegration (eBook)

Ansätze zur Messung und Sicherung der Informationsqualität in heterogenen Datenbeständen unter Verwendung eines vollständig webbasierten Werkzeuges

Steven Helmis, Robert Hollmann (Autoren)

eBook Download: PDF

2009 | 2009
XXI, 198 Seiten
Vieweg & Teubner (Verlag)
978-3-8348-9280-5 (ISBN)

Lese- und Medienproben

Ebook-Leseprobe (PDF)

Die Autoren diskutieren die Problematik der Datenqualität, und entwickeln ein webbasiertes Werkzeug, welches die Integration der Daten ermöglicht und die Qualität der Datenbestände testet. Die Analyse der Bestände, das Auffinden von Duplikaten und die Bereinigung der Daten stehen dabei im Fokus dieses Werkzeuges, welches eine Grundlage für eine umfassende Datenqualitäts- und Bereinigungslösung darstellen kann.

Steven Helmis und Robert Hollmann studierten Angewandte Informatik an der Fachhochschule Erfurt und wurden für ihre Arbeiten mit dem 'Information Quality Best Master Degree Award' der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Steven Helmis und Robert Hollmann studierten Angewandte Informatik an der Fachhochschule Erfurt und wurden für ihre Arbeiten mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Geleitwort 6
Vorwort 7
Inhaltsverzeichnis 9
Abbildungsverzeichnis 12
Tabellenverzeichnis 15
Abkürzungsverzeichnis 17
Teil I Datenbereinigung und Konsolidierung von heterogenen Datenbeständen 20
1 Einleitung 21
1.1 Motivation 22
1.2 Zielsetzung der Arbeit 23
1.3 Aufbau der Arbeit 23
2 Datenqualität 25
2.1 Datenqualität de.nieren 25
2.2 Datenfehler 26
2.3 Qualitätskriterien 29
2.4 Methoden zur Einstufung der Qualität 32
3 Dimensionen und Architektur der Informationsintegration 42
3.1 Verteilung 42
3.2 Heterogenität 43
3.3 Autonomie 45
3.4 Integrationsarchitektur 46
4 Data Cleaning 52
4.1 Datenanalyse 53
4.2 Normalisierung und Validierung 56
4.3 Record Matching 57
4.4 Record Merging 59
5 Konzeption des Data Cleaning Toolkits 66
5.1 Bewertung und Analyse exisitierender Systeme 66
5.2 Anforderungsanalyse 69
5.3 Architektur Data Cleaning Toolkit 71
5.4 Funktionsumfang 72
6 Implementierung 80
6.1 Datenbankentwicklung 80
6.2 Webentwicklung 88
6.3 Probleme während der Implementierungsphase 94
7 Zusammenfassung und Ausblick 95
Literaturverzeichnis 97
Teil II Auffinden und Bereinigen von Duplikaten in heterogenen Datenbeständen 104
8 Einleitung 105
8.1 Motivation 106
8.2 Zielstellungen dieser Arbeit 107
8.3 Gliederung dieser Arbeit 108
9 Informationen, Daten und Wissen- ein De.nitionsversuch 109
9.1 Begriffsdefinitionen 110
9.2 Herkunft von Daten und Informationen 112
9.3 Beschaffenheit von Daten und Zugriff auf Informationen 112
10 Informationsintegration im Fokus der Datenqualität 117
10.1 Ist-Stand in Unternehmen- Notwendigkeit der Integration 117
10.2 Informations- und Datenqualität 119
10.3 Sicherung der Datenqualität 128
10.4 Kosten der Datenqualität 129
11 Duplikate in Datenbeständen 131
11.1 Dubletten und deren Identi.kation 131
11.2 Ein Framework zur Objektidenti.kation 132
11.3 Das Dilemma der Dublettensuche 134
12 Konkrete Verfahren zur Dublettenauf.ndung und Klassi.kation 139
12.1 Ähnlichkeitsmessungen und Klassi.kation 139
12.2 Ähnlichkeitsbestimmung bei Tupeln in einem Datenbestand 140
12.3 Vorselektion für die Dublettensuche 156
13 Konzept der Datenqualitätsanwendung „DCT“ 160
13.1 Zielstellung der Applikation 160
13.2 Anforderungsanalyse 161
13.3 Technologiemodell 170
13.4 Datenbankmodell 173
13.5 Applikationsarchitektur 177
13.6 Applikationsstruktur 179
13.7 Entwicklung einer Benutzerober.äche 182
14 Implementierung, ausgewählte Algorithmen- und Datenstrukturen 185
14.1 „DCT“- Der Verbindungsmanager 185
14.3 „DCT- Data Pro.ling“ 189
14.4 „DCT“-Plausibilitätskontrolle 192
14.5 „DCT“- Auf.nden von Duplikaten 194
15 Fazit und Ausblick 199
Literaturverzeichnis 201

13 Konzept der Datenqualitätsanwendung „DCT" (S. 147-148)

Nachdem in den vergangenen Kapiteln die theoretischen Grundlagen für das Messen von Datenqualität und das konkrete Auf.nden von Duplikaten vorgestellt wurden, folgt in diesem Kapitel die Dokumentation eines Konzeptes zur konkreten Umsetzung einiger gezeigter Verfahrensweisen in einer leistungsfähigen Anwendung. Dieses Kapitel stellt die entwickelte Software „Data Cleaning Toolkit", kurz „DCT" sowie die zugrunde liegenden Entwicklungsmodelle und Entwürfe dar.

Neben der Architektur der verwendeten Technologie, der der Anwendung als Grundlage dient, werden die Modelle der Applikation, wie auch die zum Einsatz kommenden Datenmodelle beschrieben und dokumentiert. Für eine einfache und effiziente Anwendung, wird die Applikation durch eine einfache, aber leistungsfähige und gut verwendbare Benutzerober.äche bedient. Eingangs werden die Motivation für die Entwicklung der Anwendung, wie auch die gestellten Anforderungen diskutiert.

13.1 Zielstellung der Applikation

Die außerordentliche Notwendigkeit der Erhaltung bzw. Schaffung einer hohen Datenqualität in einem Unternehmensdatenbestand wurde im Verlauf dieser Arbeit mehrfach hervorgehoben und bewiesen. Es erscheint logisch, dass vorgestellte Konzepte und Verfahrensweisen in einer Softwaretechnischen Umsetzung angewendet werden. Die mit Co-Autor Steven Helmis (vgl. [Hel07]) entworfene und prototypisch im Rahmen dieser Masterthesis implementierte Applikation stellt das Ergebnis der thematischen Auseinandersetzung mit Datenqualität und deren Bewertung dar. Ziel der Applikationsentwicklung war es, eine leistungsfähige, modular aufgebaute und universell einsetzbare Lösung zur Datenqualitätsbewertung wie auch der Identi.kation von Duplikaten mit einer adäquaten Visualisierung und Auswertung zu entwickeln.

Als Quelldaten sollten hierbei vor allem verschiedene heterogene Datenbanken unterschiedlicher Datembankmanagementsysteme dienen. Für die eigentliche Bewertung und die Verarbeitung der geladenen, heterogenen Operativdaten wird in der Arbeitsdatenbank eine „Workspace-Table" angelegt, was eine manipulationsfreie Weiterverarbeitung der Quelldaten ermöglicht. In dieser sollen, die im Folgenden beschrieben Verfahren und Funktionen zur Bewertung der Qualität im geladenen Datenbestand und zur Duplikaterkennung nach verschiedenen Gesichtspunkten durchgeführt werden. Eine entsprechende, Grafiken-gestützte Auswertung macht die ermittelten Ergebnisse für Benutzer des Systems interpretierbar. Ebenso sollten externe Referenzdaten für die Qualitätsmessung und die Dublettensuche zum Einsatz kommen.

Die Anwendung soll universell als Client/Sever Anwendung ausgeführt werden. Als Zieltechnologie dient die webbasierte PHP-Skriptsprache. Die Arbeitsdatenbank, wie auch Applikationsdatenstrukturen werden im freien DBMS „MSSQL 2005 Express" verfügbar gemacht. Mit Hilfe von einzurichtenden Konnektoren soll so auf externe, verteilte und über das Internet verfügbare Quelldatenbanken zugegriffen werden. Interpretierbarkeit und Übersichtlichkeit der erzeugten Ergebnisse stand im Vordergrund der Auswertung und Visualiserung am Ende des Bewertungsprozesses.

13.2 Anforderungsanalyse

Für die Entwicklung des „DCT" wurde eine umfangreiche Analyse der eigentlichen Anforderungen an den zu implementierenden Prototypen durchgeführt. Diese sollen im folgenden Abschnitt dargestellt werden und orientieren sich in ihrer Struktur vornehmlich an den Richtlinien des „Reqirements Engineering", also der Anforderungsanalyse für die Softwareentwicklung, die im Referenzwerk von Balzert et al. (vgl. [Bal00]) dargestellt sind. Aus Gründen der Übersichtlichkeit wird jedoch nur ein Teil der von Balzert et al. geforderten Inhalte eines vollständigen P.ichtenhefts (engl. Software Requirement Speci.cation, kurz SRS) in diesem Abschnitt dargestellt.

Erscheint lt. Verlag	19.2.2009
Reihe/Serie	Ausgezeichnete Arbeiten zur Informationsqualität
Reihe/Serie	Ausgezeichnete Arbeiten zur Informationsqualität
Zusatzinfo	XXI, 198 S.
Verlagsort	Wiesbaden
Sprache	deutsch
Themenwelt	Mathematik / Informatik ► Informatik ► Datenbanken
Themenwelt	Mathematik / Informatik ► Informatik ► Web / Internet
Schlagworte	Dataprofiling • Datenbank • Datenintegration • Datenqualität • Deduplizierung • Recordmerging • Webtechnologie
ISBN-10	3-8348-9280-7 / 3834892807
ISBN-13	978-3-8348-9280-5 / 9783834892805

Haben Sie eine Frage zum Produkt?

PDF (Wasserzeichen)
Größe: 3,3 MB

DRM: Digitales Wasserzeichen
Dieses eBook enthält ein digitales Wasserzeichen und ist damit für Sie personalisiert. Bei einer missbräuchlichen Weitergabe des eBooks an Dritte ist eine Rückverfolgung an die Quelle möglich.

Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.

Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen dafür einen PDF-Viewer - z.B. den Adobe Reader oder Adobe Digital Editions.
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen dafür einen PDF-Viewer - z.B. die kostenlose Adobe Digital Editions-App.

Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.

Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.

Print-Ausgabe

Buch | Softcover

CHF 97,95