Dr. John R. Talburt is Professor of Information Science at the University of Arkansas at Little Rock (UALR) where he is the Coordinator for the Information Quality Graduate Program and the Executive Director of the UALR Center for Advanced Research in Entity Resolution and Information Quality (ERIQ). He is also the Chief Scientist for Black Oak Partners, LLC, an information quality solutions company. Prior to his appointment at UALR he was the leader for research and development and product innovation at Acxiom Corporation, a global leader in information management and customer data integration. Professor Talburt holds several patents related to customer data integration and the author of numerous articles on information quality and entity resolution, and is the author of Entity Resolution and Information Quality (Morgan Kaufmann, 2011). He also holds the IAIDQ Information Quality Certified Professional (IQCP) credential.
Entity Resolution and Information Quality presents topics and definitions, and clarifies confusing terminologies regarding entity resolution and information quality. It takes a very wide view of IQ, including its six-domain framework and the skills formed by the International Association for Information and Data Quality {IAIDQ). The book includes chapters that cover the principles of entity resolution and the principles of Information Quality, in addition to their concepts and terminology. It also discusses the Fellegi-Sunter theory of record linkage, the Stanford Entity Resolution Framework, and the Algebraic Model for Entity Resolution, which are the major theoretical models that support Entity Resolution. In relation to this, the book briefly discusses entity-based data integration (EBDI) and its model, which serve as an extension of the Algebraic Model for Entity Resolution. There is also an explanation of how the three commercial ER systems operate and a description of the non-commercial open-source system known as OYSTER. The book concludes by discussing trends in entity resolution research and practice. Students taking IT courses and IT professionals will find this book invaluable. - First authoritative reference explaining entity resolution and how to use it effectively- Provides practical system design advice to help you get a competitive advantage- Includes a companion site with synthetic customer data for applicatory exercises, and access to a Java-based Entity Resolution program.
Front Cover 1
Entity Resolution and Information Quality 4
Copyright 5
Dedication 6
Contents 8
Foreword 10
Preface 14
Motivation for the Book 14
Audience 15
Organization of the Material 16
Acknowledgements 18
Chapter 1: Principles of Entity Resolution 20
Entity Resolution 20
Entity Resolution Activities 25
Summary 54
Review Questions 55
Chapter 2: Principles of Information Quality 58
Information Quality 58
IQ and the Quality of Information 61
Two IP Examples 68
IQ Management 69
Information versus Process 72
IQ and HPC 73
The Evolution of Information Quality 74
IQ as an Academic Discipline 78
IQ and ER 80
Summary 80
Review Questions 81
Chapter 3: Entity Resolution Models 82
Overview 82
The Fellegi-Sunter Model 82
SERF Model 90
Algebraic Model 98
ENRES Meta-Model 117
Summary 118
Review Questions 119
Chapter 4: Entity-Based Data Integration 122
Introduction 122
Formal Framework for Describing EBDI 123
Optimizing Selection Operator Accuracy 127
More Complex Selection Rules 133
Summary 136
Review Questions 137
Chapter 5: Entity Resolution Systems 140
Introduction 140
DataFlux dfPowerStudio 140
Infoglide Identity Resolution Engine 156
Acxiom AbiliTec 169
Summary 173
Review Questions 173
Chapter 6: The Oyster Project 176
Background 176
OYSTER Logic 177
Transitive Equivalence Example 184
Asserted Equivalence Example 188
Febrl: Open-Source Project 190
Summary 191
Review Questions 191
Chapter 7: Trends in Entity Resolution Research and Applications 192
Introduction 192
ER and Information Hubs 192
Association Analysis and Social Networks 195
HPC in ER 198
Integration of ER and IQ 200
Entity-Based Data Integration 202
Fundamental ER Research 206
Summary 208
Review Questions 209
Appendix A 232
OYSTER Configurations 232
OYSTER Setup for Students 233
OYSTER Merge-Purge Configuration 233
OYSTER Identity Capture Configuration 240
OYSTER Identity Build Configuration with Assertions 243
OYSTER Identity Resolution Configuration 247
Glossary 222
Bibliography 210
Index 250
Erscheint lt. Verlag | 14.1.2011 |
---|---|
Sprache | englisch |
Themenwelt | Mathematik / Informatik ► Informatik ► Datenbanken |
Informatik ► Office Programme ► Outlook | |
Informatik ► Weitere Themen ► SAP | |
Wirtschaft ► Betriebswirtschaft / Management ► Marketing / Vertrieb | |
ISBN-10 | 0-12-381973-3 / 0123819733 |
ISBN-13 | 978-0-12-381973-4 / 9780123819734 |
Haben Sie eine Frage zum Produkt? |
Größe: 10,7 MB
Kopierschutz: Adobe-DRM
Adobe-DRM ist ein Kopierschutz, der das eBook vor Mißbrauch schützen soll. Dabei wird das eBook bereits beim Download auf Ihre persönliche Adobe-ID autorisiert. Lesen können Sie das eBook dann nur auf den Geräten, welche ebenfalls auf Ihre Adobe-ID registriert sind.
Details zum Adobe-DRM
Dateiformat: PDF (Portable Document Format)
Mit einem festen Seitenlayout eignet sich die PDF besonders für Fachbücher mit Spalten, Tabellen und Abbildungen. Eine PDF kann auf fast allen Geräten angezeigt werden, ist aber für kleine Displays (Smartphone, eReader) nur eingeschränkt geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen eine
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen eine
Geräteliste und zusätzliche Hinweise
Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
Größe: 3,8 MB
Kopierschutz: Adobe-DRM
Adobe-DRM ist ein Kopierschutz, der das eBook vor Mißbrauch schützen soll. Dabei wird das eBook bereits beim Download auf Ihre persönliche Adobe-ID autorisiert. Lesen können Sie das eBook dann nur auf den Geräten, welche ebenfalls auf Ihre Adobe-ID registriert sind.
Details zum Adobe-DRM
Dateiformat: EPUB (Electronic Publication)
EPUB ist ein offener Standard für eBooks und eignet sich besonders zur Darstellung von Belletristik und Sachbüchern. Der Fließtext wird dynamisch an die Display- und Schriftgröße angepasst. Auch für mobile Lesegeräte ist EPUB daher gut geeignet.
Systemvoraussetzungen:
PC/Mac: Mit einem PC oder Mac können Sie dieses eBook lesen. Sie benötigen eine
eReader: Dieses eBook kann mit (fast) allen eBook-Readern gelesen werden. Mit dem amazon-Kindle ist es aber nicht kompatibel.
Smartphone/Tablet: Egal ob Apple oder Android, dieses eBook können Sie lesen. Sie benötigen eine
Geräteliste und zusätzliche Hinweise
Zusätzliches Feature: Online Lesen
Dieses eBook können Sie zusätzlich zum Download auch online im Webbrowser lesen.
Buying eBooks from abroad
For tax law reasons we can sell eBooks just within Germany and Switzerland. Regrettably we cannot fulfill eBook-orders from other countries.
aus dem Bereich