Fr. 87.00

Partitionierung zur effizienten Duplikaterkennung in relationalen Daten

Tedesco · Tascabile

Spedizione di solito entro 6 a 7 settimane

Descrizione

Ulteriori informazioni

Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern.

Die Arbeit wurde mit dem "Information Quality Best Master Degree Award" der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Sommario

Duplikaterkennung.- Blocking-Verfahren.- Windowing-Verfahren.- Vergleich Blocking- und Sorted-Neighborhood-Methode.- Verallgemeinertes Verfahren

Info autore

Uwe Draisbach studierte Informatik an der FernUniversität Hagen und ist wissenschaftlicher Mitarbeiter am Hasso-Plattner-Institut in Potsdam.

Riassunto

Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern.
 
Die Arbeit wurde mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Dettagli sul prodotto

Autori Uwe Draisbach
Editore Vieweg+Teubner
 
Lingue Tedesco
Formato Tascabile
Pubblicazione 01.03.2012
 
EAN 9783834817723
ISBN 978-3-8348-1772-3
Pagine 91
Peso 153 g
Illustrazioni XIV, 91 S. 28 Abb., 6 Abb. in Farbe.
Serie Ausgezeichnete Arbeiten zur Informationsqualität
Research
Research
Ausgezeichnete Arbeiten zur Informationsqualität
Categorie Scienze naturali, medicina, informatica, tecnica > Informatica, EDP > Informatica

B, NN, computer science, Database Management

Recensioni dei clienti

Per questo articolo non c'è ancora nessuna recensione. Scrivi la prima recensione e aiuta gli altri utenti a scegliere.

Scrivi una recensione

Top o flop? Scrivi la tua recensione.

Per i messaggi a CeDe.ch si prega di utilizzare il modulo di contatto.

I campi contrassegnati da * sono obbligatori.

Inviando questo modulo si accetta la nostra dichiarazione protezione dati.