SQL Server 2012 Codename Denali
Data Quality Services Grzegorz Stolecki
Specjalne podziękowania dla Marcina Szeligi – współautora slajdów
Agenda • Problem jakości danych • Usługa Data Quality Services – Baza wiedzy – Oczyszczanie danych – Parowanie i deduplikacja danych
• Integracja z usługą SSIS
O mnie… Grzegorz Stolecki
[email protected] • Konsultant i trener Business Intelligence od 1998 roku • SQL Server MVP
To jakość jest najważniejsza • Jakość danych jest miarą ich przydatności – Zależy od użycia danych
• Ilość cyfrowych danych podwaja się co niecałe dwa lata – W tym roku utworzonych zostało już 1,8 zetabajta danych
Typowe problemy z danymi Cecha
Problem
Przykład
Integralność
Te same dane mają różne znaczenia, a te same znaczenia reprezentowane są przez różne dane
Płeć oznaczana za pomocą symboli K/M w jednym systemie i symboli M/F w innym
Kompletność
Część danych nie istnieje lub jest nieznana
Nazwiska 20% klientów są nieznane, 50% kodów pocztowych to 99999
Dokładność
Dane są niedokładne, zaokrąglane lub pogrupowane
Odległość z Katowic do Warszawy jest większa niż z Warszawy do Katowic
Poprawność
Dane nie są zgodne z regułami biznesowymi
Najmłodszy klient ma 0 lat Mężczyzna jest matką trojga dzieci
Unikatowość
Te same dane przechowywane są wielokrotnie
W bazie klientów figurują Barack Obama i Barak Obama – czy to ta sama osoba?
Wiarygodność
Dane nie odzwierciedlają rzeczywistości
Firma wciąż ma status aktywnego dostawcy, chociaż zbankrutowała 5 lat temu
Data Quality Services Monitorowanie procesu poprawy jakości danych
Ocena jakości danych
Poprawa błędnych i uzupełnienie niekompletnych danych Monitorowanie
Oczyszczanie
Profilowanie
Deduplikacja
Wyszukanie i usunięcie powtarzających się danych
Cechy charakterystyczne DQS Oparte na wiedzy Uwzględniające semantykę Uczące się Otwarte i rozszerzalne Łatwe w użyciu
• Korzystające z bazy wiedzy (DQKB)
• Domeny reprezentują znaczenie danych
• Dodatkowe informacje gromadzone są podczas oczyszczania danych • Korzystające z baz wiedzy użytkownika i firm trzecich
• Upraszczające codzienną pracę z danymi
Funkcje Data Quality Services Zarządzanie wiedzą i danymi referencyjnymi
Oczyszczanie i deduplikacja danych
Administracja
• Tworzenie i zarządzanie bazami wiedzy • Odkrywanie informacji w przykładowych danych • Praca z bazami wiedzy firm trzecich
• Poprawa, deduplikacja i standaryzacja danych
• Monitorowanie i zarządzanie procesem poprawy jakości danych
Parowanie i deduplikacja 1. Określenie reguł porównywania - Identyfikacja duplikatów 2. Trening - Wykrycie duplikatów 3. Wybór poprawnych rekordów - Usunięcie duplikatów
•
• • •
Microsoft Corporation, Bill gates, 1 Microsoft way, Redmond, WA, 98052 Microsoft, Gates, One Microsoft way, Redmond WA Microsoft Corp, William Henry Gates, 1 Microsfot way, Redmond, WA Microsfot, W. H. Gates, Redmond, WA
Klient DQS – Wyniki parowania
Integracja z usługą SSIS SSIS Data Flow
Pakiet SSIS Reguły Dane referencyjne
Źródło danych
Zadanie Data Przeznaczenie Correction danych
DQS - Podsumowanie Bazujące na wiedzy
Proste w użyciu
Otwarte
Bogate bazy wiedzy Automatyczne wzbogacane podczas oczyszczania danych Raz utworzona (centralna) baza wiedzy może być używana w wielu projektach DQS
Zaprojektowane dla użytkowników biznesowych Intuicyjne Natychmiast gotowe do użycia
Korzystające z baz wiedzy znajdujących się w Chmurze Bazy wiedzy tworzone przez użytkowników Zintegrowane z usługą SSIS
Dziękuję za uwagę ! Q&A