gstolecki - Projekty EFS WWSI

March 20, 2018 | Author: Anonymous | Category: Inżynieria, Informatyka, Data Management
Share Embed


Short Description

Download gstolecki - Projekty EFS WWSI...

Description

SQL Server 2012 Codename Denali

Data Quality Services Grzegorz Stolecki

Specjalne podziękowania dla Marcina Szeligi – współautora slajdów

Agenda • Problem jakości danych • Usługa Data Quality Services – Baza wiedzy – Oczyszczanie danych – Parowanie i deduplikacja danych

• Integracja z usługą SSIS

O mnie… Grzegorz Stolecki [email protected] • Konsultant i trener Business Intelligence od 1998 roku • SQL Server MVP

To jakość jest najważniejsza • Jakość danych jest miarą ich przydatności – Zależy od użycia danych

• Ilość cyfrowych danych podwaja się co niecałe dwa lata – W tym roku utworzonych zostało już 1,8 zetabajta danych

Typowe problemy z danymi Cecha

Problem

Przykład

Integralność

Te same dane mają różne znaczenia, a te same znaczenia reprezentowane są przez różne dane

Płeć oznaczana za pomocą symboli K/M w jednym systemie i symboli M/F w innym

Kompletność

Część danych nie istnieje lub jest nieznana

Nazwiska 20% klientów są nieznane, 50% kodów pocztowych to 99999

Dokładność

Dane są niedokładne, zaokrąglane lub pogrupowane

Odległość z Katowic do Warszawy jest większa niż z Warszawy do Katowic

Poprawność

Dane nie są zgodne z regułami biznesowymi

Najmłodszy klient ma 0 lat Mężczyzna jest matką trojga dzieci

Unikatowość

Te same dane przechowywane są wielokrotnie

W bazie klientów figurują Barack Obama i Barak Obama – czy to ta sama osoba?

Wiarygodność

Dane nie odzwierciedlają rzeczywistości

Firma wciąż ma status aktywnego dostawcy, chociaż zbankrutowała 5 lat temu

Data Quality Services Monitorowanie procesu poprawy jakości danych

Ocena jakości danych

Poprawa błędnych i uzupełnienie niekompletnych danych Monitorowanie

Oczyszczanie

Profilowanie

Deduplikacja

Wyszukanie i usunięcie powtarzających się danych

Cechy charakterystyczne DQS Oparte na wiedzy Uwzględniające semantykę Uczące się Otwarte i rozszerzalne Łatwe w użyciu

• Korzystające z bazy wiedzy (DQKB)

• Domeny reprezentują znaczenie danych

• Dodatkowe informacje gromadzone są podczas oczyszczania danych • Korzystające z baz wiedzy użytkownika i firm trzecich

• Upraszczające codzienną pracę z danymi

Funkcje Data Quality Services Zarządzanie wiedzą i danymi referencyjnymi

Oczyszczanie i deduplikacja danych

Administracja

• Tworzenie i zarządzanie bazami wiedzy • Odkrywanie informacji w przykładowych danych • Praca z bazami wiedzy firm trzecich

• Poprawa, deduplikacja i standaryzacja danych

• Monitorowanie i zarządzanie procesem poprawy jakości danych

Parowanie i deduplikacja 1. Określenie reguł porównywania - Identyfikacja duplikatów 2. Trening - Wykrycie duplikatów 3. Wybór poprawnych rekordów - Usunięcie duplikatów



• • •

Microsoft Corporation, Bill gates, 1 Microsoft way, Redmond, WA, 98052 Microsoft, Gates, One Microsoft way, Redmond WA Microsoft Corp, William Henry Gates, 1 Microsfot way, Redmond, WA Microsfot, W. H. Gates, Redmond, WA

Klient DQS – Wyniki parowania

Integracja z usługą SSIS SSIS Data Flow

Pakiet SSIS Reguły Dane referencyjne

Źródło danych

Zadanie Data Przeznaczenie Correction danych

DQS - Podsumowanie Bazujące na wiedzy

Proste w użyciu

Otwarte

Bogate bazy wiedzy Automatyczne wzbogacane podczas oczyszczania danych Raz utworzona (centralna) baza wiedzy może być używana w wielu projektach DQS

Zaprojektowane dla użytkowników biznesowych Intuicyjne Natychmiast gotowe do użycia

Korzystające z baz wiedzy znajdujących się w Chmurze Bazy wiedzy tworzone przez użytkowników Zintegrowane z usługą SSIS

Dziękuję za uwagę ! Q&A

View more...

Comments

Copyright © 2017 DOCUMEN Inc.