Banki danych WYKŁAD 5 dr Łukasz Murowaniecki
[email protected] T-109
Łódź 2008
Modele baz danych
Model Model Model Model Model
hierarchiczny sieciowy relacyjny obiektowy relacyjno-obiektowy
Łódź 2008
Model hierarchiczny
W bazie przechowywane są różne typy rekordów (struktur danych). Dane każdego typu przechowywane są na zasadzie drzewa; każdy rekord z wyjątkiem głównego, posiada dokładnie jeden rekord nadrzędny; jest to powiązanie jeden do wielu.
AUTO
OSOBA
Łódź 2008
Model sieciowy (grafowy)
Struktura danych składa się z:
Typów rekordów – struktura danych Typów kolekcji – opis związków jeden do wielu między dwoma typami rekordów
OSOBA
WŁASNOŚĆ
AUTO
...
...
...
Łódź 2008
Model obiektowy
Obiektowa baza danych:
Zbiór obiektów, ich stan, zachowanie się i związki występujące między nimi określone są zgodnie z obiektowym modelem danych Jest to system, który umożliwia zarządzanie bazą danych, zorientowany obiektowo Jest to system, który dziedziczy wszystkie zasadnicze cechy technologii obiektowej
Łódź 2008
Model obiektowy
Cechy obiektowości:
pojęcie obiektu i klasy, abstrakcja, enkapsulacja, dziedziczenie, polimorfizm
Łódź 2008
Model obiektowy
Podstawowe pojęcia:
Obiekt – „wszystko jest obiektem” Klasa – „typ” obiektu
Atrybuty – „zmienne” klasy Metody – „funkcje” klasy
Komunikat – wywołanie metod służące do wymiany informacji pomiędzy obiektami Enkapsulacja (hermetyzacja) – struktura wewnętrzna obiektu nie jest widziana na zewnątrz obiektu Identyfikator obiektu – adres obiektu pozwalający na odwoływanie się do niego Dziedziczenie – obiekty klasy X dziedziczą zmienne instancji oraz metody klasy Y, czyli można korzystać z obiektu X wszędzie tam gdzie można wykorzystać obiekt Y. Polimorfizm – można stosować metodą o tej samej nazwie do obiektów różnych klas. Łódź 2008
Model obiektowy
Podstawowe pojęcia:
Atrybuty opisujące obiekty duże BLOB (Binary Large Objects) – głównie dla zasobów multimedialnych; semantycznie traktowane są jako typ prosty, fizycznie nie są przechowywane w pamięci; Atrybuty referencyjne – modelują powiązania pomiędzy obiektami Atrybuty wielowartościowe (kolekcje) – atrybuty typu lista, tablica Atrybuty wyliczalne (derived attributes) – wartość atrybutu nie jest przechowywana, ale jest wyliczana w momencie ich wywołania Więzy integralności – definiowane na poziomie klasy, określają jakie kryteria muszą spełniać wartości atrybutów dla obiektu należącego do danej klasy Demony – procedury uaktywniane przez zdarzenia mające miejsce w bazie danych (np. usunięcie obiektu) Obiekt kompozytowy – jest związek pomiędzy obiektami różnych klas, gdzie jeden obiekt ma być częścią składową drugiego poprzez odwołanie się do niego przy pomocy atrybutu
Łódź 2008
Model obiektowy
Wersjonowanie obiektów
Pozwala na zachowanie poprzednich danych Wersja obiektu – semantycznie znaczący rzut obiektu, dokonany w pewnym momencie czasu Historia wersji – graf typu drzewiastego, którego węzły odpowiadają poszczególnym wersjom Konfiguracja obiektu – związek między wersjami obiektu kompozytowego a wersjami każdego z obiektów składowych danego obiektu
Łódź 2008
Model obiektowy
Trwałość danych:
trwałość - zdolność do istnienia poza czasem działania systemu zarządzania bazą danych ; trwałość jest cechą konkretnych obiektów a nie klasy definiującej dany typ obiektu nadawanie trwałości danym może następować poprzez typ (klasy), jawne nadanie cechy trwałości dla obiektu lub poprzez powiązanie do innych, trwałych, obiektów.
Łódź 2008
Model obiektowy
Składowanie danych:
Sposoby przechowywania obiektów złożonych:
model znormalizowany – podział obiektu na pola i zapisanie ich w różnych miejscach model bezpośredni – obiekt złożony w całości, wraz z innymi obiektami tej klasy
Łódź 2008
Model obiektowy
Indeksowanie w bazach obiektowych:
obecność predykatów zagnieżdżonych - obiekty mogą mieć strukturę zagnieżdżoną tj. jeden obiekt poprzez wartość atrybutu odwołuje się do innego, a ten znów do innego dziedziczenie - zapytanie może dotyczyć obiektów konkretnej klasy, ale też może dotyczyć wszystkich obiektów wynikających z hierarchii dziedziczenia dla tej klasy występowanie metod - metody mogą występować w pytaniach w dwóch funkcjach jako cel pytania i jako predykat w określaniu warunków
Łódź 2008
Model obiektowy
Wielodostęp do baz danych:
Dostęp poprzez transakcje Synchronizacja transakcji:
Metoda pesymistyczna – blokowanie Metoda optymistyczna – wykrywanie konfliktów
Mechanizm zamków: zamykanie przez transakcje dostępu do obiektów:
Zamknięcie do czytania – czytany obiekt nie może być aktualizowany Zamknięcie do aktualizacji – obiekt nie może być czytany ani aktualizowany przez inną transakcję
Łódź 2008
Model obiektowy
Wielodostęp do baz danych:
Zakleszczenia: pojawia się, gdy występuje duża ilość krótko trwających zamknięć do aktualizacji Strategie zapobiegające zakleszczeniom:
Wstępne rezerwowanie obiektów Wykrywanie i usuwanie zakleszczeń
Łódź 2008
Model obiektowy
Tryby zamknięć w obiektowych bazach danych:
IS (Intention Share) w tym trybie obiekty danej klasy są przez transakcje zamykane do czytania IX (Intention Exclusive) w tym trybie obiekty danej klasy są przez transakcje zamykane do aktualizacji S (Shared) w trybie tym definicja klasy jest zamknięta do czytania oraz wszystkie obiekty klasy są zamknięte do czytania SIX (Shared Intention Exlusive) w trybie tym definicja klasy i wszystkie jej obiekty są zamykane w trybie zamknięcia do czytania, poza tym poszczególne obiekty tej klasy mogą być przez transakcje zamykane do aktualizacji X (Exlusive) w tym trybie zarówno definicja klasy jak i wszystkie jej obiekty są zamykane do aktualizacji
Łódź 2008
Model obiektowy
Czynniki wpływające na powstanie niespójności lub utratę danych:
błąd działania transakcji aktualizującej obiekty błąd pracy systemu operacyjnego błąd sprzętowy
Łódź 2008
Model obiektowy
Ochrona danych – kopie bezpieczeństwa
dziennik transakcji - przechowywane są w nim informacje o wszystkich transakcjach, które miały miejsce od czasu utworzenia ostatniej kopii bezpieczeństwa przywracanie spójności bazy danych odbywa się na podstawie dziennika transakcji w dzienniku zapisywane są następujące informacje:
unikalny identyfikator transakcji adresy wszystkich obiektów aktualizowanych przez daną transakcję stan obiektu sprzed modyfikacji i stan po modyfikacji informacje dotyczące przebiegu transakcji
Łódź 2008
Model obiektowo-relacyjny
ORDBMS (Object Relational lub Extended Relational) – wynik ewolucji baz danych relacyjnych w stronę danych obiektowych Tendencje wpływające na kierunek rozwoju:
dążenie do zniwelowania niedostatków technologii relacyjnej, szczególnie w zakresie danych multimedialnych, dołączania metod lub reguł "zachowania się" danych, modelowania pojęciowego chęć wprowadzenia wielu cech obiektowości, takich jak klasy, metody, dziedziczenie, abstrakcyjne typy danych - własności potwierdzające choć częściową obiektowość systemu relacyjnego
Łódź 2008
Podstawy baz danych – model obiektoworelacyjny
Korzysta z modelu danych zawartego w standardzie SQL3:
próbuje dodawać obiektowość do tablic dane są wciąż przechowywane w tabelach, jednak wartości mogą mięć nieco bogatsza niż dotychczas postać Pola typu ADT (Abstact Data Type) zachowują funkcjonalność zwykłych pól (mogą być używane do indeksowania, wyszukiwania, pobierania lub umieszczania danych) przy nowych zawartościach (jak np. multimedia)
Łódź 2008
Podstawy baz danych – model obiektoworelacyjny
Język zapytań:
SQL3 (Object SQL) – rozszerzony SQL o możliwości zapytań o obiekty zagnieżdżone, ADT, atrybuty o wartości wyliczanej (np. metody obiektu), itp. Wyniki są jednak wciąż podawane w formie tabel i krotek, a nie jako kolekcje obiektów
Model obliczeniowy:
Rozszerzony język SQL jest podstawowym interfejsem dostępu do danych. Bezpośrednie odwzorowanie między obiektami z języka programowania a obiektami / tabelami w bazie nie istnieje, tłumaczenie wciąż obciąża programistę
Łódź 2008
Podstawy baz danych – model obiektoworelacyjny
Migracja modelu relacyjnego do obiektowego
Łódź 2008
Podstawy baz danych – porównanie modeli baz danych
RDBMS – relacyjny model danych:
Zalety:
oparte na solidnych podstawach teoretycznych (zainteresowanie świata nauki, a nie tylko biznesu) stabilna pozycja na rynku optymalizacja zapytań
Wady:
z góry ustalony konstruktor, brak złożonych obiektów brak środków hermetyzacji i modularyzacji (brak oddzielenia implementacji od specyfikacji) brak środków do przechowywania informacji proceduralnych niezgodność impedancji – problem połączenia języka programowania z językiem zapytań niezgodność modelu pojęciowego z modelem implementacyjnym
Łódź 2008
Podstawy baz danych – porównanie modeli baz danych
ODBMS – obiektowy model danych:
Zalety:
złożone obiekty typy danych definiowane przez użytkownika tożsamość obiektów (identyfikator), trwałość hermetyzacja, hierarchia, dziedziczenie rozszerzalność zgodność we wszystkich fazach życia bazy i danych metody i funkcje przechowywane wraz z danymi nowe możliwości (wers jonowanie, rejestracja zmian, powiadamianie ...) możliwość nowych zastosowań mniejszym kosztem (bazy mulitmedialne, przestrzenne, bazy aktywne...) porównywalna wydajność (i wciąż rośnie)
Łódź 2008
Podstawy baz danych – porównanie modeli baz danych
ODBMS – obiektowy model danych:
Wady:
brak optymalizacji zapytań niedopracowane mechanizmy zarządzania dużą baza obiektów, sterowania wersjami, ... mała liczba ekspertów od technik obiektowych nie wiadomo z jakimi kosztami wiąże się migracja dużych systemów brak dopracowanych standardów
Łódź 2008
Podstawy baz danych – porównanie modeli baz danych
ORDBMS – obiektowo - relacyjne model danych:
Zalety:
przystosowanie do multimediów (duże obiekty BLOB, CLOB i dane binarne) dane przestrzenne (spatial) abstrakcyjne typy danych (ADT) metody (funkcje i procedury) definiowane przez użytkownika w rożnych językach (C++, VisualBasic, Java) kolekcje (zbiory, wielozbiory, sekwencje, tablice zagnieżdżone, tablice o zmiennej długości) typy referencyjne przeciążanie funkcji optymalizacja zapytań
Łódź 2008
Podstawy baz danych – porównanie modeli baz danych
ORDBMS – obiektowo - relacyjne model danych:
Wady:
wciąż nie uniknięto wielu błędów modelu relacyjnego (np. niezgodności impedancji) brak perspektyw na przyszłość produkt hybrydowy "dwa w jednym" (redundancja kodu i danych) brak bazy intelektualnej zmiany wprowadzane ad hoc (kumulowanie błędów koncepcyjnych)
Łódź 2008
Podstawy baz danych – porównanie modeli baz danych
Cecha
RDBMS
ORDBMS
ODBMS
Standard
SQL2 (ANSI X3H2)
SQL3/4
ODMG-v2.0
współpraca z obiektowymi językami programowania
słaba, programiści musza dostosowywać program obiektowy do potrzeb bazy
ograniczona głownie do nowych typów danych
bezpośrednia, szeroko rozumiana
użytkowanie
łatwa do zrozumienia struktura, wiele narzędzi dla użytkowników
zapewnia niezależność danych od aplikacji, trudno odzwierciedlać złożone powiązania
łatwe dla programistów, użytkownikom pozostaje pewien dostęp przez SQL
Łódź 2008
Podstawy baz danych – porównanie modeli baz danych Cecha
RDBMS
ORDBMS
ODBMS
programowanie
zapewnia niezależność danych od aplikacji, trudno odzwierciedlać złożone powiązania
zapewnia niezależność danych od aplikacji, trudno odzwierciedlać złożone powiązania
obiekty w naturalny sposób odzwierciedlają dziedzinę, łatwość modelowania różnorodnych typów i powiązań
głównie ograniczona do nowych typów danych
daje sobie radę z dowolną złożonością dziedziny, użytkownicy mogą pisać metody i dołączać struktury
trudne do zrealizowania
daje sobie radę z dowolną złożonościa dziedziny, użytkownicy mogą pisać metody i dołączać struktury
rozszerzalność
złożone dane i powiązania miedzy nimi
brak
trudne do zrealizowania
Łódź 2008
Podstawy baz danych – porównanie modeli baz danych
Cecha
RDBMS
ORDBMS
ODBMS
"dojrzałość" systemów
bardzo dojrzale, dobrze poznana i przetestowana metodologia, liczne implementacje, stabilność na rynku
niedojrzałe, rozszerzenia są nowe, wciąż ewoluujące i stosunkowo słabo poznane
dość dojrzale (dzięki powszechności OOA i OOD)
przewidywana dla dużych przedsiębiorstw obecnych na rynku
przewidywana dla przedsiębiorstw znanych z RDBMS, dołączają się nowi
na razie trudno prognozować mimo iż sukces modelu obiektowego wydaje się oczywisty
możliwość utrzymania się na rynku
Łódź 2008
Podstawy baz danych – porównanie modeli baz danych RELACYJNE
Cechy podstawowe
Przykłady systemów
•Dane zawarte w tabelach •Tabele składają się z kolumn •Typy - predefiniowalne •Liczba wierszy zmienna •Value-based •Nie ma wskaźników lecz klucze zewnętrzne
Oracle, Informix, Sybase, Ingres, DB2, Progress, Gupta, Access Łódź 2008
OBIEKTOWE
•Obiekt w bazie reprezentuje obiekt w świecie rzeczywistym •Typ obiektowy (klasa): •definicja złożonego typu danych (może zawierać inne typy obiektowe lub ich kolekcje) •procedury (metody) i operatory do manipulowania tymi danymi •Identity-based •Enkapsulacja •Dziedziczenie: •strukturalne: potomek dziedziczy strukturę danych. •behawioralne: potomek dziedziczy metody i operatory GemStone, O2, Persistence, Versant, POET, Objectivity, ODI
Podstawy baz danych – porównanie modeli baz danych
Stan na dzisiaj
Zalety
RELACYJNE
OBIEKTOWE
Dominuje w zastosowaniach komercyjnych (ok. 95% rynku baz danych)
Mniej popularne, jednak dobrze rokują na przyszłość
•niezależność od języka programowania •sprawdzone, dobrze zdefiniowana teoria •możliwość zarządzania wielka ilością danych •możliwość złożonych kryteriów wyszukiwawczych •możliwość dostępu do danych fizycznych •dobre mechanizmy kontroli dostępu do danych •mechanizmy perspektyw Łódź 2008
•dość łatwa reprezentacja świata •dokładnie reprezentuje złożone zależności miedzy obiektami •łatwość działania na złożonych obiektach •duża podatność na zmiany •możliwość definiowania własnych typów, metod •dobra integracja z językami programowania ogólnego przeznaczenia (np. C++, Smalltalk) •ujednolicony model pojęciowy obiektowe podejście do analizy, projektowania i implementacji
Podstawy baz danych – porównanie modeli baz danych RELACYJNE
Wady
OBIEKTOWE
•brak bezpośredniej reprezentacji n-m •dla trudniejszych problemów bardzo dużo tabel •mało naturalna reprezentacja danych •ograniczona podatność na zmiany •brak złożonych typów danych •trudne operowanie na danych złożonych •trudne operowanie na danych rozproszonych w sieci heterogenicznej •niezgodność z modelem używanym przez języki ogólnego przeznaczenia (impedance mismatch) Łódź 2008
•powiązanie z jednym językiem programowania •słaba obsługa przeszukiwania danych •brak powszechnie zaakceptowanego języka zapytań •brak możliwości optymalizacji zapytań •trudny lub nawet niemożliwy dostęp do fizycznych danych •słaba kontrola dostępu •małe możliwości optymalizacji pracy serwera
Podstawy baz danych – porównanie modeli baz danych RELACYJNE
Lepsze gdy...
OBIEKTOWE
•dane są proste, niezagnieżdżone, łatwe do umieszczenia w tablicy •dane mają postać bierna, a procesy korzystające z danych stale się zmieniają •często potrzeba wyszukiwać dane spełniające różnorodne warunki
Łódź 2008
•dane mają złożoną lub zagnieżdżoną strukturę zdefiniowana przez użytkownika •dane tworzą hierarchie •dane są rozproszone w sieci heterogenicznej •dane dynamicznie zmieniają rozmiar