Zaawansowana Analiza Danych Specjalność uzupełniająca Katedry Inżynierii Oprogramowania
Kogo kształcimy? Analityk biznesowy Programista
• systemy zarządzania wielkimi danym, • stos technologii, • komponenty
Projektant
• platformy programistyczne, • architektury, • organizacja nierelacyjnych baz danych
• potrzeby i możliwości w zakresie analizy danych, • istniejące narzędzia i systemy
Analityk danych
• algorytmy eksploracji danych, • wizualizacja i interpretacja wyników
Prowadzone przedmioty Przedmioty specjalnościowe
w
l
p
1
Platformy przetwarzania typu Big Data
15
30
15
2
Zaawansowane techniki eksploracji danych
3
Zaawansowane technologie nierelacyjnych baz danych
30
15
30
30
ECTS semestr Egzamin 4
1
2
1
5
2
+
Laboratorium przetwarzania danych typu Big Data 4 serwery tworzące klaster o następujących parametrach 1.
CPU 128 rdzeni/ 256 wątków
2.
HDD 22,7 TB
3.
RAM 0,6 TB
Klaster ufundowany przez firmę INTEL
Platformy przetwarzania typu Big Data dr inż. Adam Przybyłek Program przedmiotu
W ramach przedmiotu omówione zostaną 3 platformy programistyczne dostarczające wysokopoziomowe API do równoległego przetwarzania ogromnych zbiorów danych na klastrach komputerowych. Apache Hadoop (MapReduce)
Apache Storm
przetwarzanie wsadowe
przetwarzanie danych strumieniowych w czasie rzeczywistym
Apache Spark in-memory framework do przetwarzania iteracyjnego i interaktywnego integruje przetwarzanie wsadowe, przetwarzanie w czasie rzeczywistym, SQL, uczenie maszynowe oraz złożone analizy
Platformy przetwarzania typu Big Data Praktyka Przykładowy kod Python zliczający wyrazy przy wykorzystaniu API Spark
textFile = sc.textFile("/data/gutenberg/ulysses.txt") words = textFile.flatMap(lambda line: line.split(" "))
Zaawansowane techniki eksploracji danych dr inż. Paweł Kapłański
Data Science
Zaawansowane techniki eksploracji danych Cel przedmiotu
Wprowadzenie studentów w tematykę (1) eksploracji oraz (2) wizualizacji dużych zbiorów danych z (3) użyciem skalowalnego klastra obliczeniowego przy wykorzystaniu (4) nowoczesnych języków funkcyjnych oraz pakietów statystycznych. Utworzony na podstawie http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Zaawansowane techniki eksploracji danych Program przedmiotu
Przedmiot będzie odbywał się w trybie warsztatów na platformie TAP udostępnionej przez firmę Intel. Pokażemy następujące metody, używając metod statystycznych programowanych w językach funkcyjnych: 1.
Przygotowywanie danych (wbrew pozorom jest to bardzo ważne)
2.
Model rekomendacyjny (rekomendacja muzyki) oraz ocena jakości rekomendacji
3.
Model drzewa decyzyjnego (prognozowanie zalesienia), dobór hiperparametrów modelu oraz wizualizacja danych
4.
Wykrywanie anomalii (cyberataki)
Zaawansowane technologie nierelacyjnych baz danych dr inż. Teresa Zawadzka Program przedmiotu Przedmiot prowadzony w formie warsztatów i projektów. Hurtownie dużych danych Dokumentowa baza danych – rozpraszanie danych
Pełnotekstowe bazy danych Bazy grafowe – algorytmy grafowe w rozproszeniu