rodzaje danych

March 20, 2018 | Author: Anonymous | Category: Inżynieria, Informatyka, Data Mining
Share Embed


Short Description

Download rodzaje danych...

Description

TERMINOLOGIA

Przypadki i zmienne: Przypadki są odpowiednikami rekordów w bazach danych lub wierszy w arkuszach kalkulacyjnych. Zmienne są zaś odpowiednikami pól lub kolumn. Każdy przypadek jest zbiorem wartości zmiennych.

TERMINOLOGIA

PRZYPADEK

ZMIENNA

ETAPY ANALIZY STATYSTYCZNEJ

WYNIKI

POPULACJA

PRÓBKA OBLICZENIA

POMIARY

ANALIZA

ETAPY ANALIZY STATYSTYCZNEJ

WYNIKI

POPULACJA

PRÓBKA OBLICZENIA

POMIARY

ANALIZA

PRÓBKA WYBÓR PRÓBKI: Próbka wybrana do badania musi być odpowiednia

Wybór próbki jest kluczowy etapem z punktu widzenia wiarygodności końcowych wyników

DOBRZE POBRANA PRÓBKA JEST REPREZENTATYWNA!!!

REPREZENTATYWNOŚĆ PRÓBKI Próbka reprezentatywna: w dobry sposób odzwierciedla populację, z której została pobrana

Dla zapewnienia reprezentatywności konieczna jest odpowiednia liczebność próbki. Im większa próbka, tym bardziej wiarygodne wyniki. Uwaga! Liczności nie można zwiększać w nieskończoność (koszty analiz!). Należy szukać optimum pomiędzy kosztami a wiarygodnością wyników.

Liczebność próby Przeprowadzając badania z populacji generalnej pobieramy próbę:

n  100 n  30 10  n < 30 n < 10

próba b. duża próba duża próba mała próba b. mała

RODZAJE DANYCH Dana: każda informacja opisująca badane zjawisko/obiekt

Typy danych:  dane kategorialne (uzyskiwane przy ocenie metodą alternatywną)  dane liczbowe (pochodzące z pomiarów)

RODZAJE DANYCH Typy danych: dane kategorialne Uzyskuje się je w przypadkach:  dzielenia (klasyfikowania) przedmiotów na kategorie  zliczania liczby przedmiotów w danych kategoriach  zliczania proporcji przedmiotów  zliczania liczby braków/obecności

RODZAJE DANYCH

Typy danych: dane kategorialne Są one często wykorzystywane w praktyce, bo do ich zebrania zazwyczaj nie potrzeba skomplikowanych i dokładnych urządzeń pomiarowych. Przykład: klasyfikacja czystości wody, stwierdzanie braku/obecności danego gatunku ryby w jeziorze

RODZAJE DANYCH Typy danych: dane kategorialne

Zwykle stosuje się 2 kategorie: brak i obecność. Można jednak stosować więcej kategorii, które odzwierciedlać będą jakość.

Przykład: klasy czystości wód I, II, III. Klasa Inajwyższej jakości, klasa III- najgorszej.

RODZAJE DANYCH Typy danych: dane kategorialne Zalety:  prostota czytelność otrzymanych wyników Wady:  nieprecyzyjność

RODZAJE DANYCH Typy danych: dane liczbowe

Uzyskuje się je w przypadkach:  pomiarów cechy obiektu badań  przeliczania numerycznych wartości z dwóch lub więcej pomiarów liczbowych Wymóg: korzystanie z urządzeń pomiarowych

PREZENTOWANIE DANYCH Najprostszy sposób: spisywanie w rzędzie np.: 5,6,9,11,6,7,7,6,5,9,7,8,7,6,7,8,4,8,7,8,10,10,9,7,8,... Ten zapis jest nieczytelny i mało użyteczny

PREZENTOWANIE DANYCH

Użyteczne metody prezentacji danych:  tabela częstości wystąpień (liczności)  histogram

 wykres punktowy

PREZENTOWANIE DANYCH Tabela częstości wystąpień Wartość danej

Wystąpienie danej

Liczba wystąpień

3

0

4

2

5

3

6

5

7

1

PREZENTOWANIE DANYCH Tabela częstości wystąpień Z tabeli takiej można łatwo odczytać:

 ile pomiarów o danej wartości zarejestrowano  która wartość powtarzała się najczęściej  w jakim zakresie pojawiają się dane (minimum i maksimum)

PREZENTOWANIE DANYCH Histogram

Jest pewnym rozwinięciem tabeli liczności. Szczególnie przydatny do prezentowania dużej ilości danych liczbowych i kategorialnych.

PREZENTOWANIE DANYCH Histogram 31,820

33,100

33,780

34,650

34,870

35,530

36,750

32,010

33,120

33,790

34,690

34,880

35,620

36,680

32,010

33,260

33,790

34,690

34,900

35,780

36,780

32,050

33,260

33,790

34,720

34,920

35,790

36,850

32,230

33,280

33,820

34,720

34,960

35,860

38,520

32,600

33,300

33,820

34,810

35,090

36,120

32,950

33,360

33,860

34,810

35,120

36,250

33,030

33,540

33,950

34,810

35,160

36,560

33,050

33,560

34,210

34,860

35,280

36,560

33,060

33,750

34,220

34,870

35,290

36,590

PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu:

1. Posortowanie danych w porządku od najmniejszej do największej: nasze dane są już tak ustawione 2. Wyznaczenie wartości najmniejszej i największej: w naszym zbiorze wartość najmniejsze xmin=31,820, wartość największa xmax=38,520

PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 3. Obliczenie szerokości zakresu, w jakim pojawiają się dane (rozstępu): R=xmax-xmin=38,520-31,820=6,7 4. Wyznaczenie liczby przedziałów: ilość przedziałów= pierwiastek(ilość pomiarów) =pierwiastek(65)=8,068 UWAGA! Zasady tej nie stosujemy przy dużej liczbie pomiarów (>100). Zasadniczo liczba przedziałów powinna się mieścić w przedziale

PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 5. Ustalenie szerokości przedziałów: szerokość przedziału=rozstęp/l-ba przedziałów =6,7/8=0,831 Otrzymaną wartość zaokrąglamy w taki sposób, aby narysowany histogram był jak najbardziej czytelny (tutaj do wartości 1)

PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 6. Rozpisanie przedziałów i obliczenie, ile w każdym z nich znajduje się wyników: Przedział wartości

Ilość wyników w przedziale

(31,32]

1

(32,33]

6

(33,34]

21

(34,35]

17

(35,36]

10

(36,37]

9

(37,38]

0

(38,39]

1

PREZENTOWANIE DANYCH Histogram Procedura rysowania histogramu: 6. Narysowanie wykresu: w zależności od liczby wyników w poszczególnych przedziałach, rysuje się odpowiednią wysokość słupka.

PODSTAWY – DANE I ICH PREZENTACJA

PREZENTOWANIE DANYCH Histogram

Ilość wystąpień

.

25

20

15

10

5

0 (31,32]

(32,33]

(33,34]

(34,35]

(35,36]

Przedział

(36,37]

(37,38]

(38,39]

Typy rozkładów (histogramów)

Typy rozkładów (histogramów)

Amodalny = skrajnie asymetryczny

Typy rozkładów (histogramów)

PODSTAWY – DANE I ICH PREZENTACJA

PREZENTOWANIE DANYCH Wykres punktowy Tabela Uziarnienie w zależności od obrotów młyna. Pomiary w próbce

Obroty młyna [obr/min] 1415

1430

1445

1460

1480

1

32,76

33,37

36,54

36,20

36,74

2

32,72

33,11

35,11

36,58

36,40

3

32,70

33,15

36,02

35,24

36,43

4

32,69

33,25

35,59

36,14

36,72

5

32,67

33,20

36,03

35,52

36,55

PODSTAWY – DANE I ICH PREZENTACJA

PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36

Uziarnienie

35.5 35 34.5 34 33.5 33 32.5 32 1410

1420

1430

1440

1450

1460

1470

1480

1490

Obroty [obr/min]

Rys. Wykres punktowy zależności pomiędzy uziarnieniem a obrotami młyna.

PODSTAWY – DANE I ICH PREZENTACJA

PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36

Uziarnienie

35.5 35 34.5 34 33.5 33 32.5 32 1410

1420

1430

1440

1450

1460

1470

1480

1490

Obroty [obr/min]

 im większe obroty młyna tym większe uziarnienie

PODSTAWY – DANE I ICH PREZENTACJA

PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36

Uziarnienie

35.5 35 34.5 34 33.5 33 32.5 32 1410

1420

1430

1440

1450

1460

1470

1480

1490

Obroty [obr/min]

 Przy obrotach 1450 i 1460 największa zmienność uziarnienia

PODSTAWY – DANE I ICH PREZENTACJA

PREZENTOWANIE DANYCH Wykres punktowy 37 36.5 36

Uziarnienie

35.5 35 34.5 34 33.5 33 32.5 32 1410

1420

1430

1440

1450

1460

1470

1480

1490

Obroty [obr/min]

 uziarnienie najbardziej jednorodne przy 1415 obrotach na min

STATYSTYKI OPISOWE Miary położenia:  średnia arytmetyczna- przeciętna w próbie; inaczej: wartość oczekiwana x1  x2  ...  xn 1 n xśr    xi n n i 1

 rzadko wykorzystywane: średnia geometryczna, średnia harmoniczna, średnia ważona

STATYSTYKI OPISOWE Miary położenia: mediana: wartość środkowa w ciągu danych; wartość, która dzieli wyniki próby na dwie części takie, że przynajmniej połowa próby ma wynik mniejszy niż mediana  moda (dominanta): wartość występująca najczęściej w zbiorze danych

STATYSTYKI OPISOWE Miary zmienności (pokazują rozproszenie wyników)  wariancja- zróżnicowanie wyników, de facto jest ona równa kwadratowi odchylenia standardowego n 1  2   ( xi  xśr ) 2 n i 1

 odchylenie standardowe- przeciętna różnica między średnią a poszczególnymi wynikami

 

2

UWAGA! Powyższe wzory obowiązują, pod warunkiem, że mamy możliwość zbadania całej populacji, co jest PRAWIE NIGDY SPEŁNIONE

STATYSTYKI OPISOWE

Miary zmienności (pokazują rozproszenie wyników) Ponieważ opisujemy rozkład opierając się jedynie na pewnej próbce wyników, pobranej z populacji, stosuje się estymator:

1 n 2 s ( x  x )  i śr n  1 i 1

View more...

Comments

Copyright © 2017 DOCUMEN Inc.