1.5 Problemy ze zbiorem danych

March 21, 2018 | Author: Anonymous | Category: Inżynieria, Informatyka, Data Mining

Short Description

Download 1.5 Problemy ze zbiorem danych...

Description

Paweł Strawiński

1.5

Notatki do ćwiczeń z ekonometrii

Problemy ze zbiorem danych

W praktyce ekonometrycznej bardzo rzadko spełnione są wszystkie założenia klasycznego modelu regresji liniowej. Częstym przypadkiem jest, że zbiór danych którymi dysponujemy posiada pewne niepożądane cechy. 1.5.1

Współliniowość

Zgodnie z założeniami Klasycznego Modelu Regresji Liniowej (KMRL) zmienne objaśniające w modelu powinny być skorelowane ze zmienną objaśnianą i nieskorelowane między sobą. Ale rzeczywiste dane zawsze są w pewnym stopniu skorelowane, więc regresory są współliniowe. Rozpatrzmy prosty model z jedną zmienną objaśnianą y oraz dwiema zmiennymi objaśniającymi (x1 , x2 ). Zgodnie z założeniami KMRL powinny zachodzić następujące zależności: cov(y, x1 ) 6= 0 cov(y, x2 ) 6= 0 cov(x1 , x2 ) = 0 Jest to sytuacja idealna, która z reguły nie występuje gdy obserwacje nie są danymi eksperymentalnymi. Wariancję każdego z esytmatorów modelu można zapisać jako: var(bj ) =

2 (1 − r12 )

σ2 Pn

i=1 (xi,j

− x¯j )2

=

σ2 2 (1 − r12 )Sjj

(1)

Jeśli zmienne objaśniające modelu są silnie skorelowane (korelacja=1) to wariancja estymatora dąży do nieskończoności. Liniowa zależność między regresorami nie jest błędem zbioru danych, jest błędem powstałym podczas tworzenia modelu. Częściej dochodzi do sytuacji, w której występuje wysoka korelacja między zmiennymi objaśniającymi, ale nie jest to dokładna zależność liniowa. W takim przypadku są spełnione założenia KMRL, ale występują następujące problemy: 1. niewielkie zmiany w zbiorze danych powodują duże zmiany w otrzymywanych estymatorach. 2. współczynniki równania regresji mają duże błędy standardowe, oraz mogą być nieistotne statystycznie, nawet gdy łącznie są istotne, a współczynnik R2 modelu jest wysoki 3. współczynniki równania regresji mają „złe”, czyli niezgodne z teorią znaki, albo są zbyt małe lub zbyt duże.

20

Paweł Strawiński

Notatki do ćwiczeń z ekonometrii

Można uogólnić równanie (1) do przypadku wielu zmiennych objaśniających. Niech (x1 , x2 , . . . , xk ) będzie wektorem zmiennych objaśniających. Je2 żeli przez Rk. oznaczymy współczynnik regresji k-tego regresora na pozostałe, to wariancję estymatora bk możemy zapisać jako: var(bj ) =

(1 − rj.2 )

σ2 Pn

i=1 (xi,j

(2)

− x¯j )2

Z powyższego wzoru wynika, że wariancja estymatora parametru βj rośnie wraz ze skorelowaniem j-tego regresora z pozostałymi, a maleje z wariancją j-tej zmiennej. Pakiet STATA wylicza statystykę nazwaną Variance Inflation Factor (VIF). Jest to prosty test oparty na statystyce R2 . V IF =

1 1 − rj.2

(3)

Mierzy on jaka część wariancji estymatora jest powodowana przez to, że zmienna j nie jest ortogonalna względem pozostałych zmiennych objaśniających w modelu regresji. W praktycznych zastosowaniach współliniowość trudno jest odróżnić od innych problemów występujących w modelu. Podobne objawy do współliniowości mogą występować gdy w próbie którą dysponujemy jest mała liczba obserwacji lub zachodzi mała zmienność regresorów. Przykład. Dane pochodzą z artykułu Longleya (1967). Celem artykułu była analiza dokładności procedur obliczających estymatory metodą MNK. Dane te są tak skonstruowane, że występuje w nich problem współliniowości. Jest to model wyjaśniający poziom zatrudnienia za pomocą roku year, deflatora produktu narodowego brutto gnp def, produktu narodowego brutto gnp, oraz zatrudnienia w armii armed forces. Obserwacje pochodzą z lat 1947-1962 i dotyczą gospodarki USA. . reg employment year gnp_def gnp armed_forces Source | SS df MS -------------+-----------------------------Model | 180110100 4 45027525 Residual | 4898726.13 11 445338.739 -------------+------------------------------

21

Number of obs F( 4, 11) Prob > F R-squared Adj R-squared

= = = = =

16 101.11 0.0000 0.9735 0.9639

Paweł Strawiński

Total |

Notatki do ćwiczeń z ekonometrii

185008826

15

12333921.7

Root MSE

= 667.34

-----------------------------------------------------------------------employment | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------year | -576.4642 433.4875 -1.33 0.210 -1530.564 377.6353 gnp_def | -19.76811 138.8927 -0.14 0.889 -325.469 285.9328 gnp | .064394 .0199519 3.23 0.008 .0204802 .1083078 armed_forces | -.0101452 .3085695 -0.03 0.974 -.689302 .6690116 _cons | 1169087 835902.5 1.40 0.189 -670721.5 3008896 ------------------------------------------------------------------------

Gdy pominiemy obserwację z ostatniego roku otrzymamy następujące wyniki: . reg employment year gnp_def gnp armed_forces if year F R-squared Adj R-squared Root MSE

= = = = = =

15 120.99 0.0000 0.9798 0.9717 561.58

-----------------------------------------------------------------------employment | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------year | -721.7562 369.985 -1.95 0.080 -1546.134 102.6218 gnp_def | -181.1226 135.5249 -1.34 0.211 -483.0908 120.8456 gnp | .0910677 .0202608 4.49 0.001 .0459239 .1362116 armed_forces | -.0749372 .2611272 -0.29 0.780 -.6567649 .5068905 _cons | 1459415 714183.1 2.04 0.068 -131883.9 3050714 ------------------------------------------------------------------------

Jak wyraźnie widać z porównania wyników estymacji obu modelu opuszczenie jednej obserwacji powoduje zmianę współczynnika przy zmiennej gdp def o ponad 800% a przy zmiennej armed forces o ponad 600%. Jeżeli policzymy statystyki VIF dla obu modeli to przekonamy się, że wskazują one na znaczną współliniowość zmiennych. . vif Variable | VIF model 1 | VIF model 2 -------------+--------------------------year | 143.46 | 154.08 gnp | 132.46 | 121.53 gnp_def | 75.67 | 87.35 armed_forces | 1.55 | 1.56

22

Paweł Strawiński

Notatki do ćwiczeń z ekonometrii

-------------+--------------------------Mean VIF | 88.29 | 91.13

Na podstawie wyników testu VIF jedynie zmienną armed forces możemy uznać za nieskorelowaną z pozostałymi. Spójrzmy jeszcze na tablicę korelacji między zmiennymi . corr employment year gnp_def gnp armed_forces (obs=16) | employ~t year gnp_def gnp armed_~s -------------+--------------------------------------------employment | 1.0000 year | 0.9713 1.0000 gnp_def | 0.9709 0.9911 1.0000 gnp | 0.9836 0.9953 0.9916 1.0000 armed_forces | 0.4573 0.4172 0.4647 0.4464 1.0000

i tablice wariancji-kowariancji estymatorów modelu. Wariancje i kowariancje są znormalizowane do współczynników korelacji. . vce, corr | year gnp_def gnp armed_~s _cons -------------+--------------------------------------------year | 1.0000 gnp_def | -0.2776 1.0000 gnp | -0.6950 -0.4922 1.0000 armed_forces | 0.4166 -0.2303 -0.2420 1.0000 _cons | -0.9999 0.2674 0.7025 -0.4157 1.0000

Jak widać estymator parametru przy zmiennej gnp jest silnie skorelowany z estymatorem przy zmienniej year i ze stałą modelu. Walka ze współliniowością w modelu jest trudna. Najprostszym sposobem jest zwiększenie liczby obserwacji w modelu. Zmienne które są współliniowe na zbiorze K obserwacji nie muszą być współliniowe na zbiorze K + T obserwacji, bowiem współliniowość w małej próbie może mieć charakter czysto losowy. Innym sposobem, często używanym w praktyce ekonometrycznej, jest wyrzucenie zmiennych, które podejrzewamy o powodowanie współliniowości w modelu. Jest to równoznaczne z przyjęciem założenia, że pomijana zmienna nie ma wpływu na badane zjawisko ekonomiczne. Takie działanie może spowodować problem błędnej specyfikacji modelu, który szczegółowo zostanie omówiony w niedalekiej przyszłości. Upraszczając jeżeli błędnie założymy o zmiennej, że nie występuje w modelu (współczynnik β = 0), a w rzeczywistości jest on statystycznie istotny β 6= 0 to spowoduje to obciążenie pozostałych estymatorów. 23

Paweł Strawiński

Notatki do ćwiczeń z ekonometrii

Kolejnym sposobem jest regresja grzbietowa ridge regression. Do estymatora b dodajemy macierz diagonalną D. Zmodyfikowany estymator ma postać b = (X 0 X + D)−1 X 0 y. W ten sposób powstaje estymator obciążony, ale o mniejszej wariancji. 1.5.2

Obserwacje nietypowe i braki w obserwacjach

Innym dość często występującym problemem zbiorów danych są obserwacje nietypowe lub braki w obserwacjach. Obserwacje nietypowe charakteryzują się dużą resztą czyli różnicą między wartością rzeczywistą a wartością teoretyczną wynikającą z modelu ekonometrycznego. Jest wiele powodów dla których zdarzają się braki. Najczęściej dotyczą one badań przekrojowych, w których osoby badane nie zawsze odpowiadają na wszystkie pytania. W szeregach czasowych danych może brakować ponieważ nie są zbierane w takich odstępach jak sobie życzymy, np. potrzebujemy danych miesięcznych a dostępne są jedynie kwartalne, lub nie zostały zebrane z przyczyn losowych (np. nie można określić PKB dla Polski za lata 1939-45 z powodu wojny). Gdy występują braki w danych trzeba stwierdzić czy ich niedostępność jest niezależna od sposobu badania i występuje z nieznanych powodów, czy może powstaje w skutek nieznanego systematycznego związku ze zjawiskiem które modelujemy. Pierwszy przypadek - nieznany powód braku w danych jest prosty w analizie. W takim wypadku możemy zignorować braki i oszacować model na danych którymi dysponujemy. W drugim przypadku, gdy braki w danych powstają w wyniku samoselekcji - brak odpowiedzi jest powodowany przez czynniki inne od losowych - należy zastosować bardziej zaawansowane techniki estymacji. Na przykład jeśli badamy rozkład dochodów w społeczeństwie to wiemy, że ludzie dużo zarabiający niechętnie przyznają się do swoich dochodów. Dlatego w ankiecie zamieszcza się odpowiedź np. dochód 100.000 zł rocznie i wyższy, a prawdziwy rozkład ludzi o dochodach powyżej tej kwoty jest obliczany za pomocą specjalnego modelu z poprawką Heckmana. 1.5.3

Obserwacje wpływowe

Nawet gdy jesteśmy pewni, że w modelu nie występuje problem współliniowości lub inny problem z danymi, warto jest zbadać właściwości zbioru danych. Identyfikacja obserwacji nietypowych może pomóc w lepszym dopasowaniu modelu. Jezeli taką obserwację wykluczymy ze zbioru danych, współczynniki dopasowania powinny się poprawić. Jest to szczególnie istotne gdy dysponujemy niewielkim zbiorem danych. Po drugie możemy przekonać się które obserwacje mają duży wpływ na wyniki regresji. Zarówno obserwacje 24

Paweł Strawiński

Notatki do ćwiczeń z ekonometrii

nietypowe jak i wpływowe powinniśmy usunąć ze zbioru danych, aczkolwiek niekiedy może to prowadzić do błędnego modelu. Diagnostyka obserwacji wpływowych dostarcza informacji o wiarygodności wniosków wyciąganych na podstawie oszacowanego modelu. Podstawowym narzędziem do wykrywania obserwacji wpływowych jest macierz rzutu P = X(X 0 X)−1 X 0 . Wielkość i-tego elementu tej macierzy jest miarą wpływu i-tej obserwacji. Bowiem: X yˆ = Pi,j yj Element z diagonali Pi określa wpływ i-tej obserwacji na oszacowania parametrów modelu. Ponieważ macierz P jest idempotentna, elementy diagonalne są zawarte w przedziale [0,1]. Reguła kciuka mówi że jeżeli Pii > 0.5 to obserwację należy uznać za wpływową. Innym sposobem jest standaryzacja reszt modelu. Jeżeli każda resztę podzielimy przez jej odchylenie standardowe to otrzymamy statystykę wskazującą na wpływ obserwacji. ei eˆi = se(ei ) Jeżeli ma ona wartość większą od 2 należy uznać ją za wpływową (Greene 2000, p. 61). Oczywiście przy spełnionym założeniu o normalności reszt eˆi ma rozkład t-Studenta z n − Kstopniami swobody. Jednakże nie ma jednolitej praktyki postępowania z takimi obserwacjami. Korzystając z statystyki dźwigni i studentyzowanych reszt można utworzyć szereg statystyk wskazujących na nietypowość obserwacji. Mierzą one wpływ pojedynczych obserwacji na wyniki oszacowań, uwzględniając ich odstawanie od pozostałych. Statystyka DFITS jest iloczynem studentyzowanej reszty i monotonicznej transformacji dźwigni. r r ei hi hi DF IT Si = √ = ri 1 − hi Si 1 − hi 1 − hi q Obserwacje dla których wartość statystyki DFITS przekracza 2 Kn powinny zostać poddane dalszej analizie. Inną statystyką, która mierzy wpływ pojedynczej obserwacji na wyniki regresji jest odległość Cooka (Cook’s Distance). Dana jest ona następującym wzorem: hi 1 e2i ∼ F (2, n − 2) CDi = 2 k S (1 − hi )2 gdzie hi = xi (X 0 X)−1 x0i . S 2 jest estymatorem wariancji, a Si2 tym samym estymatorem obliczonym bez uwzględniania obserwacji i. Jeżeli CD > n4 , gdzie 25

Paweł Strawiński

Notatki do ćwiczeń z ekonometrii

n jest liczebnością próby to uznajemy obserwację za wpływającą na wyniki regresji. Przykład. Sprawdźmy czy w analizowanym przez nas modelu ze współliniowością występują obserwacje o znacznym wpływie. . predict d, cooksd . list if d>4/e(N) +----------------------------------------------------------+ | year gnp_def gnp armed_~s employ~t d | |----------------------------------------------------------| 16. | 1962 116.9 554894 2827 70551 .8829132 | +----------------------------------------------------------+ Pierwsza komenda generuje statystyki Cook’s Distance, druga wyświetla numery obserwacji które według testu należy uznać za podejrzane. Obserwacja z 1962 roku rzeczywiście nie pasuje do pozostałych. Możemy również przeprowadzić analizę graficzną obserwacji wpływowych. . lvr2plot, mlabel (year)

.5

1958 1948 1954

Leverage .3

.4

1947 1949 1951 1952 1955 1960 1953

1961 1950

.2

1959

1957

.1

1956

0

.1

.2 .3 Normalized residual squared

.4

Pionowa linia na rysunku oznacza przeciętną wielkość znormalizowanej reszty, a linia pozioma przeciętny poziom wpływu. Jeżeli są obserwacje o dużej reszcie i dużym wpływie - znalazłyby się w prawym górnym rogu wykresu 26

Paweł Strawiński

Notatki do ćwiczeń z ekonometrii

3000

- to otrzymane oszacowania parametrów modelu mogą być zaburzone przez takie obserwacje. Pokażemy, w jaki sposób pojedyncza obserwacja może wpływać na uzyskiwane wyniki oszacowań. W analizowanym modelu poziom zatrudnienia został uzależniony od czterech zmiennych objaśniających. W celu przedstawienia analizy na rysunku ograniczymy model do dwóch zmiennych employment i gnp. W celu wyeliminowania trendu zawartego w zmiennych, obie zostały zróżnicowane, czyli zostały obliczone przyrosty wartości zmiennych.

2000

1955

1953

zmiana zatrudnienia 0 1000 −1000

1959

1951

1956

1960 1952

1962 1950 1948 1957

1961

1949 1954

−2000

1958

0

10000

20000 zmiana pkb

30000

40000

Ciągła linia przedstawia wartości dopasowane z modelu obliczonego na podstawie pełnej próby, linia przerywana na podstawie próby nie zawierającej obserwacji z roku 1962. Wyeliminowanie obserwacji z dużą resztą leżącej poniżej linii regresji powoduje zwiększenie kąta nachylenia linii regresji, czyli wartości parametru β. Zmiana jest dość znaczna, ponieważ obserwacja posiadała stosunkowo duży wpływ na wyniki regresji (miała wysoką statystykę dźwigni). 1.5.4

Przykładowe zadania

Zadanie 1. Rozważmy następujący model popytu na pieniądz: Mt = α0 + α1 X1t + α2 X2t + α3 X3t + εt gdzie: • X1t = rt stopa procentowa 27

Paweł Strawiński

Notatki do ćwiczeń z ekonometrii

• X2t = rt−1 opóźniona stopa procentowa • X3t = rt − rt−1 miara korekty oczekiwań wynikająca z ostatniej zmiany stopy procentowej • εt składnik losowy Czy parametry powyższego modelu można oszacować za pomocą MNK? Odpowiedż. Nie, ponieważ zmienna X3 jest z definicji kombinacją liniową zmiennych X1 oraz X2 . Wobec tego w modelu wystąpi współliniowość. Natomiast po wyeliminowaniu jednej ze zmiennych objaśniających model można oszacować za pomocą MNK. Zadanie 2. W skład koncernu wchodzą 23 przedsiębiorstwa wytwarzające ten sam wyrób. Cena zbytu tego wyrobu jest identyczna we wszystkich przedsiębiorstwach. Zbudowano model liniowy opisujący zależność poziomu płac od produkcji w sztukach (X1 ) oraz od wartośći produkcji w mln USD (X2 ). Czy na podstawie danych dotyczących poszczególnych przedsiębiorstw i pochodzących z tego samego okresu (dane przekrojowe) można oszacować parametry tego modelu za pomocą MNK? Odpowiedź. Nie można oszacować parametrów tego modelu, ponieważ jeżeli cena jest jednakowa we wszystkich przedsiębiorstwach, to zachodzi zależność liniowa między wartocią produkcji w mln USD (X2 ) a poziomem płac X2 = pX1 . Zatem w modelu występuje dokładna współliniowość. Zadanie 3. Pokaż, że w KMRL ortogonalizacja macierzy obserwacji X usuwa problem współliniowości z modelu. Odpowiedź. Załóżmy, że macierz X ma dwie nieortogonalne zmienne x1 , x2 . Wte2 = corr(x1 , x2 ) > 0. Wobec tego są one dy współczynnik częściowego Rx1x2 28

Paweł Strawiński

Notatki do ćwiczeń z ekonometrii

współliniowe. Jeśli zortogonalizujemy macierz X to otrzymamy nową parę 2 zmiennych x1 , x∗2 . Współczynnik regresji cząstkowej Rx1x2 ∗ = 0. ponieważ ∗ zmienne są ortogonalne, więc corr(x1 , x2 ) = 0. Analogiczne rozumowanie możemy przeprowadzić dla dowolnej liczby zmiennych. Wobec tego ortogonalizacja macierzy usuwa problem współliniowości.

Literatura [1] William H. Greene (2003) Econometric Analysis, 5th edition. [2] Józef Dziechciarz (2000) Zbiór zadań z ekonometrii, Wydawnictwo akademii Ekonomicznej im. Oskara Langego. [3] Jerzy Mycielski (2000) Notatki do ćwiczeń z ekonometrii, WNE.

29

1.5 Problemy ze zbiorem danych

Short Description

Description

Comments