Након што смо идентификовали тренд и сезонску компоненту, можемо десезонизовати времеснку серију и уклонити тренд. То оставља случајну компоненту, која није нужно моделована независним случајним величинама. У многим случајевима, узастопне опсервације ће бити корелисане. Ако идентификујемо такве корелације, можемо побољшати наше прогнозе. Корелациона структура модела временских серија је дефинисана акорелационом функцијом, коју оцењујемо на основу реализованих опсервација временске серије.
Бели шум
У анализи временских серија важну улогу игра најједноставнији могући стационарни низ - бели шум. Случајни низ \(\{e_t,t\in\mathbb{Z}\}\) је бели шум ако важе услови:
- \(E(e_t) = 0\), \(t\in\mathbb{Z}\);
- \(D(e_t) = E(e_t^2) = \sigma^2=const,\) \(t\in\mathbb{Z}\);
- \(cov(e_t,e_{t-k})=E(e_t,e_{t-k})=0\), \(t\in\mathbb{Z}\), \(k\in\mathbb{Z}\), \(k\neq 0\).
Ако су, додатно, \(e_t\), \(t\in\mathbb{Z}\) независне случајне величине са заједничком нормалном расподелом, у питању је Гаусов бели шум.
Након што временску серију уклопимо у неки модел (моделе ћемо касније дефинисати), идеално је да разлика реализоване вредности и вредности предвиђене моделом буде бели шум.
x <- seq(-3, 3, length = 1000)
hist(rnorm(100), prob = TRUE)
points(x, dnorm(x), type = "l") # функцијом points на већ постојећи график додајемо тачке
curve(dnorm(x), xlim = c(-3,3), add = TRUE) # други начин за додавање густинеw <- rnorm(500,0,1) # 500 опсервација са нормалном N(0,1) расподелом
# MA белог шума - изравнавање серије
v <- filter(w, sides=2, rep(1/12,12)) # аналогно имплементираној функцији МА
v## Time Series:
## Start = 1
## End = 500
## Frequency = 1
## [1] NA NA NA NA NA
## [6] -0.1024081883 -0.1955871294 -0.1848830012 -0.1171405686 -0.2120321621
## [11] -0.2013550413 -0.0106620875 0.1238352561 0.1282671317 0.1570279386
## [16] 0.1381262227 -0.0151204437 -0.0030990249 0.1589461280 0.2245788930
## [21] 0.2296424864 0.2926568619 0.1291535062 0.0562307030 -0.1129418942
## [26] -0.0946350663 -0.0124803165 0.0240609495 0.0911517374 0.1600839227
## [31] -0.0140298123 -0.1163704922 -0.2110345569 -0.3032016155 -0.2792747528
## [36] -0.3909860257 -0.3225491544 -0.3576776418 -0.4524485800 -0.4237602295
## [41] -0.4565300557 -0.3862704722 -0.2740332344 -0.1919013305 -0.1386666635
## [46] 0.0466765956 0.1904777159 0.3502750875 0.3800281664 0.3090628368
## [51] 0.4209424395 0.5347185406 0.6973081288 0.7768940284 0.6481914027
## [56] 0.6597491879 0.7075441031 0.5951916389 0.4716095182 0.3458740619
## [61] 0.2103375702 0.2474713616 0.2473471213 0.1590610340 -0.0329679961
## [66] -0.3279751954 -0.2576710865 -0.1682021732 -0.1638650000 -0.1596406661
## [71] -0.0067277334 0.0644222053 0.3236114369 0.3245727666 0.1424182995
## [76] 0.2039323402 0.1497568136 0.3555796095 0.3803515835 0.2745215893
## [81] 0.2966415136 0.3183070855 0.2303801007 0.2455310491 0.1580339204
## [86] 0.2503098248 0.1390753856 0.0462683416 0.0868816186 0.0587169727
## [91] 0.1645969190 0.1457927583 0.1373923106 0.0678664545 0.0918749936
## [96] 0.0154292777 0.1459044756 0.0237998490 0.2412945111 0.1340449080
## [101] 0.1489223896 0.0407361683 -0.1196541096 -0.0395048188 -0.1807045342
## [106] -0.1878179860 -0.2267308859 -0.1572647215 -0.2475918343 -0.1584982091
## [111] -0.2074425754 -0.0412489995 -0.0497672241 -0.0937634718 -0.1083725716
## [116] -0.1085232808 0.0254084852 0.1258115598 0.0553215834 0.1348689461
## [121] 0.1115121436 0.0510206036 0.2160388773 0.0895217567 0.0685206817
## [126] 0.2929763751 0.2707447179 0.2710502447 0.2157698142 0.0756335687
## [131] 0.0988637729 -0.0354549806 -0.1556234981 -0.1017605852 -0.3255143943
## [136] -0.4076484620 -0.2071692454 -0.3372792566 -0.2124195237 -0.3290522283
## [141] -0.3840156741 -0.2453293912 -0.4109516133 -0.1934743659 -0.2219877982
## [146] -0.3909571468 -0.4908668264 -0.2828469590 -0.4928453167 -0.4585364612
## [151] -0.6245078539 -0.5072059870 -0.4301639420 -0.4527275988 -0.3308974064
## [156] -0.4433936797 -0.2304767808 0.0396229854 0.3384202303 0.3143648695
## [161] 0.4102301639 0.3437009714 0.4528809249 0.5120032775 0.5936846251
## [166] 0.4262325384 0.5504162745 0.3656954226 0.2426089060 0.1362811967
## [171] 0.0033628435 0.0198173951 -0.1579906157 0.0523327539 0.1906325183
## [176] 0.1877579051 -0.0033323726 0.0839806913 -0.0066708681 0.0806981697
## [181] 0.1517056006 0.1394361367 0.1896602008 0.0199761170 0.2123711068
## [186] 0.0632762594 -0.1474086632 -0.2064845804 -0.2057619036 -0.1872146857
## [191] -0.0231352552 -0.0863433476 -0.2917660969 -0.2539429080 -0.1420281484
## [196] 0.0401936232 -0.0645454041 -0.0274690542 0.0470501662 0.0454800166
## [201] 0.1617486905 0.1534635338 0.0755160504 0.0983751062 0.1322700319
## [206] 0.1715233695 -0.0020174983 -0.0244909706 -0.0609629394 -0.0989149257
## [211] -0.1453784020 -0.1221047355 -0.0555591652 -0.0122806754 0.0880511528
## [216] 0.1397666853 0.1800005975 0.0627470328 0.1707955345 0.2038859808
## [221] 0.2300225113 0.2203200255 0.2302500127 0.0572069409 -0.0122723216
## [226] 0.0104809295 -0.1336229501 -0.0264861061 0.0353388992 0.0022720513
## [231] -0.1611498431 -0.2235342662 -0.3678135862 -0.3523728608 -0.4013955247
## [236] -0.3601771688 -0.2562042944 -0.3813873922 -0.3535199023 -0.4340441894
## [241] -0.4535839305 -0.3662979257 -0.3716791475 -0.5294106271 -0.3182117203
## [246] -0.1863033936 0.0229717071 0.1702194231 0.0084900298 0.0458097514
## [251] -0.0001649271 0.0242632116 -0.1111064705 -0.2485710277 -0.0672126848
## [256] -0.0066723287 -0.0709307439 -0.1583463395 -0.3081645280 -0.4557850793
## [261] -0.2311650960 -0.0421069644 0.1592889027 0.1084059782 0.2016368487
## [266] 0.3572287925 0.2750945490 0.4699478377 0.4536344927 0.6480569533
## [271] 0.6497020207 0.6754119465 0.5032646446 0.2462837698 0.1446124336
## [276] 0.2568336196 0.2884440272 0.3021664219 0.0979933922 0.0274599959
## [281] 0.0972190542 -0.1088682380 -0.0067072094 -0.0226834859 0.0238272563
## [286] 0.1674462714 0.2716624087 0.1014095190 0.1300180630 0.0621833597
## [291] 0.3194840019 0.3631850416 0.2903382516 0.3541215766 0.3201344761
## [296] 0.5437664176 0.2707928781 0.1078493650 -0.0446649977 -0.0338072171
## [301] -0.1061973153 -0.0352172055 -0.2023613817 -0.4166927324 -0.3765080511
## [306] -0.4707785609 -0.4305883173 -0.6368671040 -0.5171172920 -0.3563080078
## [311] -0.3296703319 -0.1751012766 -0.0690664318 -0.1740864133 -0.0736108045
## [316] -0.0007001130 0.1131884712 0.2027530772 -0.0016785531 0.0309176995
## [321] 0.1154548336 0.0134264138 -0.0769414848 -0.0119195683 0.0143650393
## [326] 0.0196388040 0.1164719329 0.1712486848 0.0704105521 -0.0200512836
## [331] 0.0708198616 0.2231745251 0.0872181166 0.1000070786 0.3529917537
## [336] 0.2827229601 0.2129240408 0.0995767425 0.0491404226 0.1496208351
## [341] 0.1381023937 0.1856984237 0.1514681851 -0.0758531721 0.0059106774
## [346] 0.0618814630 -0.1178355744 -0.2449177845 -0.2995719412 -0.1310769965
## [351] -0.1416080001 -0.2116213372 -0.2893003719 -0.4248477967 -0.3527913614
## [356] -0.3820957910 -0.2062295944 -0.3221620047 -0.4109824171 -0.4981719221
## [361] -0.5793903678 -0.6399287512 -0.5779070462 -0.6052856221 -0.5974202088
## [366] -0.4938562647 -0.5480054163 -0.5057706661 -0.7199060266 -0.6090095926
## [371] -0.7663217975 -0.7914062352 -0.5878426018 -0.3704576970 -0.5220087796
## [376] -0.4330002037 -0.2758506974 -0.2451218957 -0.1536132087 -0.0112218212
## [381] -0.0316936896 -0.0363340590 0.1477705590 0.3365170798 0.1536191380
## [386] -0.1248467153 -0.1053516338 -0.0828422434 -0.1938547480 -0.2063912022
## [391] -0.2591904479 -0.4359553433 -0.1501140190 -0.1537536784 0.0487180821
## [396] 0.0690219862 0.2230327806 0.3222024183 0.3292219878 0.2580071378
## [401] 0.2010392566 0.2722539206 0.2527073217 0.4807275789 0.4976004293
## [406] 0.6826383250 0.5880756580 0.5446745052 0.4931677193 0.5317431553
## [411] 0.7685344236 0.7164267259 0.7945603103 0.6088350482 0.5776593595
## [416] 0.3952478033 0.2340382224 0.0542153644 -0.0031570221 0.0581289494
## [421] -0.0303768458 -0.1191902944 -0.1990610550 -0.1591637376 -0.0505490694
## [426] 0.0183485093 0.0459966803 0.1012575295 0.1988932268 0.3296538937
## [431] 0.3659672185 0.3763544178 0.3997648466 0.3931436966 0.3702450072
## [436] 0.4318857831 0.3334839952 0.3432366941 0.4235002924 0.4648072526
## [441] 0.3490504441 0.2197408799 0.1754400686 0.0670589690 0.0921767067
## [446] 0.0058801551 -0.0682603764 -0.1413122990 -0.1726116539 -0.0792290992
## [451] -0.1510149083 -0.3386196370 -0.3869596345 -0.3661459397 -0.3635671242
## [456] -0.1955175714 -0.0490122957 0.0658541226 0.2122407009 0.2967102914
## [461] 0.4592574179 0.4247523560 0.2497784547 0.3004080777 0.4396053950
## [466] 0.4757586058 0.4506508425 0.2810356343 0.1447817128 0.1420141560
## [471] 0.0179912889 -0.0794709159 -0.2796307893 -0.3326964400 -0.0906827929
## [476] 0.0105448692 -0.0710053238 -0.0335381852 -0.1406018464 -0.1347324504
## [481] -0.1010967891 -0.1326588981 -0.0378426735 0.0221291759 0.0245145683
## [486] 0.2211072371 0.2069039256 0.3292714822 0.1507162790 0.0834714377
## [491] 0.1735163413 0.3015499618 0.2908638677 0.1968718066 NA
## [496] NA NA NA NA NA
Видимо да је друга временска серија мирнија по понашању.
Брауново кретање (Винеров процес)
Случајни процес \(\{W(t),\, t \geq 0\}\) је Винеров процес ако има следеће особине:
- \(W(0)=0\) скоро сигурно;
- процес \(\{W(t),\, t \geq 0\}\) има независне прираштаје;
- за све \(0\leq s<t\leq +\infty\) важи \(W(t)-W(s) \in \mathcal{N}(0,t-s)\).
Ако је \(\{W(t),\, t \geq 0\}\) Винеров процес, тада је \(\{e^{W(t)},\, t \geq 0\}\) геометријско Брауново кретање, које се користи као један од модела за цене акција у финансијској математици.
За симулацију Брауновог кретања користи се \(B_0=0\), независност прираштаја и расподела \(B_t-B_s\). Ако хоћемо да симулирамо, ограничени смо дискретним временом.
# у 1000 тачака апроксимирати Брауново кретање на интервалу [0,1000]
# прираштаји на временском интервалу дужине k имају N(0,k) расподелу
x <- w <- rnorm(1000)
for (t in 2:1000) x[t] <- x[t - 1] + w[t]
plot(x, type = "l")# Брауново кретање [0,1]
t <- seq(0, 1, 0.001) # 1001 подеона тачка
B <- vector()
B[1] <- 0
for(i in 1:1000){
B[i+1] <- B[i] + rnorm(1, 0, 0.001) # сада прираштај између суседних тачака
# има расподелу N(0,0.001), а малопре је имао N(0,1)
}
plot(t, B, type="l")Корелација
У моделима које ћемо касније изучавати важан је појам корелације, јер се у тим моделима претпоставља да садашња вредност зависи од вредности из прошлости. Ако одредимо ту корелацију, то нам може помоћи у прогнозирању и бољем уклапању модела. Коваријација две случајне величине је мера њихове линеарне зависности.
- Kоваријација (коваријанса) случајних величина \(X\) и \(Y\) је \[cov(X,Y) = E[(X-EX)(Y-EY)] = E(XY)-EXEY.\]
- Нека су \(X\) и \(Y\) случајне величине такве да је \(DX>0\) и \(DY>0\). Коефицијент корелације случајних величина \(X\) и \(Y\) је \[\rho_{X,Y} = \frac{cov(X,Y)}{\sqrt{DX}\sqrt{DY}}.\]
- Нека је \((x_i, y_i)\), \(i=1,2,\dots,n\) низ парова реализованих опсервација обележја \(X\) и \(Y\) за узорак обима \(n\). Узорачка коваријација је \[cov(x,y) = \frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x}_n)(y_i-\bar{y}_n),\] док је узорачки коефицијент корелације дат са \[\rho_n = \frac{\sum\limits_{i=1}^n (x_i-\bar{x}_n)(y_i-\bar{y}_n) }{\sqrt{\sum\limits_{i=1}^n (x_i-\bar{x}_n)^2}\sqrt{\sum\limits_{i=1}^n (y_i-\bar{y}_n)^2}}.\]
Herald Square in Manhattan
У бази Herald налазе се подаци о концентрацији бензоапирена и
угљен-моноксида у 16 узорака ваздуха на Хералд тргу на Менхетну. Оба су
канцерогени угљоводоници и налазе се у издувним гасовима аутомобила. У
\(R\) можемо израчунати узорачку
коваријацију са имениоцем \(n - 1\) по
дефиницији или користећи уграђену функцију cov. Ако
користимо функцију mean, имплицитно делимо са \(n\).
## CO Benzoa
## 1 2.8 0.5
## 2 15.5 0.1
## 3 19.0 0.8
## 4 6.8 0.9
## 5 5.5 1.0
## 6 5.6 1.1
## 7 9.6 3.9
## 8 13.3 4.0
## 9 5.5 1.3
## 10 12.0 5.7
## 11 5.6 1.5
## 12 19.5 6.0
## 13 11.0 7.3
## 14 12.8 8.1
## 15 5.5 2.2
## 16 10.5 9.5
attach(Herald)
x <- CO
y <- Benzoa
n <- length(x)
sum((x - mean(x))*(y - mean(y))) / (n - 1) # узорачка коваријација## [1] 5.511042
## [1] 5.511042
## [1] 5.166602
## [1] 0.3550973
## [1] 0.3550973
Ако су парови тачака \((x_i,y_i)\) приказани на графику, праве \(x=\bar{x}\) и \(y=\bar{y}\) деле график на четири квадранта. Тачке у доњем левом квадранту имају обе вредности \(x_i-\bar{x}_n\) и \(y_i-\bar{y}_n\) негативне, па је производ који доприноси коваријацији позитиван. Тачке у горњем десном квадранту такође дају позитиван допринос. Насупрот томе, тачке у горњем левом и доњем десном квадранту дају негативан допринос коваријацији.
Аутоковаријациона и аутокорелациона функција
Познато је да слабо стационарни процеси имају константну функцију средње вредности.
Претпоставка строге стационарности је веома јака и тешко би било испитати да ли је нека серија реализација строго стационарна. Зато се испитује слаба стационарност. Од сада стационарним процесом зовемо слабо стационарне процесе.
Аутоковаријациона и аутокорелациона функција су основни алати за одређивање модела стационарне временске серије.
Нека је \(\{X_t, \, t\in\mathbb{N}\}\) слабо стационарна временска серија и \(E(X_t)=\mu\).
Аутоковаријациони коефицијент са кашњењем \(k\) је
\[\gamma_k = cov(X_t,X_{t-k})=E(X_t-\mu)(X_{t-k}-\mu), \quad k=0,1,2,...\] Низ \(\gamma_0, \gamma_1, \gamma_2, \dots\) је аутоковаријациона функција.Аутокорелациони коефицијент са кашњењем \(k\) је \[\rho_k = \frac{cov(X_t,X_{t-k})}{\sqrt{DX_t}\sqrt{DX_{t-k}}}=\frac{\gamma_k}{\gamma_0}, \quad k=0,1,2,...\] Низ \(\rho_0, \rho_1, \rho_2, \dots\) је аутокорелациона функција. Њен графички приказ зове се корелограм.
Узорачка оцена аутоковаријационе функције \[\bar{\gamma_k} = \frac{1}{n}\sum_{t=k+1}^{n}(x_t-\bar{x})(x_{t-k}-\bar{x}), \quad k=0,1,2,...\]
Узорачка оцена аутокорелационе функције \[\bar{\rho_k} = \frac{\sum_{t=k+1}^{n}(x_t-\bar{x})(x_{t-k}-\bar{x})}{\sum_{t=1}^{n}(x_t-\bar{x})}, \quad k=0,1,2,...\]
Кажемо да временска серија није корелисана ако је аутокорелациона функција једнака 0 свуда, осим у нули где је по дефиницији једнака 1.
Wave heights
Посматрајмо податке о висини таласа у \(mm\) у односу на ниво мирне воде у средини бунара који су последица симулатора таласа, мерења су вршена на сваких 0.1 секунди а последње мерење у тренутку 39.7 секунди.
Не уочавамо ни тренд ни сезонску компоненту, али да су узастопне вредности релативно сличне, па можемо претпоставити да је серија стационарна.
Корелограм
Корелограм је график аутокорелационе функције. На \(x\) оси се налазе природни бројеви, а на \(y\) оси су вредности аутокорелационе функције са задршком k.
## [1] 0.4702564
## [1] 1
acf(waveht, type = "covariance")$acf[2] # вредност аутоковаријационе функције добијамо када функцији acf додамо аргумент type## [1] 33328.39
## , , 1
##
## [,1]
## [1,] 1.000000000
## [2,] 0.470256396
## [3,] -0.262911528
## [4,] -0.498917020
## [5,] -0.378706643
## [6,] -0.214992933
## [7,] -0.037917306
## [8,] 0.177644329
## [9,] 0.269315275
## [10,] 0.130385337
## [11,] -0.074313293
## [12,] -0.079345616
## [13,] 0.028727319
## [14,] 0.070023128
## [15,] 0.063197459
## [16,] -0.009774170
## [17,] -0.101956108
## [18,] -0.125238283
## [19,] -0.108903118
## [20,] -0.047593090
## [21,] 0.077382508
## [22,] 0.164775681
## [23,] 0.124267904
## [24,] 0.049328615
## [25,] -0.004555037
## [26,] -0.065743573
Као што смо рекли раније, вредност коефицијента корелације је мера линеарне зависности. Oсим вредности саме функције, можемо нацртати графике да бисмо се уверили у линеарну или неку другу зависност између вредности на растојању k временских тренутака. На пример, са задршком (lag) 1.
Особине корелограма
На \(x\)-оси су приказана кашњења \(k\), а на \(y\)-оси вредности аутокорелационих коефицијената \(\rho_k\). Јединична вредност кашњења је временски интервал узорковања.
Испрекидане линије на корелограму су повучене на \(-\frac{1}{n}\pm\frac{2}{\sqrt{n}}\). Ако аутокорелациони коефицијент \(r_k\) испада изван ових линија, одбацујемо нулту хипотезу да је \(r_k = 0\) са прагом значајности од \(5\%\).
- Полиномијални тренд
## [1] 5 3 -1 -7 -15 -25 -37 -51 -67 -85 -105 -127
## [13] -151 -177 -205 -235 -267 -301 -337 -375 -415 -457 -501 -547
## [25] -595 -645 -697 -751 -807 -865 -925 -987 -1051 -1117 -1185 -1255
## [37] -1327 -1401 -1477 -1555 -1635 -1717 -1801 -1887 -1975 -2065 -2157 -2251
## [49] -2347 -2445 -2545 -2647 -2751 -2857 -2965 -3075 -3187 -3301 -3417 -3535
## [61] -3655 -3777 -3901 -4027 -4155 -4285 -4417 -4551 -4687 -4825 -4965 -5107
## [73] -5251 -5397 -5545 -5695 -5847 -6001 -6157 -6315 -6475 -6637 -6801 -6967
## [85] -7135 -7305 -7477 -7651 -7827 -8005 -8185 -8367 -8551 -8737 -8925 -9115
## [97] -9307 -9501 -9697 -9895
Видимо да су све корелације позитивне, статистички значајне и споро опадају. Генерално, за све строго монотоне временске серије, корелограм слично изгледа.
- Периодичне - тригонометријске
- Периодичне - понавњајучи низ бројева
AirPassengers
Испитујемо ово на временској серији AirPassengers која има и тренд и сезонску компоненту. Ова серија није стационарна, а видећемо како тренд и сезонска компонента утичу на корелограм.
Када смо склонили тренд и сезонску компоненту, видимо да је највећа позитивна корелација са кораком 12.
И овде видимо косинусни облик на корелограму што може да значи да је модел лош. Косинусни облик је карактеристичан за AR(2) модел (касније).
## [1] 109.4187
## [1] 41.11491
## [1] 0.0333884
Издвајање детерминистичких компоненти смањује дисперзију почетког процеса.
Font Reservoir
У следећем примеру дат је просечни месечни проток воде (\(m^3/s\)) у периоду од јануара 1909. до децембра 1980. године. Претходно су оцењени тренд и сезонска компонента, а adflow представља случајну компоненту.
Једино је статистички значајна корелација са кораком 1, што се може објаснити: у зависности од подземних вода чије се понашање тј. колико доприносе језеру споро мења, па су током узастопних месеци сличне вредности. Са друге стране вредност корелације није велика, јер други начин на који се пуни језеро су падавине, а падавине у узастопним месецима нису корелисане. Овакав облик корелограма (експоненцијално опадање) је карактеристично за AR(1) модел.
Задатак
- Учитати временске серије vs1.txt и vs2.txt и графички их представити. Нацртати графике зависности између вредности са задршком (lag) 1. Нацртати корелограме за обе серије и интерпретирати резултате.
- (а) Нека су \(X_1,X_2,\dots,X_n\) и \(Y_1,Y_2,\dots,Y_m\) низови случајних величина. Доказати да важи једнакост \[cov\left(\sum_{i=1}^n X_i, \sum_{j=1}^m Y_j\right) = \sum_{i=1}^n\sum_{j=1}^m cov(X_i,Y_j).\] (б) Доказати да за случајне величине \(X\) и \(Y\) важи \[D(X+Y) = D(X)+D(Y)+2cov(X,Y).\] (в) Показати резултат из дела под (б) користећи R за \(x\) и \(y\) концентрације бензоапирена и угљен-моноксида из примера Herald Square in Manhattan.