PostDoc Latvia logo

Atskaite par projektā 1.1.1.2/VIAA/1/16/075 “Netradicionālie regresijas modeļi transporta modelēšanā” paveikto 2018.gada 4. ceturksnī

Markova-modulējamais lineārās regresijas modelis tiek secīgi attīstīts. Tika veikts otrais tematiskais pētījums (case study), kas saistīts ar modeļa pielietošanu uz reālajiem transporta datiem. Modelēšanas procesam tika iegūti dati no diviem avotiem: kompānijas “Rīgas Satiksme” (precīzāk, “Rīgas karte”) datu arhīvs un Latvijas vides, ģeoloģijas un meteoroloģijas centra datubāze (meteo.lv), kur dati ir brīvi pieejami. No pirmā avota tika iegūti dati par braucienu validācijām konkrēta tramvaja maršrutā četru mēnešu periodā. Lai aprakstītu modeļa ārējo vidi tika izvēlēti dati par laika apstākļiem Rīgas pilsētā, kas tika apstrādāti no 2006.gada līdz 2017.gadam. Tālāk abas datu kopas tika apstrādātas, agregētas un izmantotas modelēšanas procesā. Tika veikti vairāki eksperimenti. Modeļa prognozēšanas jauda nebija augsta arī dotajā pētījumā, ko var saistīt ar tādām pašām problēmām, kā pirmajā pētījumā: nepietiekami kvalitatīviem modeļa faktoriem vai ar nepietiekamu faktoru skaitu (acīmredzot, ir faktori, kas ietekmē braucienu validāciju skaitu, kas netika iekļauti modelī). Par vēl vienu iemeslu varētu minēt nepietiekošu izlases apjomu. Kaut gan izlases apjoms par braucienu validāciju skaitu bija ļoti liels (kopā 1048001 novērojumi), taču datu apstrādes gaitā, pateicoties modeļa pieņēmumiem (piemēram, atkarīgais mainīgais Y ir aditīvais pēc laika), datu apjoms tika strauji samazinājies (piemēram, vienā no eksperimentiem – 543 novērojumi). Pētījuma rezultāti tika atspoguļoti starptautiskajā konferencē Euro2018 (29th European Conference on Operational Research), Valensijā, Spānijā, ar prezentācijas nosaukumu “Public transport passenger flow analysis and prediction using alternating Markov-modulated linear regression”.

Pateicoties dotā tematiskā pētījuma realizācijai tika formulēts nākamais uzdevums, kas bija saistīts ar datu izpētes un sagatavošanas ietvara (framework) izstrādi. Sakarā ar to, ka datu analīzes rezultāti lielā mērā balstās uz datu kvalitāti, kas sagatavoti pirms datu analīzes procesa, datu sagatavošanas posms kļūst par kritisku. Arī datu apstrādes paņēmieni, kas tiek pielietoti pirms modelēšanas stadijas, var ievērojami uzlabot iegūto izlašu kopējo kvalitāti vai laiku, kas nepieciešams faktiskajai analīzei. Un, visbeidzot, datu sagatavošanas un analīzes process, kas ietver daudzus dažādus uzdevumus, nevar būt pilnībā automatizēts. Izpildītā iepriekš tematiskajā pētījumā datu sagatavošanas pasākumi (kas parasti ir rutīnas un bieži vien laikietilpīgi) aizņēma no 60 līdz pat 80 procentiem no visa pētījuma laika. Tāpēc tika nolemts izveidot datu izpētes un sagatavošanas ietvaru priekš Markova-modulējamās lineārās regresijas analīze, kas sevī iekļauj datu izpratni un lielu datu kopu sagatavošanu kopā ar padziļinātu analīzi.  Tika izveidota un aprakstīta datu izpētes un sagatavošanas metodoloģija priekš Markova-modulējamās lineārās regresijas analīzes. Metodoloģija tika ilustrēta uz konkrētām datu kopām, tika izmantota R programmatūra kopā ar bibliotēku komplektu.

Paralēli tika attīstīts vēl viens pētījuma virziens, saistīts ar Markova-modulējamais lineārās regresijas modeļa uzlabošanu. Modeļa parametri mainās gadījuma veidā ar ārējās vides ietekmi, kas tiek aprakstīta ar Markova ķēdi ar nepārtrauktu laiku un galīgu stāvokļu kopu. Markova īpašība ir atmiņas prombūtnes īpašība, t.i. uzturēšanās laiks katrā stāvoklī atbilst eksponenciālajam sadalījumam ar noteiktu pārejas intensitāti, un uzturēšanās laiki ir neatkarīgi savā starpā. Gadījumā, ja modelēšanai iegūtie dati neatbilst Markova īpašībai, tika izstrādāts paņēmiens, kā šo problēmu pārvarēt: izmantot eksponenciālo blīvumu konvolūciju. Pētījuma rezultāti tika atspoguļoti konferencē Nordstat2018 (The 27th Nordic conference in Mathematical Statistics (Nordstat2018), Tartu Igaunijā, ar prezentāciju “On a parametrical estimation for a convolution of exponential densities”.

contact us

raksti mums