LV EN

LĪMENIS

PROGRAMMA

FAKULTĀTE

GADS

VALODA

Mašīniskās slīpēšanas algoritmu veiktspējas uzlabošana, samazinot datu kopas dimensiju, izmantojot šūnu automātus

Nozīmīgs izaicinājums mašīnmācīšanā ir darbs ar lieldimensiju datiem. Sarežģītība, kas pazīstama kā "dimensijas lāsts", izraisa mašīnmācīšanās algoritmu veiktspējas pasliktināšanos, palielinoties dimensijai un datu kopas lielumam. Šūnu automāti ir dinamiska diskrēta skaitļošanas sistēma ar matemātiskām funkcijām, kas pazīstamas kā noteikumi, kuri rada sarežģītu globālu uzvedību. Mēs izmantojām viendimensiju elementāros šūnu automātus kā rīku datu kopas lieluma noteikšanai. Modeļa mainīgie tika atlasīti sākotnējā stāvokļa vektora ģenerēšanai un tā tālākai pārveidošanai formātā, kas ir piemērots šūnu automāta noteikumu piemērošanai, ko šūnu automātu teorijā pazīst kā konfigurāciju. Pēc tam modelis tika iterēts, izmantojot visus iespējamos šūnu automāta noteikumus, un tika piemērotas dažādas epohālās variācijas. Samazinātās datu kopas modeļa veiktspēja tika salīdzināta ar sākotnējās datu kopas etalonrezultātiem pēc standarta dimensiju samazināšanas tehnikas izmantošanas. Tika secināts, ka piemērotos šūnu automātu noteikumus var izmantot kā alternatīvas metodes datu kopas izmēru samazināšanai, nepasliktinot modeļa veiktspēju.

Autors: Alexey Kuchvalskiy

Vadītājs: Dmitry Pavlyuk

Līmenis: Maģistrs

Gads: 2024

Darba valoda: Angļu

Studiju programma: Datorzinātnes

Vairāk...


Nepārraudzīta mašīnmācīšanās pieeja dabiskās valodas tekstu kolekciju hierarhiskai, uz grafiem bazētai, attēlošanai.

Lielo datu efektīva pārvaldība ir svarīga dažādās jomās, īpaši gadījumos, kad dati sastāv no cilvēka rakstītiem dokumentiem. Nesenie sasniegumi dabiskās valodas apstrādē (NLP), jo īpaši LLM, ļāva atrisināt daudzus uzdevumus šajā jomā, neskatoties uz lielo pieprasījumu pēc marķētiem datiem, skaitļošanas resursiem un specializētām prasmēm.Lai novērstu šos ierobežojumus, pašreizējais pētījums ierosināja NLP cauruļvadu, lai noteiktu tēmu hierarhijas zinātnisko publikāciju kolekcijās. Darbā galvenā uzmanība tika pievērsta pieejamo neuzraudzīto mašīnmācīšanās metožu un kvalitātes metrikas novērtēšanai NLP, kā arī vizualizācijas metožu izstrādei, lai izveidotu cauruļvada prototipu.Piedāvātais risinājums ir balstīts uz hARTM pieeju, kas optimizēta tēmas interpretējamībai. Tas parādīja spēju no zinātnisko tekstu kolekcijām secināt cilvēka interpretējamu tēmu hierarhijas un izveidot jēgpilnu dokumentu attēlojumus. Vizualizācijas pieejas balstās uz MDS, lai parādītu starpdokumentu līdzību, un Sankey diagrammas, lai parādītu dokumentu kopu saistību tēmu hierarhijā.Lietderība tika demonstrēta divās datu kopās, koncentrējoties uz tēmu hierarhijas un saistīto tēmu definīciju interpretējamību un nozīmi. Iespējamās pielietošanas jomas ietver personīgo izglītību un zinātnisko rakstīšanu.

Autors: Jevgenijs Bodrenko

Vadītājs: Irina Jackiva

Līmenis: Maģistrs

Gads: 2024

Darba valoda: Angļu

Studiju programma: Datorzinātnes

Vairāk...


Boosting algoritmi kredītkaršu krāpšanas atklāšanai dažādās datu kopās

Manuāla pārskatīšana un noteikumu bāzētas sistēmas, kā arī datu ieguves tehnikas, piemēram, klasterēšanas un klasifikācijas algoritmi, ir būtiski kredītkaršu krāpšanas atklāšanai, jo tie palīdz identificēt krāpnieciskas transakcijas. Neskatoties uz apmācības datu vākšanas grūtībām, nesen ir pieejami vairāk dati, tomēr pilnīga pašreizējo mašīnmācīšanās pieeju salīdzināšana vēl nav veikta. Algoritmi, piemēram, XGBoost, AdaBoost un Gradient Boosting Machine, bieži pārspēj vecākas metodes. Šajā pētījumā tiek salīdzināti palielināšanas algoritmi ar tradicionālām pieejām, izmantojot trīs dažādas kredītkaršu transakciju datu kopas: sintētiskas, līdzsvarotas ar 50% krāpnieciskām transakcijām un ļoti nesabalansētas ar tikai 0,17% krāpnieciskām transakcijām. Īstajās transakciju datu kopās bija 28 anonimizēti parametri, piemēram, laiks un vieta. Katrs algoritms tika novērtēts pēc F1 score, accuracy, precision, un recall. Šis pētījums sniedz ieteikumus par algoritmu izmantošanu reālās situācijās, sniedzot vērtīgas atziņas nākotnes pētījumiem un praktiskai izmantošanai kredītkaršu krāpšanas atklāšanā.

Autors: Justs Vīdušs

Vadītājs: Nadežda Spiridovska

Līmenis: Maģistrs

Gads: 2024

Darba valoda: Angļu

Studiju programma: Datorzinātnes

Vairāk...


Prognozējošā analīze par tiešsaistes kazino ienākumiem Austrālijas tirgū.

Šajā darbā tiek pētīta ekonomisko rādītāju un laika apstākļu ietekme uz tiešsaistes spēļu azartspēļu ieradumiem un ieņēmumiem Austrālijas tirgū. Izpētot IKP, patēriņa cenu indeksa (PCI) un bezdarba līmeņa savstarpējo mijiedarbību, pētījums atklāj šo faktoru ietekmi uz azartspēļu klientiem, norādot, ka veselīgāka ekonomika palielina azartspēļu izdevumus, savukārt finansiālais spriedums samazina klienta aktivitāti. Laika apstākļu ietekme bija minimāla, dēļ azartspēļu norises telpu rakstura. Tika izstrādāti un novērtēti prognozēšanas modeļi, ieskaitot vairākas lineārās regresijas, ARIMAX un SARIMAX modeļus. ARIMAX un SARIMAX modeļi izrādījās precīzāki bruto spēļu ieņēmumu un laimēto likmju prognozēšanā, uztverot sezonālās un ārējās ietekmes. Šis pētījums sniedz būtiskus ieskatus uzņēmuma vadības veidotājiem un nozares ieinteresētajām pusēm, uzsverot nepieciešamību pēc vietējiem pētījumiem, lai labāk izprastu šīs dinamikas un uzlabotu stratēģisko plānošanu azartspēļu sektorā. Turpmākajos darbos jākoncentrējas uz datu kopu paplašināšanu un dažādu ekonomisko un laika apstākļu modeļu iekļaušanu, lai uzlabotu prognožu precizitāti un nozares piemērojamību.

Autors: Jānis Želannovs

Vadītājs: Nadežda Spiridovska

Līmenis: Maģistrs

Gads: 2024

Darba valoda: Angļu

Studiju programma: Datorzinātnes

Vairāk...


LLM BALSTĪTAS SQL ĢENERĒŠANAS PIEEJU SALĪDZINOŠĀ ANALĪZE

Lielo valodu modeļu straujā attīstība ir pavērusi iespējas pārstrukturēt programmatūras izstrādes procesus kopumā, kā arī tādos gadījumos kā dabiskās valodas konvertēšana SQL vaicājumos. Šī pētījuma mērķis ir eksperimentāli novērtēt četru uz LLM balstītu metožu ietekmi uz SQL ģenerēšanas efektivitāti un kvalitāti. Novērtēšana tiek veikta, pamatojoties uz šādiem rādītājiem: pareizība, pilnīgums un konsekvence. Izpētītās uz LLM balstītās SQL ģenerēšanas metodes ietver īpašus LLM, kas pielāgoti SQL koda ģenerēšanai, piemēram, SQL kodētāju ietvarus SQL koda ģenerēšanai (Vanna.ai, 2023; Llamaindex, 2023) un vairāku aģentu sadarbības tīklus valodas pārveidošanai SQL.Pētījumā tiek izmantota literatūras apskata gadījumu izpēte un simulācijas. Tas piedāvā visaptverošu pārskatu par LLM vadītās SQL paaudzes sasniegumiem, kas ietver koncepcijas, tehnoloģijas, metodoloģijas, stiprās puses, ierobežojumus un ētiskus apsvērumus.Šis pētījums veiksmīgi novērš plaisu starp teorētiskajiem pamatiem un AI papildināto pieeju praktisko pielietojumu, vienlaikus veicinot uz LLM balstītas SQL ģenerēšanas integrāciju automatizētos programmatūras izstrādes procesos.

Autors: Maksim Ilin

Vadītājs: Dmitry Pavlyuk

Līmenis: Maģistrs

Gads: 2024

Darba valoda: Angļu

Studiju programma: Datorzinātnes

Vairāk...

Table View
Text View