LV EN

LĪMENIS

PROGRAMMA

FAKULTĀTE

GADS

VALODA

ATSLĒGVĀRDI

Nepārraudzīta mašīnmācīšanās pieeja dabiskās valodas tekstu kolekciju hierarhiskai, uz grafiem bazētai, attēlošanai.

Lielo datu efektīva pārvaldība ir svarīga dažādās jomās, īpaši gadījumos, kad dati sastāv no cilvēka rakstītiem dokumentiem. Nesenie sasniegumi dabiskās valodas apstrādē (NLP), jo īpaši LLM, ļāva atrisināt daudzus uzdevumus šajā jomā, neskatoties uz lielo pieprasījumu pēc marķētiem datiem, skaitļošanas resursiem un specializētām prasmēm.Lai novērstu šos ierobežojumus, pašreizējais pētījums ierosināja NLP cauruļvadu, lai noteiktu tēmu hierarhijas zinātnisko publikāciju kolekcijās. Darbā galvenā uzmanība tika pievērsta pieejamo neuzraudzīto mašīnmācīšanās metožu un kvalitātes metrikas novērtēšanai NLP, kā arī vizualizācijas metožu izstrādei, lai izveidotu cauruļvada prototipu.Piedāvātais risinājums ir balstīts uz hARTM pieeju, kas optimizēta tēmas interpretējamībai. Tas parādīja spēju no zinātnisko tekstu kolekcijām secināt cilvēka interpretējamu tēmu hierarhijas un izveidot jēgpilnu dokumentu attēlojumus. Vizualizācijas pieejas balstās uz MDS, lai parādītu starpdokumentu līdzību, un Sankey diagrammas, lai parādītu dokumentu kopu saistību tēmu hierarhijā.Lietderība tika demonstrēta divās datu kopās, koncentrējoties uz tēmu hierarhijas un saistīto tēmu definīciju interpretējamību un nozīmi. Iespējamās pielietošanas jomas ietver personīgo izglītību un zinātnisko rakstīšanu.

Autors: Jevgenijs Bodrenko

Vadītājs: Irina Jackiva

Līmenis: Maģistrs

Gads: 2024

Darba valoda: Angļu

Studiju programma: Datorzinātnes

Vairāk...

Table View
Text View