„Soovime teha kindlaks, kuivõrd tõhusalt saab keeletehnoloogia ja tehisintellekti vahendite abiga hinnata põhikooli eesti keele lõpueksami ja gümnaasiumi riigieksami kirjutamisülesannet,“ tutvustab uudset teadusprojekti Tallinna Ülikooli humanitaarteaduste instituudi emakeeleõpetuse ja rakenduslingvistika lektor MERILIN ARUVEE.
Ta ütleb, et eks masinhindamise kasutamine tekitab kindlasti ka ärevust ja igasuguseid küsimusi, nagu näiteks see, kas inimhindaja on ikka asendatav või kas tõesti usaldame robotile õpilaste hindamise. „Kindlasti ei ole meie soov hindajat masinaga asendada, pigem otsime viise, kuidas masin saaks inimesele abikäe ulatada,“ lausub ta.
Tallinna Ülikooli digitehnoloogiate instituudi keeletehnoloogia rühma nooremteadur Kais Allkivi toob välja, et rakendus, mis eestikeelse teksti kohta automaatset tagasisidet annab, võib kasuks tulla ka tekstidega töötavatele inimestele ja aidata näiteks ameti- või motivatsioonikirju koostada. „Senised tekstihindamise vahendid on silmas pidanud teise keele õppija tekstide ja keeleõppematerjalide analüüsimist,“ lausub ta.
Tallinna Ülikooli humanitaarteaduste instituudi digihumanitaaria ja tehisaru lektor Andres Karjus räägib, et nad tegelevad projektis kitsalt kirjandite analüüsi ja ühe eksamitüübiga, aga need tehnoloogiad on rakendatavad ka teiste õppeainete ja ülesannete hindamisel ja õpilaste edasijõudmise analüüsimiselgi. „Sellega plaanime tulevikus laiemalt tegeleda,“ lisab ta.
Aruvee sõnul on projektil kaks peamist eesmärki. „Esiteks soovime tuvastada, kui võimalik automaathindamine praeguse seisuga on,“ selgitab ta. „Eesmärk ei ole automaathindamine sisse seada, vaid uurida, milliseid võimalusi selleks üleüldse on. Teine eesmärk on võrrelda masina ja inimese antud tagasisidet.“
Projekt lähtub e-hindamisele üleminekust: plaani järgi tehakse 2026. aastal põhikooli eesti keele eksam elektrooniliselt, aasta hiljem peaks arvutipõhiselt toimuma ka 12. klassi eksam. „Samas ei ole loodud e-eksamite kirjutamisosa hindamist toetavat e-rakendust, mis võiks vähendada eksamihindajate töökoormust,“ nendib Aruvee.

Kais Allkivi sõnul hinnatakse tulemusi võrdluses e-katseeksamite hinnangutega. „9. klassi töid on õpetajad hinnanud uue hindamisjuhise alusel, mille koostasid e-eksami jaoks projekti meeskonna liikmed Merilin Aruvee ja Katarin Leppik,“ räägib ta. „Praeguses projektis keskendumegi põhikooli kirjanditele, kuid katsetame samu meetodeid ka gümnaasiumi kirjandite hindamisel. Oleme koostöös Harnoga taotlenud lisarahastust, et jõuda esialgsete katsetuste juurest teksti hindamist ja kirjutamist toetava tarkvara arenduseni.“
Allkivi sõnul katsetatakse kahte üksteist toetavat lähenemist: statistiline keeletöötlus ja generatiivne tehisintellekt. „Esimene põhineb sõnavara ja grammatika automaatsel analüüsil ning veaparandusel, mida kasutan oma doktoritöös eesti keelt teise keelena õppijate A2–C1-taseme tekstide hindamisel,“ selgitab ta. „E-katseeksamite kirjanditest, mille Harno on meile anonüümitult loovutanud, saame leida tunnused, mis seostuvad hinnatavate aspektidega. Näiteks saab keeletehnoloogia abiga mõõta sõnavara ulatust, mis on üks hindamiskriteeriume. Sidendite kasutus on jällegi seotud lausestuse ja sõnavaliku kriteeriumiga, puuduvad kirjavahemärgid õigekirja kriteeriumiga. Selliste eristavate tunnuste alusel ennustamegi punktiskoore, kasutades selleks masinõpet.“

Andres Karjus räägib, et generatiivse tehisintellekti rakendamist katsetatakse sisu hindamisel. „Veel mõni aasta tagasi oleks selliste ülesannete jaoks vaja olnud treenida iga hindamisskeemi alamkategooria jaoks eraldi mudel ja korjata selleks suur hulk treeningandmeid,“ selgitab ta. „Nüüd saab seda lahendada eeltreenitud suurte keelemudelitega, millele saab ette anda sama juhendi, mille on saanud inimhindajad. Seda nimetatakse zero-shot või in-context learning: mudelite treenimise asemel neid juhendatakse, mis võimaldab kiiret testimist. Esialgsed tulemused on paljulubavad.“
Tehisintellekt kui õpetaja abivahend
Allkivi sõnul on õpetajad tundnud seoses eesti keele e-katseeksamitega huvi, kas arvuti aitaks ka kirjutamisülesannet hinnata. „Praegu annab eksamiinfosüsteem EIS teksti kohta mõningast statistikat teksti ja sõnavara keerukuse kohta, märgib õigekirjavigu ja sõnakordusi, kuid ei seosta neid hindamisega ega selgita statistiliste näitajate tähendust,“ räägib ta. „Jääb segaseks, mida sõna- ja lausepikkus soorituse kohta ütleb või kui suur peaks olema sõnavara mitmekesisus. Kui aga eksamit hindav õpetaja näeks automaatselt arvutatud skoore koos selgitustega, kuidas näiteks lauseehituse tunnused ja mingit tüüpi keelevigade esinemine tulemust mõjutavad, siis oleks sellest rohkem kasu. See on vaid üks näide sellest, mismoodi automaathindamine võiks õpetajate aega säästa. Loodetavasti näevad õpetajad tehisintellekti abivahendina, mis ei tee nende tööd ära, aga võimaldab tekste mugavalt ja objektiivselt võrrelda.“
Aruvee sõnul ongi projekt n-ö esimene nuusutamine. „Esialgu soovime kirjeldada, millised on võimalused eestikeelse kirjandi hindamisel,“ räägib ta. „Kui seda teame, saame edasi mõelda, kuidas timmida hindamismudelit, ühtlasi saame teada ka masina nõrkused ehk näeme, millistes aspektides on inimhindamine asendamatu. Loomulikult on plaanis tutvustada töö tulemusi Harnole, kes saab meie tulemuste põhjal edasi tegutseda. Lisarahastuse saamisel muidugi jätkame õpetajale mõeldud tekstihindamise tööriistade loomist. Selle jaoks pakuvad 9. ja 12. klassi katseeksamitööd hindamatut sisendit.“
Tekstihindaja aitaks õpetajaid kirjandite parandamisel
„Esialgu on abi kaudne,“ vastab Aruvee küsimusele, kuidas toetab projekt õpetaja tööd. „Kõigepealt on tarvis võimalused välja uurida, seejärel saame asuda õpetajale vajalikku abimeest arendama.“
Allkivi sõnul aitaks (pool)automaatne tekstihindaja õpetajaid esiteks kirjandite parandamisel. „See juhiks tähelepanu võimalikele veakohtadele ning annaks ülevaate lausestuse ja sõnavaliku, sisu ja ülesehitusega seotud aspektidest, mis mõjutavad hinnet,“ lausub ta. „Nii võiks tekstide läbivaatamine sujuda kiiremini, samuti saaks õpilaste tulemusi lihtsasti omavahel võrrelda ja vaadata ka nende arengut võrreldes eelmiste kirjutistega.“
Teiseks saaks Allkivi sõnul hindamisrakendust kasutada õppetöös. „See võiks toetada andmepõhist keeleõppimist, mis seisneb selles, et õppija saab ise vahetult keelematerjaliga tutvudes keele reeglipärasid tuletada või õpitut kinnistada,“ räägib ta. „Õpetaja roll on seejuures õppeprotsessi suunata. Analüüsides omaenda või paarilise kirjutatu tagasisidet, oleks õpilastel võimalik esmalt iseseisvalt teksti parandada, näiteks korrigeerida sõna- ja vormivalikut, lühendada liiga pikki lauseid, kasutada rohkem siduvaid sõnu või siluda lõikude struktuuri.“
Allkivi ütleb, et selline tööriist võiks olla kasulik laiemalt kui 9. ja 12. klassi lõpukirjandiks valmistudes. „Automaathinnang lähtub küll eksamite hindamisjuhenditest ja varasemate eksamitööde keelekasutusest, kuid nii nüüdse projekti kui ka edasise töö tulemusena valmiv rakendus oleks ühtlasi kirjutamisassistent, mis toob tekstis esile tähelepanu vajavad kohad ja aitab seda paremaks muuta,“ sõnab ta.
Tehisintellekt asendaks eksamil ühte inimeksperti
Allkivi sõnul on lugemis- ja kuulamisülesannete e-hindamine suhteliselt lihtne – sobivad vastused saab süsteemile ette anda. „Kirjutamisülesannete arvutipõhine hindamine on keerukam, sest õpilased kirjutavad loomingulisi tekste,“ räägib ta. „Meie selgitame välja, kui tõhusalt saab keeletehnoloogia rakenduste abiga ennustada 9. ja 12. klassi e-eksami kirjutamisosa tulemust. On võimalik, et mõningaid tekstis vaadeldavaid aspekte saab automaatsete vahenditega hinnata täpsemini kui teisi.“
Allkivi ütleb, et kui arvuti hinnangud ei erine inimeste omadest rohkem, kui inimeste hinnangud erinevad üksteisest, siis võiks automaatset tekstihindajat ka eksamiolukorras rakendada. „Tasub märkida, et seda kasutatakse eksamitel tüüpiliselt lisahindajana või ühe inimeksperdi asendajana, mitte ainsa otsustajana,“ märgib ta. „Ka keeleõppes üldisemalt on kasulik kombineerida automaatset tagasisidet õpetaja selgituste ja kommentaaridega.“
Aruvee sõnul loodavad projektis osalejad väga, et tulevikus on nende tööst kasu eelkõige just eksamihindamisel ja kirjalike tekstide hindamisel. „Mõistagi sõltub see juba Harnost, kes on eksamite läbiviija ja arendaja,“ lausub ta. „Automaathindamise kas või osaliseks rakenduseks on ilmtingimata vaja lisakatseid: juba praegu näeme, et võib-olla on tarvis hindamismudelit täiendada, seejärel järgmisi kirjandeid katsetada jne. Ilmselt on praegune protsess vaid algus, mis käivitab hulga järgmisi tegevusi.“
Hinnata võiks tulevikus teisiti
Aruvee sõnul ootavad nad masinhindamiselt suuremat stabiilsust. „Teame, et hindajatevaheline erinevus võib olla üle 30%,“ selgitab ta. „Praegu kaasatakse sellisel puhul kolmas hindaja, kuid kui masina töö osutub tõhusaks, võiks see süsteem tulevikus teistsugune välja näha.“
Allkivi toob välja, et nii inimene kui ka arvuti eksib. „Näiteks tuleb arvestada, et praegu arenduses olev grammatikakorrektor ei tuvasta kõiki vigu, kuid teeb samas ebavajalikke parandusi,“ räägib ta. „Siiski on automaatselt leitud vigade sageduse ja eksamitulemuse vahel selge korrelatsioon. Õpetaja peab veenduma, kas tekstis esile toodud võimalikud vead on eksimused, mis hinnet mõjutavad, või mitte.
Kui treenime arvuti inimhinnangute alusel punktiskoori ennustama, siis ei matki masin õpetaja teksti hindamise viisi, vaid loob seoseid tekstis mõõdetud keeleliste tunnuste ja eksamil saavutatud tulemuse vahel. Inimene loeb teksti teisiti kui masin, teadvustamata nii täpselt teksti kvantitatiivseid omadusi. Automaatselt leitavad tunnused, mis järjepidevalt eri hindajate määratud punktidega seostuvad, pakuvad inimesele küllaltki usaldusväärset võrdlusalust.“
Karjus ütleb, et suuri keelemudeleid on küll võimalik juhendada ja kohandada nii, et nad loeksid teksti sarnaselt inimestega, eriti mis puudutab sisulisi aspekte. „Seega katsetame ja võrdleme erinevaid lähenemisi,“ lausub ta.
Allkivi räägib, et TLÜ-s loodud õppijakeele korpus ehk eesti vahekeele korpus on ühendatud eesti keele õppe ja analüüsi keskkonnaga ELLE (https://elle.tlu.ee), mis hõlmab mitmesuguseid vabavaralisi keeletööriistu.
„Nende hulka kuulub tekstihindaja, mis toob tekstis välja õigekirja- ja grammatikavigu, määrab tõenäolise keeleoskustaseme (A2–C1) ning annab tagasisidet teksti keerukuse ja sõnavara kohta, tuues välja näiteks pikad laused, abstraktsed ja harvaesinevad sõnad,“ toob ta näite. „Seda tarkvara saame kasutada ja edasi arendada ka eesti keele eksamikirjandite hindamiseks. Teeme projektis analüüsitud e-katseeksamite anonüümitud tekstid ELLE korpuspäringus kättesaadavaks ka teistele uurijatele. Emakeeleõppijat võib samuti käsitada keeleõppijana, kelle tekstid on huvitav võrdlusmaterjal teise keele õppijate keelekasutusega kõrvutamiseks.“
Lisa kommentaar