Illustratsioon: Vecteezy

Eksamikirjandeid on võimalik hinnata tehisaru toel

Illustratsioon: Vecteezy
6 minutit
955 vaatamist
  • Kas põhikooli ja gümnaasiumi kirjandite parandamisel võiks olla tehisarust abi – nii, et lõplik otsus jääks endiselt inimesele? Tallinna ülikool lõpetas projekti, kus katseeksamite kirjandeid hindasid nii inimesed kui ka tehisaru.

„Esmased tulemused osutavad kirjandite automaathindamise võimalikkusele,“ ütleb projekti juht, emakeeleõpetuse lektor Merilin Aruvee. Tema sõnul oli projekti üks sihte tuua kokku eri instituutide pädevus ja saada lõpuks selge pilt, mida on masin suuteline tegema ja kus peab otsus jääma inimesele.


“Inimene on hindajana subjektiivne.

Merilin Aruvee

Praktilises plaanis jagunes töö neljaks: tekstikorpuse täiendamine emakeeleõppijate kirjutistega, automaathindamise võimaluste väljaselgitamine, masin- ja inimhindamise erinevuste analüüs ning hindamismaatriksite ja kirjutamisõpetuse arendamine.

„Saime teada, et suured keelemudelid ja keeletehnoloogilised masinõppemudelid saavad õpilastekstide hindamisega päris kenasti hakkama. Erinevus inimeste pandud hinnetega polnud suur, ja seda nii 9. kui ka 12. klassi tekstide puhul. Oma töövood talletasime vabavaralisena, et neid saaks edaspidi kasutada,“ lausub Aruvee.

Tehisaru lektor Andres Karjus selgitab, et suurte keelemudelitega hinnati 2024. ja 2025. aasta 9. ja 12. klassi katseeksami ligi 3000 kirjandit, et katta kõik hinnatavad aspektid grammatikast sisuni. Fookus oli 9. klassil – just seetõttu, et põhikooli lõpueksami kirjutamisülesande mudel ja hindamisloogika muutub ning vajab testimist.

Hindamiskriteeriumid olid detailsed: sissejuhatus ja pealkiri, teemaarenduslõikude struktuur, alustekstide kasutus, lõpetus, lisaks lausestus ja sõnastus ning õigekiri, kirjavahemärgistus ja vormistus.

Katsetati nii suuri generatiivseid mudeleid (sh OpenAI GPT ja Google Gemini) kui ka keeletehnoloogilisi tööriistu ja varasemate hinnete peal treenitud masinõppemudeleid.


“Lõpphinde paneb igal juhul inimene.

Andres Karjus

Kuidas masinale ülesanne anti, loeb rohkem, kui esmapilgul paistab. Projektimeeskonna sõnul võivad keelemudeleid eksitada liiga paljud ja üksteisele vastu käivad juhised – seetõttu on määrav, kui konkreetne ja optimaalne on töökorraldus. Nende katses hinnati keelemudeliga iga aspekti eraldi: see hoidis hindamisülesande selgena ning vähendas juhiste müra, mis võib muidu tulemusi kõigutada.

Kooskõla inimhindajaga

Loo üks keskseid küsimusi on, kas masin näeb kirjandit samamoodi nagu inimene. Karjuse sõnul võrreldi masinate ennustatud punktide erinevust inimhindajate keskmisest (konsensusest) ning vaadati ka seda, kas koondtulemus jääb kahe hindaja hinnete vahele.

Projekti tulemuste põhjal jäi mudelite koondhinne kahe hindaja vahele üle pooltel juhtudel. 9. klassi tekstide hindamine osutus keelemudelitele veidi lihtsamaks. 12. klassis prooviti ka rangemat juhendit, kuid see ei muutnud pilti oluliselt.

Digitehnoloogiate instituudi nooremteadur Kais Allkivi toob näite keeleaspektide hindamisest: sõnavaliku ning liigenduse ja vormistuse hindamisel oli keelemudeli hinnangute erinevus inimhindajate omast ligikaudu 0,4 punkti (0–3 skaalal) ning see jääb alla isegi inimhindajate omavahelisele ebakõlale. Keelevigadega seotud aspektides andsid õigekirja- ja grammatikakorrektorid paremaid tulemusi kui suured keelemudelid.

Aruvee sõnul paistab inimhindamises paratamatult välja subjektiivsus: osa hindajaid väldib maksimumi, osa kaldub keskmiste poole ning inimest mõjutavad ka halo- ja kajaefekt (näiteks eelnevalt loetud töö või hinnangute üldine keskmine). Masin ei väsi ega kiirusta emotsiooni pealt – ent riskid tulevad teisest kohast: mudelit võivad kallutada treenimine ning eksitada liiga pikad või vastukäivad juhised.

Seetõttu rõhutab Karjus, et päris eksamihindamises tuleks mõõta mitte ainult täpsust, vaid ka võimalikku kallutatust, mudelit vajadusel kalibreerida – ja lõpphinde paneb igal juhul inimene.

Karjuse sõnul ei loonud uurimisrühm veel eksamile valmis hindamisrakendust, vaid vaatas hindamisprotsessi köögipoolt: mida praegused keelemudelid ja keeletehnoloogilised lahendused katseeksami tekstidega üldse teha suudavad. Päris eksamikeskkonnaga pole lahendust seni liidestatud ning kui automaathindamist kunagi eksamites kasutada, peaks protsess olema läbipaistev – tema hinnangul isegi rohkem kui praegune hindamiskorraldus.

Projektis ilmnes, et osas grammatika- ja keelekriteeriumites olid spetsiifilised keeletehnoloogilised mudelid täpsemad, samal ajal kui generatiivsed keelemudelid hindasid kõrgemalt sisu aspekte, nagu sissejuhatust ja pealkirja. Aruvee sõnul osutus üheks praktiliseks õppetunniks, et pealkirja ja sissejuhatuse koos hindamine sama kriteeriumi all ei ole mõistlik – katse näitas, et need tuleks pigem lahutada.

Mis on õpetajale käegakatsutav kasu?

Kuigi projekti eesmärk ei olnud veel anda kätte valmis tööriist, kirjeldab Aruvee, et tulemused aitavad seada 9. klassi jaoks paremaid kriteeriume ning luua juhendeid, koolitusi ja õppematerjale. 

„Meie kõige praktilisem ja otsesem tulemus on viis Videoõpsi videot õpetajatele, mis on mõeldud 9. klassi kirjandiks valmistumiseks,“ lausub ta. „Neile pääseb ligi Videoõpsi Youtube’i kanalil. Praegu käib juba ka jätkuprojekt, kus kujundame ja arendame praktilist masinvõimestatud hindamise tööriista.“  

Kui rääkida tulevasest hübriidlahendusest (inimene + masin), siis Aruvee näeb masinat eelkõige abikäena üksikute kriteeriumite hindamisel: tuua esile grammatika ja sõnavara mitmekesisuse näitajaid, aidata vigu üles tähendada, märkida korduvaid vigu. Sisuliste kriteeriumite puhul saab masin üsna täpselt osutada, kuivõrd on õpilane tuginenud alustekstile, näiteks kuidas ta on teksti refereerinud. Suurem küsimus on tema sõnul järgmine samm: mis juhtub siis, kui inimhindaja näeb masina tagasisidet – kas ja kuidas see tema otsust mõjutab?

Karjus rõhutab, et inimene peab masina otsuse niikuinii üle vaatama – seda nõuab ka seadus. Nii nagu inimhindaja puhul, tekib ka masinhindamisel paratamatult erandeid: õpilane võib kirjutada kirjandi asemel kihutuskõne, muinasjutu või midagi muud, mis ei mahu tavapärasesse rubriiki. Sellistel juhtudel tulebki lähtuda mõistlikkusest ja inimlikkusest.

Aruvee ütleb edasiste plaanide kohta, et kolm projektiliiget arendavad ASTRA+ projektis „Arutleva kirjandi hübriidhindamise ja tagasisidestamise rakenduse prototüübi väljatöötamine“ rakendust, mis toetaks õpilaste kirjutamisoskust kirjandi hindamiskriteeriumite alusel ning pakuks kirjutajale toetavat tagasisidet tehisarult.

Digitehnoloogiate instituudi juhtimisel on käimas projekt „Eestikeelse teksti kirjutamisabi: automaatkorrektori ja paranduste selgitaja edasiarendus“, milles arvestatakse eesti keele kui teise keele õppe kõrval ka emakeeleõppe vajadusi ning kuhu emakeeleõpetuse eksperdina on kaasatud Merilin Aruvee. Katarin Leppik ja Merilin Aruvee jätkavad koostööd Harnoga, et arendada hindamist, luua koolitus- ja õppematerjali uue eksami toeks. 

„Loodetavasti võtab Harno ka EIS-i arendusel meie projekti tulemusi arvesse ja töötab välja viisi, kuidas keeletehnoloogia tuge saaks eksami hindamisel rakendada,“ lausub ta. 


Tallinna ülikooli projektis „Automaathindamise võimalikkusest põhikooli ja gümnaasiumi lõpueksami kirjutamisülesande näitel“ osalesid humanitaarteaduste instituudi digihumanitaaria ja tehisaru lektor Andres Karjus, tehisaru ja digihumanitaaria külalislektor Krister Kruusmaa, nooremteadur Katarin Leppik, digitehnoloogiate instituudist nooremteadur Kais Allkivi, analüütik Silvia Maine, ning keeletehnoloogid-tarkvaraarendajad Taavi Kamarik ja Harli Kodasma, projekti juhtis humanitaarteaduste instituudi emakeeleõpetuse lektor Merilin Aruvee.

Õpetajate Leht kirjutas teema avamisest ja esimestest plaanidest juba 10. detsembril 2024. Loe artiklit siit.

Kommentaarid

  1. Muidugi on võimalik!

    Kuid peame arvestama, et andes ülesandeid tehisarule, kaotab inimkond tasapisi võime ISE MÕELDA. Ja nii elame varsti lollide maal… Seoses nö guugeldamisega ja nutikate kasutamisega oleme juba seda teekonda alustanud. Suur Loodus on õiglane ja maksab meile laiskuse eesr kätte (koolis eriti)…

    Peep Leppik

  2. Kas pole kartust, et masinhindamine hakkab suunama keskpärasuse ja standardsuse poole?
    Tehisintellekt ei ole ju intellekt, see sõltub sisenditest ning piirdub nendega. Iseseisvalt saab teda üht-teist genereerima panna, kuid seegi käib ettesöödetud andmete raames.
    Kunagi sai matemaatikaolümpiaadi võitja 101 punkti 100-st võimalikust. Lisapunkt anti originaalse lahenduse eest, mida polnud üheski õpikus. Kui masinale söödetakse sisse ainult õpikulahendid, siis hindaks ta originaalse õige lahenduse valeks.
    Kirjand ei ole ainult keel. See on ka stilistika ja viimast ei saa seni masinale söödetavaks teha. Teoreetiliselt ehk saab, aga see nõuaks niisugust ressurssi, mida olemas ei ole.
    Keelereeglite stiilikaalutlustel ignoreerimine võib terviku seisukohalt olla õige ja näitab kõrgtasemel keele valdamist. Inimene, kes loeb ja hindab tervikut, on üldjuhul suuteline aru saama. Masin mitte. Tema ajab näpuga järge oma sissekirjutatud reeglites.
    Just targemad, loomingulisemad, aga ka edevamad ja veidi avantüristlikud õpilased võivad selliste trikkidega hakkama saada. Neid pole kunagi olnud palju, kuid seni siiski leidub.
    Nemad siis nuditakse masinale söödavasse vormi.

    Heiki Epner

  3. 1. Kas kuskil saab näha nõusoleku vormi, millele õppurid oma “jah”-i ütlesid, et nende kirjandeid võib treeningandmeteks kasutada?

    2. Kasutusmugavuse nimel oleks võinud ÕL oma viimase viite (Õpetajate Leht kirjutas teema avamisest ja esimestest plaanidest juba 10. detsembril 2024. ) ka ära linkida https://www.opleht.ee/2024/12/tehisintellekt-tuleb-appi-eksameid-hindama/


  4. Eesti keele riigieksami hindamisega on terve rida probleeme, mida AI kasutusele võtmine küll lahendada ei suuda.

    Kui riik ei viitsi enam parandajaid koolitada, kui ei leidu enam pühendunud ja professionaalseid parandajaid (sest riik ei viitsi neile ka korralikult maksta), tuleb tsentraliseeritud hindamine lihtsalt ära lõpetada. Eksam võib olla, aga hindamine tulgu tagasi koolidesse. Kui riik on usaldanud õpetajaid klassi ette õppekavasid täitma, usaldagu ka hindeid panema.

    Üldises haridusfilosoofias käib aina intensiivsemalt jutt individuaalsest lähenemisest ja kujundavast hindamisest, personaalsest tagasisidestamisest jne – riigieksam liigub täpselt vastassuunas.

    Eesti keele riigieksam on olemuslikult oma nõuete poolest mõttetult üledimensioneeritud ja loovust suretav formaat, mis kehastab enamiku õppijate ja õpetajate jaoks kõledat ja anonüümset, tuima (riigi)masinavärki. Kui sa sellelt masinavärgilt midagi küsid, ei vasta ta sulle normaalselt. Mul on olnud õpilane, kellele anti teada, et tema eksamitöö on väärt 0 punkti. Arupärimise peale selgus, et tegemist on tehnilise praagiga, hinne oli igati hea. Aga kas Harno poolt keegi vabandas (inimene sai oma 0 vahetult enne lõpuaktuse algust meili peale)?

    Meil on mitmetes gümnaasiumides tähelepanuväärse keelevõimega inimesi, kelle emakeel pole eesti keel. Nad on 3 gümnaasiumiaasta jooksul teinud meeletu arengu, nad on mõne aastaga omandanud laialdase sõnavara ja suurepärase argumenteerimisoskuse, sh kirjaliku võimekuse, aga kuna nad veel siiski teevad grammatilisi pisieksimusi, ei ole neil võimalik kuigi kõrgeid punkte saada.

    Just subjektiivsus ongi vaja hindamisse tagasi tuua (mille vältimiseks väidetavalt AI-st kasu peaks olema, nagu artiklist lugeda võib) – arvestada õppija akadeemilist arengut ja ka psühhosotsiaalseid võimeid. Mul on olnud mitu õpilast, kes ei ole suutelised selle pinge all – appi, ma kirjutan RIIGIeksamit – oma normaalset ja loovat kirjutamisoskust realiseerima.

    See on muidugi “teine” subjektiivsus, millest artiklis räägitakse. Mina räägin inimesega arvestamisest, aga riik räägib sellest, kuidas võimalikult tasapaks tekstimass torust välja pressida.

    Ma ei tea, kuidas teiste ainetega, aga eesti keele riigieksam tuleb sellisel kujul ära lõpetada.

    Tiina Talts
    paari Tallinnas asuva gümnaasiumi ek õpetaja juba päris pikka aega
    (olen viinud eksamile ligi 20 lendu)

    Tiina Talts

Õpetajate Lehel on õigus avaldada teie kirjutatud kommentaar paberväljaandes. Kommentaari pikkus ei tohi ületada 3000 tähemärki. Õpetajate Lehe kodulehe kommentaarid on modereeritavad ja avaldatakse pärast toimetamist hiljemalt kommentaari saatmisele järgneva tööpäeva hommikuks. Lehel on õigus jätta saadetud kommentaar kodulehel avaldamata. Iga kommentaari edastaja arvuti IP-aadress, sessiooni identifikaator ja kommenteerimise aeg salvestatakse andmebaasis. Õpetajate Leht ei vastuta kommentaaride sisu eest!

Lisa kommentaar

Sinu e-postiaadressi ei avaldata. Nõutavad väljad on tähistatud *-ga

SAIS3 pidurdamine pani koolid kiirkorras varuplaani otsima

Sisseastumise infosüsteemi SAIS3 kasutuselevõtu edasilükkamine tähendab koolidele ja omavalitsustele vajadust vastuvõtt kiiresti ümber korraldada ajal, mil…

3 minutit

Üks uks jäi kinni, koolid teevad plaanid ümber

Eesti linnade ja valdade liidu haridusnõuniku Robert Lippini sõnul tähendab sisseastumise infosüsteemi SAIS3 nihkumine, et koolid peavad kiiresti…

9 minutit
Õpetajate Leht