Pozor! Jste na staveništi. Vice informací zde.
logo RVP.CZ
Přihlásit se

Úvodní stránka
Přehled článků
Metodická pomoc
Zpravodaj
O Spomocníkovi
Podcast
RSS RSS
Titulka RVP > Úvodní stránka Spomocníka > Je současná umělá inteligence schopna hodnotit...

Je současná umělá inteligence schopna hodnotit tvořený text?

Zatímco my se zabýváme tím, kdo bude žákovské práce vytvořené v rámci povinného, státem nařízeného, plošného testování hodnotit a jak co nejsnáze data vytvořená na papíře hodnotitelům předat v digitální podobě, jinde ve světě již mají k dispozici co do kvality s lidskými srovnatelné automatické systémy hodnocení a přou se o to, zda je eticky správné předat kontrolu úrovně výukových výsledků strojům (Dohlížejí na vše stroje láskyplné milosti?).

Ano, je to tak. V USA se v nedávné době vyrojilo větší množství zpráv, které se zabývají právě současným kvalitativním pokrokem aplikací schopných hodnotit úroveň delších souvislých textů. Prosím, nepleťte si takové hodnocení s kontrolou pravopisu nebo s analýzou prováděnou kvůli odhalování plagiátorství. Mluvíme o literární hodnotě hodnoceného textu. Pravděpodobně nejdůležitější roli v aktuálním vývoji mají granty Amerického federálního ministerstva školství a podpora nadace Williama a Flory Hewlettových.

O tom, že ministerstvo zadalo vývoj nových systémů plošného hodnocení výukových výsledků žáků amerických škol v hodnotě 330 mil. dolarů dvěma sdružením - PARCC a SBAC, jsme informovali již na podzim 2010 (Plošné testování trochu jinak). Většina specializovaných firem zapojených do tohoto programu mezitím své systémy, jež jsou v některých případech vyvíjeny již desítky let, výrazně zdokonalila. Ukázalo se to, když byly nedávno zveřejněny závěry dosud ojedinělého výzkumu [1] vedeného Markem Shermisem z University of Akron (Ohio), který zkoumal schopnosti 9 nástrojů automatického počítačového hodnocení, jež dohromady pokrývají 97% amerického trhu v tomto segmentu, a porovnával je s již existujícím tradičním hodnocením realizovaným odborníky podle stávajících kritérií. Do zpracování bylo zahrnuto víc jak 22 tisíc prací 8 různých typů lišících se obsahem, délkou i způsobem hodnocení, jež vznikly v rámci plošného testování v 6 amerických státech. U nástrojů se nezkoumala přímo vlastní schopnost hodnocení, ale právě míra dosažení shody s výsledky získanými tradičním způsobem.

H1H2—Human Rater 1,2

AIR—American Institutes for Research

CMU—TELEDIA, Carnegie Mellon University

CTB—CTB McGraw-Hill

ETS—Educational Testing Service

MI—Measurement, Inc.

MM—MetaMetrics

PKT—Pearson Knowledge Technologies

PM—Pacific Metrics

VL—Vantage Learning

Shoda zjištěná u 9 nástrojů automatického počítačového hodnocení v porovnání s hodnocením odborníků u 8 různých typů esejí vytvořených žáky [1]

Na první pohled se z výsledků zdá, že firmy, jejichž cílem je prodat svůj software nejlépe přímo vládě Spojených států, mají v něčem pravdu. Ukázalo se totiž, že automatické hodnocení je v naprosté většině případů s lidským (H1H2) srovnatelné a existují i výjimky (esej 5 a 6), kdy je dokonce lepší [2]. Přitom je samozřejmě mnohem efektivnější, rychlejší a také výrazně levnější než v případě nutnosti osobního angažování hodnotitelů.

Mnoho amerických států, jež jsou v oblasti školství nezávislé, je díky nedostatku financí nuceno plošné ověřování výukových výsledků realizovat pomocí testů obsahujících snadno automaticky hodnotitelné otázky s výběrovou, numerickou či jednoduchou tvořenou (přesná shoda řetězce) odpovědí. Zájem na vývoji sofistikovaných systémů hodnocení disponujících umělou inteligencí, jež by dokázaly ověřovat i delší souvislý text, je proto značně velký. Aplikace takových systémů ve školství by umožnila mnohem častější ověřování schopnosti žáků tvořit texty, což je kompetence pro život v dnešním světě jistě potřebná. To je důvod, proč se ve věci aktivně angažuje již zmiňovaná Hewlett Foundation. Stojí nejen za výzkumem Marka Shermise, ale vyhlásila též soutěž o 100 tisíc dolarů pro týmy programátorů, které ve vývoji hodnotícího software udělaly největší pokrok (Automated Student Assessment Prize).

Před několika dny byly vyhlášeny výsledky [3]. První cenu (60 tisíc) si odnesl tým tří specialistů v oblasti počítačové vědy, analýzy dat a fyzikálních částic (žádný není odborníkem na vzdělávání) - Jason Tigg (UK), Stefan Henß (DE) a Momchil Georgiev (US, původem z Bulharska). Podle experta Hewlett Foundation a ředitele soutěže Toma Vander Arka vyhrál tento tým proto, že kromě běžné analýzy textu, jako je výběr slov, gramatika, struktura textu, shoda s literárním žánrem apod., byly aplikovány též prvky strategie počítačového předvídání, což by možná mohlo v budoucnosti vést k překonání problémů s ověřováním validity obsahu vytvořeného textu.

V každém případě je schopnost umělé inteligence (Američané často používají též výraz „robotů-hodnotitelů“) v tomto směru zatím velmi omezená. Sami vítězové přiznávají, že aplikace tohoto typu jsou zatím na samém počátku vývoje. Automatické hodnocení textu dokáže velmi dobře hledat gramatické nedostatky, posoudit úroveň slovní zásoby či zjistit, zda se nejedná o plagiát. Odhalit, že autor při dodržení formálních pravidel napsal ve skutečnosti faktický nesmysl, to však zatím neumí [4], [5], [6], [7].

Vývoj se jistě nedá zastavit, a tak nutně musíme předpokládat, že se systémy automatického hodnocení výukových výsledků (nejen textů) budou stále rozvíjet. Při jejich aplikaci však musíme vždy přemýšlet nad tím, co je naším cílem. Předávání stále větší kontroly lidí robotům jistě vede k okamžitým úsporám a k větší efektivitě řízení školství. Jsou ideálem ekonomů i politiků se zájmem o realizaci velkých plošných zakázek pro komerční subjekty mimo resort školství. Zdá se ale, že ještě dlouho budou použitelné jen ke kontrole faktických znalostí a plnění formálních pravidel. Skutečnou kreativitu a kompetence pro život v 21. století zatím měřit nedovedou [8].

Masivní nasazení systémů automatického hodnocení žáků vede k posilování kontrolních prvků školského systému, což je v přímém rozporu se snahou směřovat edukaci (vzdělávání+výchova) ke vzájemné spolupráci, přímému kontaktu s učitelem a rozvoji vlastní snahy vytvářet si osobní vzdělávací prostředí [9]. Na obzoru vývoje tímto směrem se začíná vynořovat svět, v němž člověk bude mít stále menší vliv na chod věcí. Mám-li dostát své roli vizionáře-skeptika, musím připomenout, že na konci by mohlo být i to, že nebude vůbec třeba schopnost žáků tvořit texty hodnotit. Stroje možná budou vše psát za nás!

Máte-li pocit, že přeháním, podívejte se na vystoupení Susan Blackmore z února 2008 na TEDu.

Susan Blackmore o memech a "temech"

V případě pochybností o aktuálnosti či funkčnosti příspěvku využijte tlačítko „Napište nám“.
Napište nám