Domů > Spomocník > Základní vzdělávání > Je současná umělá inteligence schopna hodnotit tvořený text?
Odborný článek

Je současná umělá inteligence schopna hodnotit tvořený text?

21. 5. 2012 Základní vzdělávání Spomocník
Autor
Bořivoj Brdička

Anotace

Informace o současném vývoji aplikací schopných automaticky hodnotit delší souvislý text vytvořený žáky.

Zatímco my se zabýváme tím, kdo bude žákovské práce vytvořené v rámci povinného, státem nařízeného, plošného testování hodnotit a jak co nejsnáze data vytvořená na papíře hodnotitelům předat v digitální podobě, jinde ve světě již mají k dispozici co do kvality s lidskými srovnatelné automatické systémy hodnocení a přou se o to, zda je eticky správné předat kontrolu úrovně výukových výsledků strojům (Dohlížejí na vše stroje láskyplné milosti?).

Ano, je to tak. V USA se v nedávné době vyrojilo větší množství zpráv, které se zabývají právě současným kvalitativním pokrokem aplikací schopných hodnotit úroveň delších souvislých textů. Prosím, nepleťte si takové hodnocení s kontrolou pravopisu nebo s analýzou prováděnou kvůli odhalování plagiátorství. Mluvíme o literární hodnotě hodnoceného textu. Pravděpodobně nejdůležitější roli v aktuálním vývoji mají granty Amerického federálního ministerstva školství a podpora nadace Williama a Flory Hewlettových.

O tom, že ministerstvo zadalo vývoj nových systémů plošného hodnocení výukových výsledků žáků amerických škol v hodnotě 330 mil. dolarů dvěma sdružením - PARCC a SBAC, jsme informovali již na podzim 2010 (Plošné testování trochu jinak). Většina specializovaných firem zapojených do tohoto programu mezitím své systémy, jež jsou v některých případech vyvíjeny již desítky let, výrazně zdokonalila. Ukázalo se to, když byly nedávno zveřejněny závěry dosud ojedinělého výzkumu [1] vedeného Markem Shermisem z University of Akron (Ohio), který zkoumal schopnosti 9 nástrojů automatického počítačového hodnocení, jež dohromady pokrývají 97% amerického trhu v tomto segmentu, a porovnával je s již existujícím tradičním hodnocením realizovaným odborníky podle stávajících kritérií. Do zpracování bylo zahrnuto víc jak 22 tisíc prací 8 různých typů lišících se obsahem, délkou i způsobem hodnocení, jež vznikly v rámci plošného testování v 6 amerických státech. U nástrojů se nezkoumala přímo vlastní schopnost hodnocení, ale právě míra dosažení shody s výsledky získanými tradičním způsobem.

H1H2—Human Rater 1,2

AIR—American Institutes for Research

CMU—TELEDIA, Carnegie Mellon University

CTB—CTB McGraw-Hill

ETS—Educational Testing Service

MI—Measurement, Inc.

MM—MetaMetrics

PKT—Pearson Knowledge Technologies

PM—Pacific Metrics

VL—Vantage Learning

Shoda zjištěná u 9 nástrojů automatického počítačového hodnocení v porovnání s hodnocením odborníků u 8 různých typů esejí vytvořených žáky [1]

Na první pohled se z výsledků zdá, že firmy, jejichž cílem je prodat svůj software nejlépe přímo vládě Spojených států, mají v něčem pravdu. Ukázalo se totiž, že automatické hodnocení je v naprosté většině případů s lidským (H1H2) srovnatelné a existují i výjimky (esej 5 a 6), kdy je dokonce lepší [2]. Přitom je samozřejmě mnohem efektivnější, rychlejší a také výrazně levnější než v případě nutnosti osobního angažování hodnotitelů.

Mnoho amerických států, jež jsou v oblasti školství nezávislé, je díky nedostatku financí nuceno plošné ověřování výukových výsledků realizovat pomocí testů obsahujících snadno automaticky hodnotitelné otázky s výběrovou, numerickou či jednoduchou tvořenou (přesná shoda řetězce) odpovědí. Zájem na vývoji sofistikovaných systémů hodnocení disponujících umělou inteligencí, jež by dokázaly ověřovat i delší souvislý text, je proto značně velký. Aplikace takových systémů ve školství by umožnila mnohem častější ověřování schopnosti žáků tvořit texty, což je kompetence pro život v dnešním světě jistě potřebná. To je důvod, proč se ve věci aktivně angažuje již zmiňovaná Hewlett Foundation. Stojí nejen za výzkumem Marka Shermise, ale vyhlásila též soutěž o 100 tisíc dolarů pro týmy programátorů, které ve vývoji hodnotícího software udělaly největší pokrok (Automated Student Assessment Prize).

Před několika dny byly vyhlášeny výsledky [3]. První cenu (60 tisíc) si odnesl tým tří specialistů v oblasti počítačové vědy, analýzy dat a fyzikálních částic (žádný není odborníkem na vzdělávání) - Jason Tigg (UK), Stefan Henß (DE) a Momchil Georgiev (US, původem z Bulharska). Podle experta Hewlett Foundation a ředitele soutěže Toma Vander Arka vyhrál tento tým proto, že kromě běžné analýzy textu, jako je výběr slov, gramatika, struktura textu, shoda s literárním žánrem apod., byly aplikovány též prvky strategie počítačového předvídání, což by možná mohlo v budoucnosti vést k překonání problémů s ověřováním validity obsahu vytvořeného textu.

V každém případě je schopnost umělé inteligence (Američané často používají též výraz „robotů-hodnotitelů“) v tomto směru zatím velmi omezená. Sami vítězové přiznávají, že aplikace tohoto typu jsou zatím na samém počátku vývoje. Automatické hodnocení textu dokáže velmi dobře hledat gramatické nedostatky, posoudit úroveň slovní zásoby či zjistit, zda se nejedná o plagiát. Odhalit, že autor při dodržení formálních pravidel napsal ve skutečnosti faktický nesmysl, to však zatím neumí [4], [5], [6], [7].

Vývoj se jistě nedá zastavit, a tak nutně musíme předpokládat, že se systémy automatického hodnocení výukových výsledků (nejen textů) budou stále rozvíjet. Při jejich aplikaci však musíme vždy přemýšlet nad tím, co je naším cílem. Předávání stále větší kontroly lidí robotům jistě vede k okamžitým úsporám a k větší efektivitě řízení školství. Jsou ideálem ekonomů i politiků se zájmem o realizaci velkých plošných zakázek pro komerční subjekty mimo resort školství. Zdá se ale, že ještě dlouho budou použitelné jen ke kontrole faktických znalostí a plnění formálních pravidel. Skutečnou kreativitu a kompetence pro život v 21. století zatím měřit nedovedou [8].

Masivní nasazení systémů automatického hodnocení žáků vede k posilování kontrolních prvků školského systému, což je v přímém rozporu se snahou směřovat edukaci (vzdělávání+výchova) ke vzájemné spolupráci, přímému kontaktu s učitelem a rozvoji vlastní snahy vytvářet si osobní vzdělávací prostředí [9]. Na obzoru vývoje tímto směrem se začíná vynořovat svět, v němž člověk bude mít stále menší vliv na chod věcí. Mám-li dostát své roli vizionáře-skeptika, musím připomenout, že na konci by mohlo být i to, že nebude vůbec třeba schopnost žáků tvořit texty hodnotit. Stroje možná budou vše psát za nás!

Máte-li pocit, že přeháním, podívejte se na vystoupení Susan Blackmore z února 2008 na TEDu.

Susan Blackmore o memech a "temech"

Literatura a použité zdroje

[1] – SHERMIS, Mark D. Contrasting State-of-the-Art Automated Scoring of Essays: Analysis. 2012. [cit. 2012-5-15]. Dostupný z WWW: [http://www.scribd.com/doc/91191010/Mark-d-Shermis-2012-contrasting-State-Of-The-Art-Automated-Scoring-of-Essays-Analysis].
[2] – KANTROWITZ, Jonathan. Automated Essay Scoring Systems as Effective as Human Graders. 2012. [cit. 2012-5-15]. Dostupný z WWW: [http://educationresearchreport.blogspot.ca/2012/04/automated-essay-scoring-systems.html].
[3] – QUILLEN, Ian. Hewlett Automated-Essay-Grader Winners Announced. 2012. [cit. 2012-5-15]. Dostupný z WWW: [http://blogs.edweek.org/edweek/DigitalEducation/2012/05/essay_grader_winners_announced.html].
[4] – GOLDSTEIN, Dana. Machines Shouldn’t Grade Student Writing—Yet. 2012. [cit. 2012-5-15]. Dostupný z WWW: [http://www.slate.com/articles/technology/future_tense/2012/05/robo_graders_like_ets_s_e_rater_aren_t_good_enough_yet_.single.html].
[5] – KOLOWICH, Steve. A Win for the Robo-Readers. 2012. [cit. 2012-5-15]. Dostupný z WWW: [http://www.insidehighered.com/news/2012/04/13/large-study-shows-little-difference-between-human-and-robot-essay-graders#comment-496783029].
[6] – WATTERS, Audrey. Tossing Sabots into the Automated Essay Grading Machine. 2012. [cit. 2012-5-15]. Dostupný z WWW: [http://www.hackeducation.com/2012/04/15/robot-essay-graders/].
[7] – REICH, Justin. Grading Automated Essay Scoring Programs. 2012. [cit. 2012-5-15]. Dostupný z WWW: [http://blogs.edweek.org/edweek/edtechresearcher/2012/04/grading_automated_essay_scoring_programs-_part_i_bjfr.html].
[8] – FELDSTEIN, Michael. What Is Machine Learning Good For?. 2012. [cit. 2012-5-15]. Dostupný z WWW: [http://mfeldstein.com/what-is-machine-learning-good-for/].
[9] – HUNT, Bud. Responding to Responses to “What Automated Essay Grading Says To Children”. 2012. [cit. 2012-5-15]. Dostupný z WWW: [http://budtheteacher.com/blog/2012/04/25/responding-to-responses-to-what-automated-essay-grading-says-to-children/].

Licence

Všechny články jsou publikovány pod licencí Creative Commons BY-NC-ND.

Hodnocení od uživatelů

Martin Rusek
21. 5. 2012, 14:19
Závěrečnou větou jste mi vzal vítr z plachet, pane doktore. Už už jsem se chystal do komantáře hezky připsat totéž. S napětím očekávám nápor podrážděných češtinářů vzpílajících technologiím ve strachu, že přijdou o práci. Díky za zajímavý článek. :)
Mgr. Zdeněk Sotolář
21. 5. 2012, 16:25
Dík za článek. Rozhodně ty poslední věty jsou nejdůležitější: Jestliže stroj bude umět texty hodnotit, naučí se je také psát. Pak budou stroje hodnotit stroje.
Martinův komentář nám (češtinářům) ovšem dává naději, že se o práci ještě dlouho bát nemusíme. 
Martin Rusek
21. 5. 2012, 17:04
:) Snad to není až taková hrůza, pane kolego :) On ten stroj zachvíli bude umět k dokonalosti dovést text, který zadám jen jako Joyceovsky pojatý tok klíčových slov.
Bořivoj Brdička
11. 4. 2013, 21:33
Ukazuje se, že se automatického hodnocení tvořeného textu dočkáme dříve, než jsme si mysleli. Budou jím vbrzku vybaveny všechny systémy xMOOC kurzů.Essay-Grading Software Offers Professors a Break, The New York Times, April 4, 2013
Bořivoj Brdička
16. 4. 2013, 09:06
V souvislosti s přechozím oznámením, Elijah Mayfield vysvětluje, jak automatická hodnocení tvořeného textu funguje - Six Ways the edX Announcement Gets Automated Essay Grading Wrong.
Bořivoj Brdička
21. 8. 2013, 08:45
Další zajímavý článek přinášející aktualizované informace o automatickém hodnocení tvořeného textu: Vik Paruchuri - On the Automated Scoring of Essays and the Lessons Learned Along the Way
Bořivoj Brdička
13. 1. 2015, 10:20
LightSide - a máme tady první použitelný, navíc ještě volně dostupný, software na analýzu textu se zabudovanou umělou inteligencí (učí se vkládáním hodnocení školenými hodnotiteli) vyvinutý s podporou Carnegie Mellon University . Dává žákům tvořícím texty v angličtině průběžnou zpětnou vazbu o lingvistické (ne gramatické) kvalitě jejich tvorby.

Váš komentář

Pro vložení komentáře je nutné se nejprve přihlásit.

Článek není zařazen do žádného seriálu.