etcML analyzátor textu na webu

15. 9. 2014 Základní vzdělávání Spomocník

Autor

David Růžička

Anotace

Článek informuje o nástroji na automatickou analýzu textů pracujícím jak s volně dostupnými příspěvky online (tvíty), tak s vloženými dokumenty (např. pracemi žáků), který vyvinuli vědci ze Stanfordu.

Chcete se dozvědět, jaké obliby dosahuje váš sportovní tým na Twitteru? Nebo zda má váš podnikatelský záměr naději na úspěch? Prostřednictvím aplikace etcML lze několika jednoduchými kliky na podobné otázky získat odpovědi. Ale to není všechno. Můžete zdokonalovat již vytvořené algoritmy zadání úloh a podělit se o svá vylepšení s ostatními!

Toto je doslovný úvod oficiálních stránek analyzátoru textu etcML. O co vlastně jde? Počítačoví vědci ze Stanfordské univerzity zpřístupnili veřejnosti aplikaci, která každému umožňuje jednoduše řečeno klást analytické otázky a dostávat na ně odpovědi. Ve skutečnosti je to samozřejmě trochu složitější. Pokud máme k dispozici text, můžeme ho jednoduše vložit a zjistit za pomoci analýzy slov a frází, jeho emoční náboj (zda je článek myšlen v pozitivním, neutrálním či negativním smyslu). Analýzu ale ve skutečnosti umí aplikace provést na základě zadaných klíčových slov i u jiných online textových zdrojů [1].

Právě analýza pozitivních či negativních názorů je úzce spjata se sociální sítí Twitter. Na této síti zveřejňují uživatelé své myšlenky, dojmy, odkazy, ať už osobního či jiného rázu. Všechny tyto informace jsou veřejnosti přímo na Twitteru dostupné. Počet uživatelů Twitteru se přitom již blíží k miliardě. Z toho je přibližně 200 milionů uživatelů aktivních. Denní počet zpráv (tvítů), které uživatelé vyšlou do světa, je kolem 500 milionů [2]. Všechny tyto zprávy je etcML schopen projít a analyzovat. Naskýtá se nám tedy poměrně nová možnost provádět vlastní rychlý průzkum veřejného mínění, a to rovnou na velkých datech. Ve skutečnosti se vlastně jedná o jev, který stále více proniká do našeho běžného života – o tzv. datafikaci. Velká data dnes umožňují nové a nečekané způsoby sběru a analýzy informací [3].

Nejprve jsou vždy vybrány všechny zprávy, které by se podle klíčových slov mohly daným tématem zabývat, a poté jsou hlouběji analyzovány a zjišťuje se jejich emoční náboj. Například názor na prezidenta Spojených států Amerických či jakékoliv jiné téma, na které je vytvořen algoritmus který příspěvky klasifikuje, neboli klasifikátor.

Klasifikátory vytvářejí nejen tvůrci etcML ale i samotní uživatelé. Představme si skript, který je vyvíjen podle záměru autora. Například bude hodnotit obsah textu na základě určitých klíčových slov a ukáže se, že prvotní návrh není dostatečný, že je potřeba přidat další klíčová slova či jiná kritéria. Tyto úpravy klasifikátoru mohou kromě autora, pokud to je umožněno, dělat i ostatní uživatelé. Ti tak mohou touto formou sdílení možnosti využití tohoto analytického nástroje zdokonalovat. Vědci ze Stanfordu tvrdí, že k tvorbě klasifikátorů není třeba znalost programovacího jazyka. To je sice pravda, ale tak jednoduché to zase není, též proto, že celý projekt je v plenkách a pracuje výhradně s angličtinou.

Na obrázku je ukázka analýzy názorů uživatelů twitteru na téma z filmového průmyslu. Objevil se návrh, že v dalším filmu o batmanovi by postavu batmana měl hrát herec Ben Affleck. Ve výsledku vidíme časový průběh reakcí na oznámení této skutečnosti včetně vybraných tvítů na toto téma se zjištěnou hodnotou negativity či pozitivity.

Závěry nejsou zcela bezchybné. Průměrná úspěšnost analýzy se blíží 85 %, ale to není u všech témat stejné. Během zkoumání etcML jsem narazil na několik případů chybných analýz, třeba u reakce na smrt Hanse Gigera (malíř a sochař, autor hollywoodského monstra Vetřelec). V jednom textu, který byl vyhodnocen jako negativní, uživatel psal, že pan Giger nemůže odpočívat v pokoji, raději se někde prohání se svými příšerkami. Je zřejmé, že autor to myslel s lehkou nadsázkou, ale v dobrém. To však analyzátor zatím rozpoznat nedokáže.

Dodejme jen, že ironie bude asi strojům zatím dělat dost velké potíže, což potvrdila i nedávná zpráva vědců z Oxfordu (Kdo z našich žáků nejspíše nenajde práci?). Zdá se, že právě sociální inteligence je kompetencí, kterou zatím stroje nezvládají. Patří sem právě schopnost vnímat druhé lidi a rozumět jejich reakcím, schopnost sbližovat rozdílná stanoviska a hledat kompromisy, schopnost donutit druhé změnit názor nebo chování, poskytnout duševní podporu.

Využití etcML ve školství.

Tvořit vlastní klasifikátory chce čas a trpělivost, zejména jejich správné odladění. Největší výhodu do budoucna spatřuji v podpoře těch výukových aktivit, v jejichž rámci je třeba zpracovávat velké množství materiálů. Roztřídit vše a vybrat to podstatné, je velmi pracné. Pokud máme možnost analyzovat online materiály strojově, můžeme zjistit alespoň to, které stojí za to probrat podrobněji. Student samozřejmě musí dokumenty nakonec prostudovat sám, ale ušetří se mu čas, nemusí-li se částí z nich vůbec zabývat.

Jak už jsem se zmínil, může analýza probíhat i tak, že vložíme vlastní text a necháme námi vybraný či vytvořený klasifikátor provést analýzu. To by se mohlo hodit učitelům při kontrole písemných prací, například slohového typu. Student doktorského studia počítačových věd Chinmay Kulkarni [4] vyzkoušel etcML následovně. Vytvořil test, ve kterém hodnotil kreativitu a názor studentů. Zadáním bylo, že studenti mají přeformulovat zadanou otázku. Příklad: Přepište otázku „Máte rádi funkci Word Art v programu Microsoft Word?“ tak, aby vyzývala k rozvinuté odpovědi. Kulkarmi postupoval tak, že sám nejprve navrhl vzorové řešení a poté vytvořil klasifikátor, který porovnával jeho text s výsledkem studentů.

Kulkarni k tomu říká: „Ohodnotit kreativní práci automaticky je obtížné. Nejdřív musíme zajistit, aby byla pozitivně ohodnocena každá správná odpověď (včetně neobvyklých). Taky je nutné zajistit, aby studenti nemohli přechytračit systém nesmyslnými odpověďmi obsahujícími pouze klíčová slova.“

Zdá se, že systém etcML je zatím využíván spíše formou kombinující lidské a strojové hodnocení. Software automaticky uplatňuje jen některá (jednodušší) hlediska, a člověka se zeptá, pouze pokud si není jistý. Vede hodnotitele, a tak jim pomáhá pracovat rychleji a přesněji (viz Je současná umělá inteligence schopna hodnotit tvořený text?).

Na systému hodnocení se intenzivně pracuje. Jeho testování zatím dokazuje, že využití kombinovaného přístupu pomáhá snižovat čas strávený u hodnocení a přitom zachovává vysokou kvalitu a spolehlivost.

Již současná úroveň etcML ukazuje, že tento nástroj může být využit jak k hodnocení vlastních textů, tak k analýze velkých dat. Pravděpodobně se nakonec stane součástí většího a komplikovanějšího systému pro analýzu názorů lidí vyjadřovaných na sociálních sítích.