Snad nemusím opakovat, že problematika velkých dat, a na nich prováděné analýzy výukových výsledků, je hodně aktuální. Vývoj je tak rychlý, že je třeba ho soustavně sledovat. Dovolím si připomenout ty nejdůležitější příspěvky, na něž budu v tomto dvoudílném seriálu navazovat - Jaká je budoucnost pedagogického výzkumu?, Strategie rozvoje školství v USA pod taktovkou Ed.gov, Školská data jako předmět podnikání, Zneužitelnost dat v mracích.
Dnes lidstvo produkuje 5 exabytů dat každé 2 dny (což je zhruba stejné množství, jako úplně vše, co bylo vytvořeno od počátku věků do roku 2003) [1]. Množství existujících digitálních dat uložených kdesi online roste exponenciálně. Skutečná hodnota velkých dat přitom vychází z jejich volné dostupnosti a sdílení, tj. ze spojení uživatelů internetu, které využitelnost dat výrazně umocňuje. Všichni jsme jak příjemci, tak tvůrci digitálního obsahu. Trend, který je zcela zřejmý, ukazuje, že se dostupnost a zpracování velkých dat stále více přesouvá z oblastí, kde je dříve využívali pouze odborníci, do míst, kde mohou sloužit i veřejnosti - v našem případě žákům a učitelům.
Ve výuce se budou stále více uplatňovat aplikace, které pracují online a zaznamenávají skoro vše, co žáci během své činnosti na digitálních zařízeních dělají. Pak může docházet k ukládání takových dat, o nichž bychom za jistých okolností mohli jako o velkých hovořit. Ve většině případů však zatím podobná data buď ukládána nejsou, nebo je provozovatel příslušné služby zcela nesprávně chápe jako své vlastnictví. Ve skutečnosti se však jedná o data soukromá, jejichž vlastníkem by správně měl zůstat vždy ten uživatel, který je vytvořil [2].
K tomu, abychom data ukládaná různými výukovými aplikacemi mohli využít k analýze výukových výsledků, je třeba, aby tyto aplikace byly schopné pracovat pod jednotným systémem, tj. aby používaly pro zaznamenávání dat stejný standard a ukládaly je tak, aby se k nim mohl nástroj provádějící analýzu dostat.
Asi bychom si na tomto místě měli ještě připomenout Schönbergerovu představu o tom, že analýzu velkých dat je vhodné svěřit specialistům, které bude třeba pro tento nový obor vychovat (Co je datafikace?). Znamená to, že běžný digitálně kompetentní učitel nebude zkoumat holá data sám a nebude nucen si analytické nástroje vymýšlet. Bude ve většině případů využívat analytických služeb, které mu někdo vytvoří a nabídne.
Definice velkých dat
Analytik společnosti Gartner, Doug Laney, zavedl již v roce 2001 třísložkový popis vlastností velkých dat jako 3V – Volume (rozsah), Velocity (rychlost), Variety (různorodost). K nim se v současné době ještě připojuje čtvrté V, a sice Veracity (věrohodnost) [3].
- Rozsah: Velká data zahrnují informace o co největším počtu žáků a u každého z nich pokrývají vícenásobné množství položek ukládaných opakovaně v čase. V rámci školství mohou takto být data sbírána z více organizací, takže pak jejich analýza může vytvářet globální perspektivu.
- Rychlost: Jednou ze základních vlastností aplikací pracujících s velkými daty je okamžitý přístup k výsledkům, a to často přímo v reálném čase. Typickým příkladem jsou adaptivní testy, které reagují na předchozí odpovědi. V ideálním případě je analýza dat popisující aktuální stav žáka dokonce založena na všech výsledcích evidovaných od okamžiku jeho vstupu do systému. Jednou z velmi zajímavých možností je specifická pomoc při nesprávném postupu založená na porovnání s velmi podobnými postupy jiných uživatelů vedoucí k návrhu strategie pro úspěšné řešení daného problému. Okamžitou analýzu výsledků může využít též učitel k vlastní modifikaci výukových činností svých žáků.
- Různorodost: Záznam údajů u velkého počtu žáků dovoluje poměrně snadno hledat souvislosti, které mají na výukové výsledky vliv. Jen je třeba mít k dispozici též informace popisující prostředí, v němž žáci žijí.
- Věrohodnost: Je samozřejmě velmi důležité věnovat též pozornost tomu, zda data systémem ukládaná odpovídají skutečnosti. V případě online testů se například většinou řeší to, zda místo zkoušeného nesedí u počítače někdo jiný (Jak bránit podvodům u online testů). Budeme-li ale mít k dispozici data o dlouhodobé činnosti konkrétního žáka, bude mnohem snadnější podobné podvody odhalovat. Již dnes existují metody ověřující totožnost např. podle stylu psaní na klávesnici.
Shrnutí toho, co můžeme od analýzy výukových výsledků očekávat, najdete zde - Skutečné možnosti využití daty řízeného školství.
Rizika analýzy velkých dat
Jako veškeré výdobytky civilizace mohou být velká data jak dobrým sluhou, tak zlým pánem. Je poměrně snadno možné, aby při nevhodné aplikaci způsobily více škody než užitku. Podívejme se na ta největší možná rizika.
- Soukromí: Činnostmi, které realizujeme online, o sobě prozrazujeme mnohé. Provozovatelé takových online aplikací, které používáme na mailování, vyhledávání informací, ukládání dokumentů či fotek, komunikaci, nákupy apod. mají přístup k osobním informacím. Poměrně dost se toho dá vyčíst dokonce i z veřejně dostupných zdrojů. Je proto velmi důležité správně nastavit, kdo a jak smí se soukromými daty žáků pracovat.
- Zkreslení: Ve skutečnosti může být výsledek analýzy velkých dat poměrně dost zkreslený. Např. je dost obtížné do ní zahrnout podmínky, v nichž žáci online výukové aktivity realizují. To pak může ovlivnit třeba i výsledný profil žáka, který je vytvářen automaticky na základě dat získaných sledováním jeho činnosti online. Je zde riziko, že takto vzniklý zkreslený obraz může žáka poškodit a může se s ním táhnout po celý život.
- Dehumanizace: Analýza výukových výsledků založená na sběru velkých dat vede k odosobnění tohoto procesu. To, co vždy bývalo prováděno výhradně v rámci přímého kontaktu učitele s žákem, je realizováno stroji, které s živými lidmi zacházejí jako s neživými objekty či daty (Dohlížejí na vše stroje láskyplné milosti?).
- Nesprávná data: Mnoho zemí světa provádí tzv. plošné testování pomocí rozhodných testů (rozhodují o životě zkoušeného na základě jeho okamžitého výkonu). Tyto postupy jsou mnohými odborníky kritizovány. Velká data sice umožňují nahradit rozhodné testy analýzou dlouhodobé činnosti žáka, ale i tyto metody bohužel vedou k soutěži žáků i škol v tom, kdo dosáhne lepších výsledků. Takto se vytváří nedobré sociální klima. Navíc je zde velké riziko, že školy začnou učit jen to, co se testuje, a ostatní výukové cíle budou pomíjet. Tím nejhorším, co se může přihodit, však je, když se aktéři procesu rozhodnou výsledky přímo falšovat. Podobné případy, kdy učitelé pomáhali žákům jen proto, aby sami byli lépe hodnoceni, bohužel známe nejen z ciziny, ale dějí se i u nás (Skandální odhalení v El Paso. Kam zmizeli žáci během zkoušek?).
Vzhledem k tomu, že naše Inspekce připravuje rozsáhlý systém ukládání všech zjištění z inspekční a testovací činnosti, který bude schopen provádět analýzy pro potřeby ministerstva, nedá mi to, abych nepřipomněl, že se jedná přesně o takovou aplikaci, u níž má věrohodnost získaných dat zásadní důležitost. Pokud se například bude zjišťovat úroveň digitálních kompetencí učitelů na základě jejich vlastního sdělení, kolikrát do měsíce použili ve výuce libovolnou technologii (promítání prezentace), nelze na základě toho ani při stoupajícím trendu tvrdit, že se jejich schopnost využívat technologie zlepšuje. Příkladů vyvozování chybných závěrů vyvolaných počátečním pořízením nesprávných dat je u nás bohužel docela dost (např. viz ICT ve vzdělávání 2013 – nový průzkum Evropské komise).
- Korelace/příčina: To, že existuje mezi nějakými jevy korelace (zdá se, že mají souvislost), ještě nutně neznamená, že je jejich příčina stejná. Pro názornost uvedu příklad z Wikipedie (Correlation does not imply causation). „Když stoupá prodej zmrzliny, zvětšuje se počet utonutí. Proto pojídání zmrzliny vede k utonutí.“ V tomto jednoduchém případě si ještě asi umíme představit, kde je chyba. To však při analýze velkých dat často není na první pohled možné. Proto nelze dělat okamžité závěry. Je třeba příčinu jevů, které nás zajímají, důkladně ověřovat.
- Závěry neodpovídající datům: Občas se může stát, že jsou data sice správná, ale chybné jsou závěry analýzy. Tak třeba žebříček kvality vysokých škol je založen hlavně na úrovni vědecké práce jejich zaměstnanců. Vyvozovat z něj úroveň výuky je přinejmenším zavádějící.
MindCET Snapshot #2 - Big Data & Education
Příště se podíváme na to, jak pokračuje vývoj již existujících systémů řízení výuky založených na velkých datech.