Domů > Spomocník > Základní vzdělávání > Jsou velká data velkým potenciálem nebo velkou chybou?
Odborný článek

Jsou velká data velkým potenciálem nebo velkou chybou?

31. 3. 2014 Základní vzdělávání Spomocník
Autor
Bořivoj Brdička
Tento článek je součastí seriálu: Velká data ve výuce

Anotace

První díl dvoudílného seriálu popisujícího současný stav využití aplikací založených na velkých datech ve školství v USA a nejen tam. Zabývá se především obecnými možnostmi a riziky, která jejich aplikace přináší.

Snad nemusím opakovat, že problematika velkých dat, a na nich prováděné analýzy výukových výsledků, je hodně aktuální. Vývoj je tak rychlý, že je třeba ho soustavně sledovat. Dovolím si připomenout ty nejdůležitější příspěvky, na něž budu v tomto dvoudílném seriálu navazovat - Jaká je budoucnost pedagogického výzkumu?, Strategie rozvoje školství v USA pod taktovkou Ed.gov, Školská data jako předmět podnikání, Zneužitelnost dat v mracích.

Dnes lidstvo produkuje 5 exabytů dat každé 2 dny (což je zhruba stejné množství, jako úplně vše, co bylo vytvořeno od počátku věků do roku 2003) [1]. Množství existujících digitálních dat uložených kdesi online roste exponenciálně. Skutečná hodnota velkých dat přitom vychází z jejich volné dostupnosti a sdílení, tj. ze spojení uživatelů internetu, které využitelnost dat výrazně umocňuje. Všichni jsme jak příjemci, tak tvůrci digitálního obsahu. Trend, který je zcela zřejmý, ukazuje, že se dostupnost a zpracování velkých dat stále více přesouvá z oblastí, kde je dříve využívali pouze odborníci, do míst, kde mohou sloužit i veřejnosti - v našem případě žákům a učitelům.

Ve výuce se budou stále více uplatňovat aplikace, které pracují online a zaznamenávají skoro vše, co žáci během své činnosti na digitálních zařízeních dělají. Pak může docházet k ukládání takových dat, o nichž bychom za jistých okolností mohli jako o velkých hovořit. Ve většině případů však zatím podobná data buď ukládána nejsou, nebo je provozovatel příslušné služby zcela nesprávně chápe jako své vlastnictví. Ve skutečnosti se však jedná o data soukromá, jejichž vlastníkem by správně měl zůstat vždy ten uživatel, který je vytvořil [2].

K tomu, abychom data ukládaná různými výukovými aplikacemi mohli využít k analýze výukových výsledků, je třeba, aby tyto aplikace byly schopné pracovat pod jednotným systémem, tj. aby používaly pro zaznamenávání dat stejný standard a ukládaly je tak, aby se k nim mohl nástroj provádějící analýzu dostat.

Asi bychom si na tomto místě měli ještě připomenout Schönbergerovu představu o tom, že analýzu velkých dat je vhodné svěřit specialistům, které bude třeba pro tento nový obor vychovat (Co je datafikace?). Znamená to, že běžný digitálně kompetentní učitel nebude zkoumat holá data sám a nebude nucen si analytické nástroje vymýšlet. Bude ve většině případů využívat analytických služeb, které mu někdo vytvoří a nabídne.

Definice velkých dat

Analytik společnosti Gartner, Doug Laney, zavedl již v roce 2001 třísložkový popis vlastností velkých dat jako 3V – Volume (rozsah), Velocity (rychlost), Variety (různorodost). K nim se v současné době ještě připojuje čtvrté V, a sice Veracity (věrohodnost) [3].

  1. Rozsah: Velká data zahrnují informace o co největším počtu žáků a u každého z nich pokrývají vícenásobné množství položek ukládaných opakovaně v čase. V rámci školství mohou takto být data sbírána z více organizací, takže pak jejich analýza může vytvářet globální perspektivu.
  2. Rychlost: Jednou ze základních vlastností aplikací pracujících s velkými daty je okamžitý přístup k výsledkům, a to často přímo v reálném čase. Typickým příkladem jsou adaptivní testy, které reagují na předchozí odpovědi. V ideálním případě je analýza dat popisující aktuální stav žáka dokonce založena na všech výsledcích evidovaných od okamžiku jeho vstupu do systému. Jednou z velmi zajímavých možností je specifická pomoc při nesprávném postupu založená na porovnání s velmi podobnými postupy jiných uživatelů vedoucí k návrhu strategie pro úspěšné řešení daného problému. Okamžitou analýzu výsledků může využít též učitel k vlastní modifikaci výukových činností svých žáků.
  3. Různorodost: Záznam údajů u velkého počtu žáků dovoluje poměrně snadno hledat souvislosti, které mají na výukové výsledky vliv. Jen je třeba mít k dispozici též informace popisující prostředí, v němž žáci žijí.
  4. Věrohodnost: Je samozřejmě velmi důležité věnovat též pozornost tomu, zda data systémem ukládaná odpovídají skutečnosti. V případě online testů se například většinou řeší to, zda místo zkoušeného nesedí u počítače někdo jiný (Jak bránit podvodům u online testů). Budeme-li ale mít k dispozici data o dlouhodobé činnosti konkrétního žáka, bude mnohem snadnější podobné podvody odhalovat. Již dnes existují metody ověřující totožnost např. podle stylu psaní na klávesnici.

Shrnutí toho, co můžeme od analýzy výukových výsledků očekávat, najdete zde - Skutečné možnosti využití daty řízeného školství.

Rizika analýzy velkých dat

Jako veškeré výdobytky civilizace mohou být velká data jak dobrým sluhou, tak zlým pánem. Je poměrně snadno možné, aby při nevhodné aplikaci způsobily více škody než užitku. Podívejme se na ta největší možná rizika.

  • Soukromí: Činnostmi, které realizujeme online, o sobě prozrazujeme mnohé. Provozovatelé takových online aplikací, které používáme na mailování, vyhledávání informací, ukládání dokumentů či fotek, komunikaci, nákupy apod. mají přístup k osobním informacím. Poměrně dost se toho dá vyčíst dokonce i z veřejně dostupných zdrojů. Je proto velmi důležité správně nastavit, kdo a jak smí se soukromými daty žáků pracovat.
  • Zkreslení: Ve skutečnosti může být výsledek analýzy velkých dat poměrně dost zkreslený. Např. je dost obtížné do ní zahrnout podmínky, v nichž žáci online výukové aktivity realizují. To pak může ovlivnit třeba i výsledný profil žáka, který je vytvářen automaticky na základě dat získaných sledováním jeho činnosti online. Je zde riziko, že takto vzniklý zkreslený obraz může žáka poškodit a může se s ním táhnout po celý život.
  • Dehumanizace: Analýza výukových výsledků založená na sběru velkých dat vede k odosobnění tohoto procesu. To, co vždy bývalo prováděno výhradně v rámci přímého kontaktu učitele s žákem, je realizováno stroji, které s živými lidmi zacházejí jako s neživými objekty či daty (Dohlížejí na vše stroje láskyplné milosti?).
  • Nesprávná data: Mnoho zemí světa provádí tzv. plošné testování pomocí rozhodných testů (rozhodují o životě zkoušeného na základě jeho okamžitého výkonu). Tyto postupy jsou mnohými odborníky kritizovány. Velká data sice umožňují nahradit rozhodné testy analýzou dlouhodobé činnosti žáka, ale i tyto metody bohužel vedou k soutěži žáků i škol v tom, kdo dosáhne lepších výsledků. Takto se vytváří nedobré sociální klima. Navíc je zde velké riziko, že školy začnou učit jen to, co se testuje, a ostatní výukové cíle budou pomíjet. Tím nejhorším, co se může přihodit, však je, když se aktéři procesu rozhodnou výsledky přímo falšovat. Podobné případy, kdy učitelé pomáhali žákům jen proto, aby sami byli lépe hodnoceni, bohužel známe nejen z ciziny, ale dějí se i u nás (Skandální odhalení v El Paso. Kam zmizeli žáci během zkoušek?).
    Vzhledem k tomu, že naše Inspekce připravuje rozsáhlý systém ukládání všech zjištění z inspekční a testovací činnosti, který bude schopen provádět analýzy pro potřeby ministerstva, nedá mi to, abych nepřipomněl, že se jedná přesně o takovou aplikaci, u níž má věrohodnost získaných dat zásadní důležitost. Pokud se například bude zjišťovat úroveň digitálních kompetencí učitelů na základě jejich vlastního sdělení, kolikrát do měsíce použili ve výuce libovolnou technologii (promítání prezentace), nelze na základě toho ani při stoupajícím trendu tvrdit, že se jejich schopnost využívat technologie zlepšuje. Příkladů vyvozování chybných závěrů vyvolaných počátečním pořízením nesprávných dat je u nás bohužel docela dost (např. viz ICT ve vzdělávání 2013 – nový průzkum Evropské komise).
  • Korelace/příčina: To, že existuje mezi nějakými jevy korelace (zdá se, že mají souvislost), ještě nutně neznamená, že je jejich příčina stejná. Pro názornost uvedu příklad z Wikipedie (Correlation does not imply causation). „Když stoupá prodej zmrzliny, zvětšuje se počet utonutí. Proto pojídání zmrzliny vede k utonutí.“ V tomto jednoduchém případě si ještě asi umíme představit, kde je chyba. To však při analýze velkých dat často není na první pohled možné. Proto nelze dělat okamžité závěry. Je třeba příčinu jevů, které nás zajímají, důkladně ověřovat.
  • Závěry neodpovídající datům: Občas se může stát, že jsou data sice správná, ale chybné jsou závěry analýzy. Tak třeba žebříček kvality vysokých škol je založen hlavně na úrovni vědecké práce jejich zaměstnanců. Vyvozovat z něj úroveň výuky je přinejmenším zavádějící.

MindCET Snapshot #2 - Big Data & Education

Příště se podíváme na to, jak pokračuje vývoj již existujících systémů řízení výuky založených na velkých datech.

Literatura a použité zdroje

[1] – Google CEO Eric Schmidt: 'People Aren't Ready For The Technology Revolution'. 2010. [cit. 2014-3-30]. Dostupný z WWW: [http://www.huffingtonpost.com/2010/08/05/google-ceo-eric-schmidt-p_n_671513.html].
[2] – Privacy Technical Assistnace Center. Protecting Student Privacy While Using Online Educational Services: Requirements and Best Practices. 2014. [cit. 2014-3-30]. Dostupný z WWW: [http://ptac.ed.gov/sites/default/files/Student%20Privacy%20and%20Online%20Educational%20Services%20%28February%202014%29.pdf].
[3] – LANEY, Doug. 3D Data Management: Controlling Data Volume, Velocity, and Variety. 2012. [cit. 2014-3-30]. Dostupný z WWW: [http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf].

Licence

Všechny články jsou publikovány pod licencí Creative Commons BY-NC-ND.

Hodnocení od uživatelů

E Kocourek
31. 3. 2014, 06:42
Kde je čertovo kopýtko a nezbytné non sequitur? Inu, čtvrtý odstavec. Abychom data generovaná čímkoli (třeba různými výukovými aplikacemi) mohli využít k jakékoli analýze (třeba k analýze výukových výsledků), vůbec není třeba, aby jakékoli aplikace byly schopné pracovat pod jednotným systémem (byť změkčeno na "aby používaly pro zaznamenávání dat stejný standard"). Bohatě postačí, když generovaná data budou zachovávat nějaké definované rozhraní, definovaný formát, který zajisté nemusí být jednotný.
Děsí mě představa, až přijde nějaký pologramotný ouřada - nebo dokonce politik - s požadavkem, "aby aplikace byly schopné pracovat pod jednotným systémem", a bude to zdůvodňovat "vědeckým" dobrozdáním ze dne 2014-03-31.
Bořivoj Brdička
31. 3. 2014, 08:16
Děkuji za upřesnění. Stačí standardizované rozhraní. Tak to bylo míněno. Za ním si může aplikace dělat, co chce. I to je ale pro naše ouřady zcela neřešitelný problém. Data jsou vnímána jako nejcennější komodita a nikdo je sdílet nechce. Přinutit všechny dodavetele, aby je podle definovaného standardu (rozhraní) předávali do centrálního úložiště se zdá být zcela neřešitelný problém. Jsem docela zvědav, kdy se tím u nás někdo začne zabývat. Vidím jedno snadné řešení. Mohli bychom na celé řešení vypsat výběrové řízení a nechat výherce celou věc vyřešit za nás. Pak bychom skutečně asi museli ve školách používat jednotný systém (řízení výuky, ne operační).
Milan Randák
31. 3. 2014, 08:44
Minulý týden jsem byl na školení systému NIQUES vyvíjeném Českou školní inspekcí. Tam už velká data vznikat budou. Zajímavé je, že kromě modulu na testování žáků všech tříd a ze všech předmětů mají vzniknout i moduly dublující informační systém školy a také LMS. Školení začínalo pokyny typu "nahrajete data o žácích", "nahrajete data o úvazcích". Možná je to v pořádku, ale musím se přiznat, měl jsem z toho takový trochu nepříjemný pocit.
Bořivoj Brdička
31. 3. 2014, 12:10
Abychom měli jasno, asi je třeba o tom, co dělá NIQES mluvit. Je zřejmé, že se snaží k velkým datům dospět, ale je to hodně vzdáleno. Velká data to budou teprve tehdy, když se v systému budou analyzovat i aktivity, které žáci dělají mimo oficielní testování. iSET je na něco takového připravován, ale je jen malá šance, že bude masově používán. Mnohem větší šanci mají vývojáři aplikací, které se úspěšně snaží především učit, nejen testovat.
E Kocourek
31. 3. 2014, 18:36
Navrhujete informační socialismus! Data jsou hodně cenná komodita a nikdo je sdílet nechce, pochopitelně. A vy chcete donutit majitele dat, aby je sdíleli s čertvíjakým Úřadem, samozřejmě zadarmo. Až ten Úřad (nebo spíš nějaký podnikavý činovník vochomejtající se kolem) bude ta data draho prodávat každému platícímu zájemci.
Pochopil jste to rozhraní špatně, pane Brdička. Učitel si vymyslí svoji aplikaci, nebo upraví nějakou existující, každopádně vymyslí svoji metodiku a začlení sběr dat do svého vyučování. A ta nasbíraná data budou samozřejmě majetek toho učitele, v krajním případě částečně i školy, když se předem nějak dohodnou. A pokud ta data od jejich majitele, toho učitele, který je získal, bude chtít koupit nějaký Úřad a nabídne přijatelnou cenu, dostane ta data a k nim sdělení, že formát těch dat je takový či makový, a může si ten Úřad k tomu naprogramovat převodník. Když to bude umět. Kdepak, že by jim ta data do nějakého befelem centrálně stanoveného formátu převáděl ten učitel!
Umíte vymýšlet pěkně děsivé noční můry, pane Brdička! Vypsat výběrové řízení a nechat výherce celou věc "vyřešit"! A že prý snadné řešení! Ale ony ty centrální úřady asi nic jiného neskousnou, že? Takže pro nepoučitelné se uspořádá nový INDOŠ? Dodavatelé všech předražených nesmyslů už se těší na hostinu. Asi nemá smysl ministeriálům vysvětlovat, že takový centrálně nadekretovaný sběr dat dopadne jako testování CERMATem.
Bořivoj Brdička
31. 3. 2014, 23:06
Pane Kocourku, data sebraná jedním učitelem jsou naprosto nezajímavá. Navíc všude uvádíme, že data zásadně patří tomu, kdo je vytvořil. S ním se pak musí udělat smlouva. On má mít možnost kontrolovat, která do systému poskytne. Na druhou stranu, on většinou také něco chce, že? Nás přece také nikdo nenutí používat aplikace Google a děláme to (a můžeme tam své data i smazat). Pokračování bude zase v pondělí.
E Kocourek
31. 3. 2014, 23:57
Pane Brdička, vycházím z vašich formulací, například, cituji vás, "Přinutit všechny dodavetele". Pokud žádné nucení dodavatelů nehrozí, beru vše zpět, a jen doufám, že nehrozí ani vypsání výběrového řízení na jednotný systém řízení výuky.
Co se týče zajímavosti či nezajímavosti dat sebraných jedním učitelem, jistě máte přesnější informace nežli já o motivaci jednotlivých učitelů. Já naivně předpokládám, že každý jeden učitel (pokud už ta data sbírá) sbírá ta data primárně pro svoji vlastní potřebu, a předávání dat kamsi do centrálního úložiště je v jeho seznamu priorit hodně vzadu, až v nedohlednu.
Srovnání s Googlem jsem nepochopil. Vy máte smlouvu s Googlem, která "se musela udělat"? Já ne.
Bořivoj Brdička
1. 4. 2014, 08:11
1. Přinutit dodavatele (vývojáře), aby respektovali i u výukových výsledků, že vlastníkem dat je autor (původce) snadné nebude.2. Pouze (velká) data získaná činností mnoha uživatelů je možno použít k analýze dávající globální smysl. Je možno k cíli dospět tak, že se jedna komerční aplikace (systém) prosadí, nebo tak že se vytvoří standardní rozhraní a používat se bude vše, co tuto podmínku splní.3. I ten jeden každý učitel určitě pochopí, jaký přínos má, když může výsledky svých žáků sledovat dlouhodobě po celou dobu studia. A navíc ne jen výsledky rozhodných jednorázových testů.4. Smlouvu se všemi poskytovateli cloudových aplikací samozřejmě máme. Vždy potvrzujeme souhlas s podmínkami použití.
Bořivoj Brdička
24. 1. 2016, 09:58
Příkladem hodným následování pro nás může být Británie. Higher Education Commission tam právě publikovala zprávu, která znamená zahájení procesu standardizace využití analýzy výukových výsledků na VŠ. Znamená sice centralizované řešení na státní úrovni, ale zároveň řeší i důležité etické problémy. Obávám se, že není jiné cesty, chceme-li zajistit, aby data tohoto typu nebyla zneužívána. Zde odkaz:From Bricks to Clicks: the potential of data and analytics in Higher Education.
E Kocourek
25. 1. 2016, 22:05
Aby data nebyla zneužívána, stačí, když je majitel dat (t.j. učitel) nikomu dalšímu nedá. Zejména ne nějakému centrálnímu úřadu.
V Česku je toto konstatování zcela jasné a bezesporné - všem nám přece chodí reklamní SMS na telefonní čísla, která jsme žádné reklamní agentuře nepředali.
Do jaké míry pro nás zrovna dnešní Británie může být příkladem hodným následování je ve hvězdách. Ona už ta Británie není co bejvala. A jak moc jsou britské centrální úřady důvěryhodné, když i premiér je nezanedbatelným počtem Britů považován za nechutného podrazáka. Jehož vláda vynakládá značné úsilí, mimo jiné, na zajištění přístupu státních orgánů k soukromé komunikaci britských poddaných.

Váš komentář

Pro vložení komentáře je nutné se nejprve přihlásit.

Zařazení do seriálu:

Tento článek je zařazen do seriálu Velká data ve výuce.
Ostatní články seriálu: