NPI Vedeme školu Metodický portál RVP.CZ Zapojme všechny Digitalizace vzdělávání Revize RVP EduRevue MojeEdu

Spomocník Základní vzdělávání Co dokáží stroje schopné hlubokého učení

Odborný článek

Co dokáží stroje schopné hlubokého učení

25. 4. 2016 Základní vzdělávání Spomocník

Autor

Bořivoj Brdička

Anotace

Komplexní informace o stavu vývoje technologií umělé inteligence disponujících schopností tzv. "hlubokého učení". Mají celou řadu souvislostí se vzděláváním lidí.

Úvod

Zdokonalování schopností technologií, způsobené rozvojem umělé inteligence, je tak obrovské, že nám někdy až bere dech a vyvolává v nás obavy z budoucnosti. Poslední skok kupředu je způsoben nově aplikovanou metodou tzv. hlubokého učení (Deep Learning), která spadá do oblasti strojového učení, což je postup umožňující počítačům se samostatně učit něco nového bez přímého řízení takové činnosti programem.

Přestože jsme dosud na Spomocníkovi o hlubokém učení explicitně nemluvili, již jsme na jeho aplikaci narazili. Poprvé před pěti lety jsme se divili, jak superpočítač IBM Watson dokázal zvítězit v Jeopardy (pozor, pro pochopení obsahu tohoto článku je důležité vědět, co Watson umí). Podruhé docela nedávno, když jsme se zabývali analýzou emocí (Analýza emocí v Horizon Reportu 2016). Kontext, v němž se současný vývoj umělé inteligence nachází, je vysvětlen zde – Přichází druhá počítačová revoluce.

Nevím, zda do našeho odborného slovníku vzdělávacích technologií zavádět pojem „hluboké učení“, protože ten se v pedagogice používá též v jiném významu – pro vrcholné stadium lidského poznání umožňující aplikaci získaných poznatků při řešení nových, dosud neznámých problémů (něco na způsob meliorace). Původní anglický výraz v tomto případě není „Deep Learning“, ale „Deeper Learning“. Vzhledem k tomu, že se „hluboké učení“ již běžně používá ve výuce informatických oborů (např. viz IB031 Úvod do strojového učení doc. Brázdila z FI MUNI) a jeho výskyt v jiných oborech rychle narůstá, je zřejmé, že původní pedagogický, málo používaný význam bude odsunut do pozadí.

V tomto článku se nebudeme zabývat hlubokým učením lidí, nýbrž strojů. Jedná se o aplikace simulující pomocí technologií funkci lidského mozku. K tomu je typicky využíván specifický software, napodobující šíření vzruchů mezi neurony prostřednictvím synapsí, zvaný neuronová síť. Princip je znám již od 50. let minulého století, kdy první simulace neuronových sítí pro tehdejší velké sálové digitální počítače vyvinuli vědci MIT. V té době byly možnosti neuronových sítí kvůli zatím velice nedokonalým technickým parametrům počítačů velmi omezené a nezdálo se, že by na nich postavená umělá inteligence mohla být někdy prakticky využitelná. Přesto se vědci po celou dobu pokoušeli nalézt postup, který by umožnil, aby neuronová síť skutečně fungovala co nejpodobněji lidskému mozku.

Vývoj strojového učení vedoucí k hlubokému je spojován s profesorem Geoffrey E. Hintonem, působícím od konce 80. let na University of Toronto. Ten přišel s představou, že vlastně veškerý rozvoj poznání (nebo dokonce inteligence) lze definovat pomocí jednotného principu – tzv. „mistrovského algoritmu“, který lze převést do počítačové podoby [1]. Prostředkem pro experimentování se mu stala právě neuronová síť. Skupina vědců, která se kolem profesora Hintona zformovala, musela projevit značnou dávku trpělivosti a zaujetí pro věc, protože trvalo desítky let, než dospěli k současnému světovému úspěchu.

Zlom nastal někdy kolem roku 2006. Byl způsoben zlepšením technických parametrů počítačů, zavedením víceúrovňových neuronových sítí se zpětnou propagací [2] a existencí velkých dat (Co je datafikace?). Právě tato poslední podmínka má zásadní význam. Je to poprvé v historii, kdy je možné mít z jednoho místa přístup k datům vyprodukovaným miliony (u FB víc než miliardou) uživatelů z celého světa. Vrcholné vědecké týmy dnes soutěží v tom, kdo vyvine nejlepší praktickou aplikaci hlubokého učení. Je zřejmé, že ideální podmínky mají vědci v korporacích, které disponují skutečně velkými daty – Google, Facebook, Microsoft, Baidu, IBM. Profesor Hinton dnes svůj pracovní čas dělí mezi univerzitu a laboratoř Google.

Zjednodušeně řečeno, aplikace hlubokého učení nejsou programovány, ale jsou cvičeny na skutečných velkých datech, jak se v různých situacích chovat. Ani to ale není jednoduché, protože jsou náchylné na chybovou interpretaci dat, takže se neobejdou bez týmu zkušených specialistů. Podívejme se, co aplikace hlubokého učení v současné době dokáží. Existují nejméně 4 typické oblasti, v nichž je patrný souboj špičkových vědeckých pracovišť a skoro každý den lze zaznamenat významný pokrok:

1. Analýza textových informací

Možnosti počítačů analyzovat text jsou již úplně jinde než v dobách, kdy nám Google umožnil fulltextové vyhledávání v téměř všech existujících webových stránkách. Hluboké učení posouvá analýzu textu směrem k „pochopení“ významu zkoumaného dokumentu. Vzpomeňme na Watsona, který umí na základě takové analýzy odpovídat skoro na libovolné otázky soutěže Riskuj.

Proces, který vede až k tomuto výsledku, není zrovna jednoduchý. Znamená to vytvořit co největší databázi (korpus) textových dokumentů, u nichž existuje systematicky popsaný obsah (v pozadí je vektorový popis jazyka naznačující nejčastější výskyt slov a umožňující odhadovat jejich pořadí). Systém, který ví, o čem se v textu píše, si pak již dokáže poradit se situací, když se objeví stejná či podobná věta ve zcela jiném kontextu. Problém je ve skutečnosti samozřejmě hodně složitý. Analýza dosud nefunguje stoprocentně. Dokumentovat to lze například na již běžně používaném automatickém překladu, který vychází z podobné klasifikace obsahu pro různé jazyky.

Známý anglický startup DeepMind, zakoupený Googlem za 400 mil. dolarů, použil pro hluboké učení svého nástroje pro textovou analýzu statisíce článků Daily Mail a CNN, které disponují klasifikací v podobě anotací popisujících obsah. S určitou nadsázkou můžeme konstatovat, že se stroje pomalu učí rozumět tomu, co píšeme. [3] [4]

2. Analýza mluveného slova

Od porozumění obsahu textového dokumentu ke schopnosti poslouchat a mluvit je ještě dlouhá cesta. Asi nejdále po ní zatím ušel čínský poskytovatel internetových služeb Baidu (tamní ekvivalent Google), který tvrdí, že jeho nejnovější aplikace (Deep Speech 2) pro mobily použitá osobním asistentem zvaným Duer rozumí mluvenému slovu dokonce lépe než člověk [5]. I ve ztížených podmínkách zachytí správně cca 95 % slov [6].

I zde se umělá inteligence musela nejprve naučit rozumět, a to tak, že dostala příležitost na velkých datech porovnávat zvukový a textový záznam stejného obsahu. Zvukový záznam byl navíc schválně zkreslován a maskován jinými zvuky. Duer ovládá kromě angličtiny též většinu čínských dialektů, takže se možná stane užitečným pomocníkem i při komunikaci samotných Číňanů mezi sebou. Šéf výzkumu hlubokého učení Baidu Andrew Ng tvrdí, že se rychle blíží doba, kdy „budeme všichni používat rozpoznávání hlasu k ovládání věcí kolem sebe neustále“ [6]. Podívejte se, jak vypadá současný automatický simultánní překlad v podání Skype od Microsoftu:

Skype Translator: Breaking down language barriers

3. Rozpoznávání obrazu

Na počátku stálo rozpoznávání písmen tištěného textu. To se podařilo se slušnou úspěšností ještě před příchodem hlubokého učení. Mnohem obtížnějším úkolem bylo analyzovat text psaný rukou. I to již stroje s pomocí neuronových sítí dokáží a jdou dál. Asi nejznámější aplikací vyšší úrovně, s níž se již setkáváme každý den, je rozpoznávání obličejů lidí. Nejdále je v této oblasti Google a Facebook. Facebook se snaží zavádět rozpoznávání obličejů na fotkách co nejnenápadněji, přesto je tato funkce centrem všeobecného zájmu.

Začalo to v roce 2010 získáním izraelského startupu Face.com (11 zaměstnanců, cena cca 60 mil $ [7]), jehož software již tehdy uměl najít na fotkách obličeje lidí. Dnes se tato aplikace nazývá DeepFace, je integrální součástí Facebooku a rozeznává obličeje s 97% přesností. [8]

Hluboké učení se uskutečňuje v několika úrovních. Detailně analyzovat celou fotku zatím ani současné vyspělé technologie nezvládají, proto je třeba nejprve identifikovat místa, o která se zajímáme (podobně jako když tajné služby zkoumají satelitní snímky). V nejvyšších úrovních se pak zjišťují fyziologická data, která jednoznačně každého člověka identifikují. Poslední položkou, kterou je třeba vyplnit, je přiřazení osobních údajů. Stačí jediná fotka na Facebooku (či jinde), k níž někdo připsal jména osob, a je to. Facebook dnes již zná obličej milionů lidí. Disponuje největší podobnou databází na světě. V tomto se mu žádná státní bezpečnostní služba nevyrovná. [9]

How Does Facial Recognition Work? - Brit Lab

Riziko zneužití je značné. Evropa sice zkomplikovala Facebooku nejrychlejší způsob finalizace databáze obličejů, když zakázala přímé označování jmen uživateli na fotkách (ani nejnovější aplikace FB Moments nebude v Evropě dostupná), ale to neznamená, že by tyto služby, shromažďující biometrická data lidí (kromě FB totéž dělá Google i další), nebyly masivně rozšiřovány.

Zkoumáme-li možnosti umělé inteligence rozpoznávat obrazy, nesmíme zapomínat, že již dokáže mnohem více než přiřadit obličeji jméno. Umí určit pohlaví, odhadnout věk, rozeznávat osoby i podle jiných znaků, než je obličej, a dokáže dokonce analyzovat i emoce. Lidský obličej je samozřejmě velmi zajímavý objekt, který stojí za zkoumání. Takových je ale jistě mnohem více.

4. Simulace inteligentního chování

První, co nás možná v souvislosti s předchozím bodem napadne, je, jakou analýzu obrazu asi musí dělat systém samořídicího auta. I ten samozřejmě rozlišuje různé objekty, i když asi ne do takových detailů. Zato pro něj bude jistě důležité, jakou rychlostí se pohybují a zda se nepřibližují. Samořídicí prvky u vozidel začínají být běžnou skutečností (parkování, jízda po dálnici apod.) a brzy asi pár řidičů připraví o práci. Nejspíše se s podobnými systémy budeme brzy setkávat i v běžných autech. Třeba Toyota plánuje plošnou aplikaci svého anti-kolizního systému, který přebírá řízení v kritických situacích, na rok 2017, prodej plně samořídicích aut pak na rok 2020. [10] Jakkoli jsou úvahy o samořídicích autech zajímavé, přenecháme je jiným.

Pro nás pedagogy existují mnohem zajímavější aplikace umělé inteligence. Stroje zatím naštěstí opravdu jen napodobují inteligentní chování lidí. Začalo to Turingovým testem na počátku 50. let minulého století, pokračovalo IBM Deep Blue v letech 90. a Watsonovým vítězstvím v Riskuj v roce 2011 (s již aplikovaným hlubokým učením). V březnu 2016 zvítězil počítač Google DeepMind AlphaGo nad korejským mistrem světa ve hře go Lee Sedolem (AlphaGo versus Lee Sedol).

Nedávno oznámil tým čínské University of Science and Technology spolu s kolegy z výzkumné laboratoře Microsoftu v Pekingu pokoření další mety. Jejich „inteligentní“ agent umí udělat IQ test lépe než průměrný člověk. Podle našich lidských měřítek to tedy znamená, že jeho IQ je větší než 100. Uvědomte si ale, že tento agent je specializován jen na tuto jedinou úlohu a nic jiného neumí.

I tak toho ale musí umět docela dost. IQ test sestává z úkolů 3 typů – prostorových, numerických a verbálních. Pro každý typ úlohy musí agent použít jinou strategii řešení. Právě poslední kategorie – verbální – dříve dělala umělé inteligenci velké problémy. Předpokládá schopnost porozumět textu, klasifikovat ho, hledat analogie či synonyma a antonyma. Hluboké učení situaci mění. Stroje vybavené neurální sítí jsou schopné si postupně zapamatovat všechny případy specifických výskytů slov (což je úkol řešený již v samotné analýze textu), a proto pro ně bude stále snadnější hledat třeba slova podobného či opačného významu. [11]

Výzkumníci porovnávali výsledky svého „inteligentního“ agenta s výsledky 200 placených dobrovolníků, které byly získány prostřednictvím k podobným účelům vyvinutého pozoruhodného nástroje Amazon Mechanical Turk. Zjistili, že „inteligentní“ agent dosahuje nadprůměrných výsledků – na škále vzdělání někde mezi bakalářem a magistrem.

Závěr

Zatím jsou aplikace hlubokého učení nasazovány na řešení specifických jednoúčelových problémů. Máte-li zájem zkoumat další aplikace, podívejte se ještě třeba na to, co umí vrcholná analýza obsahu obrazové informace Clarifai nebo mimořádně zajímavý startup Volley podporovaný Chan Zuckerberg Initiative, který se snaží vyvinout nástroj hluboké analýzy libovolného zadání, které vznikne v rámci výukových aktivit, a nasměrovat uživatele k jeho řešení.

Je fascinující sledovat, jak se schopnosti umělé inteligence rychle zdokonalují, i když samozřejmě nikdy nebude docela stejná jako lidská. Neuronové sítě sice vznikly díky snaze napodobit funkci mozkových neuronů, ale postupy použité u jejich hlubokého učení nejsou úplně stejné. Přesto umělá inteligence přebírá stále více lidských činností. Zásadní pro další vývoj je skutečnost, že zatím zůstává veškerý vývoj technologií, které využívají umělou inteligenci s hlubokým učením, v rukou člověka, a můžeme proto doufat, že budou využity k jeho prospěchu. Je třeba tomu věřit a neztrácet optimismus. Hezky to vyjádřil Eric Schmidt při slavnostním zahájení souboje AlphaGo s Lee Sedolem: „Ať už to dopadne jakkoli, vítězem bude v každém případě lidstvo.“ [12] Určité pochyby jsou bohužel na místě (Robots in war).

Jsem si plně vědom toho, že tento článek je na publikování v blogu poněkud dlouhý a komplikovaný. Mým cílem je oslovit studenty, kteří ještě přesně nevědí, kterým směrem chtějí svůj život nasměrovat. Ukazuje se, že schopnost rozumět fungování umělé inteligence bude v brzké době velmi potřebnou. Neobejde se bez ní skoro nikdo, kdo s jejími aplikacemi bude přicházet do styku. Stroje schopné hlubokého učení budou brzy k dispozici i pedagogům.

Proto mohu každému jen doporučit, aby neváhal a dal se do hlubšího studia. Začít můžete třeba s následujícím seriálem kanadské DeepLearning.TV, který se vyhýbá složité matematice:

Deep Learning SIMPLIFIED

K hlubšímu proniknutí do problematiky je bohužel třeba zvládnout i poměrně složitou matematiku, ale ani to by pro někoho nemuselo být nepřekonatelnou překážkou. Pomoc nabízí třeba nová učebnice Michaela Nielsena Neural Networks and Deep Learning opatřená licencí CC. Hodně užitečné určitě bude sledovat našeho domácího Machine Learning Guru Jiřího Maternu.
Přeji vám mnoho úspěchů!

Literatura a použité zdroje

[1] – DOMINGOS, Pedro. The race for the master algorithm has begun. 2016. [cit. 2016-4-17]. Dostupný z WWW: [http://www.wired.co.uk/magazine/archive/2016/01/ideas-bank/master-algorithm-pedro-domingos].

[2] – MATERNA, Jiří. Deep Learning: budoucnost strojového učení?. 2013. [cit. 2016-4-17]. Dostupný z WWW: [http://fulltext.sblog.cz/2013/01/09/deep-learning-budoucnost-strojoveho-uceni/].

[3] – Google DeepMind Teaches Artificial Intelligence Machines to Read. 2015. [cit. 2016-4-17]. Dostupný z WWW: [http://www.technologyreview.com/view/538616/google-deepmind-teaches-artificial-intelligence-machines-to-read/].

[4] – LECUN, Yann; BENGIO, Yoshua; HINTON, Geoffrey. Deep learning. 2015. [cit. 2016-4-17]. Dostupný z WWW: [http://www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf].

[5] – KNIGHT, Will. Baidu’s Deep-Learning System Rivals People at Speech Recognition. 2015. [cit. 2016-4-17]. Dostupný z WWW: [https://www.technologyreview.com/s/544651/baidus-deep-learning-system-rivals-people-at-speech-recognition/].

[6] – MERRETT, Rebecca. Future of mobile, IoT driven by speech recognition: Andrew Ng. 2015. [cit. 2016-4-17]. Dostupný z WWW: [http://www.cio.com.au/article/574317/future-mobile-iot-driven-by-speech-recognition-andrew-ng/].

[7] – Facebook buys Israeli facial recognition firm Face.com. 2012. [cit. 2016-4-17]. Dostupný z WWW: [http://www.bbc.com/news/technology-18506255].

[8] – ELGAN, Mike. Is facial recognition a threat on Facebook and Google?. 2015. [cit. 2016-4-17]. Dostupný z WWW: [http://www.computerworld.com/article/2941415/data-privacy/is-facial-recognition-a-threat-on-facebook-and-google.html].

[9] – TAIGMAN, Yaniv. et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification. 2014. [cit. 2016-4-17]. Dostupný z WWW: [https://research.facebook.com/publications/deepface-closing-the-gap-to-human-level-performance-in-face-verification/].

[10] – Toyota is About to Make their Anti-Collision System Very Affordable for Most Drivers. 2015. [cit. 2016-4-17]. Dostupný z WWW: [http://blog.lacarguy.com/toyota-is-about-to-make-their-anti-collision-system-very-affordable-for-most-drivers/].

[11] – Deep Learning Machine Beats Humans in IQ Test. 2015. [cit. 2016-4-17]. Dostupný z WWW: [https://www.technologyreview.com/s/538431/deep-learning-machine-beats-humans-in-iq-test/].

[12] – BYFORD, Sam. After AlphaGo, what's next for AI?. 2016. [cit. 2016-4-17]. Dostupný z WWW: [http://www.theverge.com/2016/3/14/11219258/google-deepmind-alphago-go-challenge-ai-future AlphaGo beats Lee Sedol in final match].

Licence

Článek je publikován pod licencí Creative Commons BY-NC-ND 3.0 (Uveďte autora-Neužívejte komerčně-Nezasahujte do díla).

Profil autora

Další články autora

Hodnocení od uživatelů

1. Stále je ale nutno, podle mne, mít na mysli, že stejný termín "neuronové sítě" je užíván pro naprosto rozdílné systémy z hlediska jejich složení, struktury i mechanismu fungování. A jak je správně uvedeno v článku umělé "neuronové" sítě pouze napodobují některé funkce lidských neuronových sítí. Navíc jsou to (řečeno názorně) lidské neuronové sítě, které vytvářejí, zdokonalují či předělávají umělé neuronové sítě. Vždyť k tomu, aby mohlo být např. uměle napodobeno (!) šíření nervových vzruchů mezi neurony, jsou zapotřebí speciální softwarové aplikace či algoritmy a ty jsou vytvářeny lidským mozkem. Užívat proto termín "neuronové sítě" pro tyto aplikace je poněkud zavádějící (i když samozřejmě dnes už jen stěží užívání tohoto termínu pro uvedené aplikace zabránit).
2. Plně lze proto, v souvislosti se strojovým "hlubokým učením" , souhlasit s druhým odstavcem v "Závěru" článku. Jsem rád, že je tento odstavec v článku uveden: snad zabrání smísení významů termínu "učení" v případě stroje a v případě člověka.

2.

Google oznamuje, že dává volně každému k dispozici nejnovější nástroj na analýzu ang. textu s úspěšností přesahující 90%.Announcing SyntaxNet: The World’s Most Accurate Parser Goes Open Source

Pro další studium: Patrick Hebron - Machine Learning for Designers

Jak Google aplikuje hluboké učení na YouTube - Deep neural networks for YouTube recommendations.

Váš komentář

Pro vložení komentáře je nutné se nejprve přihlásit.

Článek není zařazen do žádného seriálu.

Přejít na hlavní stránku

Ochrana osobních údajů

Staňte se součástí

Přihlásit se do portálu

Odborný článek

Co dokáží stroje schopné hlubokého učení

Anotace

Úvod

1. Analýza textových informací

2. Analýza mluveného slova

3. Rozpoznávání obrazu

4. Simulace inteligentního chování

Závěr

Literatura a použité zdroje

Máte dotaz z oblasti vzdělávání?

Licence

Přidejte vlastní článek

Hodnocení od uživatelů

Váš komentář

Pro uživatele

Pro výuku

Komunita

Evaluace

Archiv