Domů > Spomocník > Základní vzdělávání > Střípky ze světa postupujícího vývoje AI – autorská díla a multimodální AI
Odborný článek

Střípky ze světa postupujícího vývoje AI – autorská díla a multimodální AI

4. 10. 2024 Základní vzdělávání Spomocník
Autor
Ondřej Neumajer

Anotace

V tomto nepravidelném seriálu o vývoji umělé inteligence (AI) ve vzdělávání se snažím upozorňovat na zajímavosti, ale také na praktické aspekty dalšího vývoje, které se týkají práce učitelů a ředitelů škol. Dnešní článek se soustřeďuje na to, zda AI může vytvářet autorská díla, a na nový fenomén multimodální AI.

AI a autorské dílo

Zlé jazyky říkají, že na vývoji AI se podílí více právníků nežli programátorů. Nebylo by to nic divného. Současný svět netrpí tím, že by vývoj nových technologií byl pomalý nebo se nějak zásadně zadrhával, ale tím, že jejich adopce do společnosti vázne a v některých případech nejsou moderní výdobytky společnosti přijímány s nadšením (což je obecně dobře), nebo jsou dokonce odmítány. Mnohdy za to mohou obavy a nejasnosti kolem odpovědnosti. Samořiditelné auto s bezpečností větší, než kdyby jej řídil průměrný řidič, tu je již roky, ale převzetí odpovědnosti za to, když automobil přeci jen nabourá, je složitý právní a i etický problém. Nežli se automobilky vydají do neodvratně navazujících právních bitev, pracují najatí právníci na tom, aby možné vyplácené kompenzace a pokuty byly co nejmenší.

V souvislosti s AI ve vzdělávání nás například zajímá, kdo má práva na výsledek dodaný chatbotem AI, který vznikl na základě našeho zadání, tzv. promptu. Podle autorského zákona může autorské dílo vytvářet jen člověk („… jsou výsledkem tvůrčí činnosti autora“). Proto nelze výtvory AI chápat jako díla autorská a takovým dílům tedy nenáleží autorská ochrana, na jakou jsme zvyklí u lidských děl slovesných, hudebních, filmových či fotografických. Na tomhle se právníci celkem shodnou. Například advokátka Petra Dolejšová [1] je ale přesvědčena, že v případě velmi přesných instrukcí pro chatbota, typicky u obrázků nebo u videí, kdy má člověk přesnou představu, jak by výsledek měl vypadat, autorským dílem být výsledek AI může. Podmínky pro další využívání vygenerovaného obsahu jsou navíc upraveny v licenčních podmínkách jednotlivých AI aplikací. Začínám chápat sousloví člověk v tísni – jak se v tomhle všem vyznat vyžaduje množství energie a jistou odolnost. Abychom učitelům alespoň trochu ulehčili, připravili jsme v Národním pedagogickém institutu ve spolupráci s právníkem Nejčastější otázky a odpovědi o generativní AI, do kterých se můžete začíst na našich stránkách [2].

Ilustrační obrázek. ChatGPT (OpenAI) ve verzi GPT-4o (DALL·E). 4. 8. 2024

Rok 2024 je v AI ve znamení multimodality

Na pojem multimediální jsme si v oblasti digitálního vzdělávání již dávno zvykli a všichni tušíme, co to znamená. V souvislosti s nejnovějším vývojem AI se někdy hovoří o tom, že rok 2024 je rokem multimodality. Na to, jaký je v daných fenoménech významový rozdíl, jsem se zeptal několika chatbotů AI. Nejsrozumitelněji mi přijde, jak odpověděl Le Chat od francouzského Mistral AI, viz rámeček.

Multimediální vs. multimodální

Multimediální a multimodální jsou dva pojmy, které se často používají v souvislosti s komunikací a technologiemi, ale mají poněkud odlišné významy.

Multimediální: Multimediální se týká použití více médií najednou. Média mohou zahrnovat text, obrázky, zvuk, video, animace atd. Například prezentace může být považována za multimediální, pokud obsahuje kombinaci textu, obrázků a videa. Multimediální komunikace se tedy týká použití různých forem médií k přenosu informací.

Multimodální: Multimodální se týká použití více způsobů nebo kanálů k přenosu informací. V tomto kontextu "modus" neznamená jen různé druhy médií, ale také různé smysly nebo způsoby komunikace. Například komunikace může být považována za multimodální, pokud zahrnuje sluchovou komunikaci (mluvené slovo), vizuální komunikaci (gesta, výrazy obličeje) a haptickou komunikaci (dotek).

V zásadě lze říci, že multimediální se týká použití různých forem médií, zatímco multimodální se týká použití různých smyslových nebo komunikačních kanálů.

Mistral AI. Stručně vysvětli rozdíl mezi multimediální a multimodální. Prompt. Le Chat. 2023-05-16. Dostupné z: https://chat.mistral.ai/. [citováno 20. 7. 2024, upraveno autorem].

 

Po uvedení ChatGPT koncem roku 2022 nám vyrážely dech svojí věrohodností textové výstupy jazykových modelů. K těm se v roce 2023 přidaly i generátory obrázků. V letošním roce není problém s generováním hudby, hlasu a videí. Nástup multimodální AI je ale něco více. Nejde jen o rozpoznávání hlasu a jeho převod na text nebo o vygenerování videa na základě slovního popisu. Klíčová je schopnost vnímat všechny tyto formy současně, v každý okamžik mít kontext i ostatních informací. Sami to známe, když například posloucháte lidskou konverzaci, ale samotné lidi nevidíme – jejich tváře, mimiku, gesta, neverbální projevy atp. –, jistá část sdělení nám může unikat.

Představte si situaci, kdy v českém filmu dítě něco slibuje, a kamera zabere, že při tom má za zády zkřížený ukazováček s prostředníčkem. Filmovému divákovi je hned jasné, že tím slib neguje. Ke stejnému závěru by nyní měl dospět i multimodální systém AI, byť ze samotné hlasové konverzace takové vyznění získat nelze. A to je skutečně velký rozdíl oproti automatickým titulkům, které si již několik let můžeme například na YouTube nechat zobrazovat. Tomáš Kapler, odborník na AI, to vyjadřuje větou „Multimodální model pracuje s několika typy vstupních informací zároveň, tedy je trénovaný, aby vnímal ‚svět kolem sebe‘ podobně jako třeba člověk.“ [3].

OpenAI představila v únoru 2024 svůj generátor videí Sora (https://openai.com/index/sora/), jehož realistická videa obletěla díky své uvěřitelnosti celý svět. Z textového zadání je Sora schopna vytvořit plynulé video ve full HD rozlišení s neuvěřitelnou mírou detailu. Ačkoli technologickým demům není radno vždy 100% věřit, troufnu si tvrdit, že Sora předznamenává novou éru médií. Režisérem, kameramanem či filmařem se nyní může stát každý člověk, a to bez potřebného technického filmařského vybavení, znalostí a zkušeností. To jistě přinese zcela nové a dosud nevídané možnosti pro kreativitu a vyjadřování jedince. Pro vzdělávání to například může znamenat možnost, aby každý učitel relativně jednoduše vytvářel vzdělávací videa pro své žáky.

Je více než jisté, že tento nový fenomén AI bude doprovázen i masivním zneužíváním ve formě zmanipulovaných obrázků, zaměňováním hlasů nám známých lidí, lehce uvěřitelných deepfake videí, propracovaných dezinformačních kampaní, ... Poskytovatelé AI si to uvědomují, proto paralelně pracují na zavádění postupů a technologií, které znemožní nebo alespoň ztíží vytvářet různé formy dezinformací, nenávistného a předsudečného obsahu a zamezí jejich další distribuci. Nežli budou mít dojem, že se jim to dostatečně daří, nebude Sora veřejnosti dostupná. Obdobný postoj zatím zaujali i další poskytovatelé multimodálních AI produktů, kteří mezi tím jejich nové verze ohlásili. Jiné společnosti, mezi nimi např. společnost Meta se svým multimodálním jazykovým modelem Llama, pro uživatele v Evropské unii uvádět tento nástroj vůbec neplánují, prý kvůli právnímu regulačnímu prostředí.

Nám ve vzdělávání to dává alespoň určitý čas pracovat na podpoře nového pojetí vzdělávání zaměřeného na mediální výchovu a digitální vzdělávání, které bude odpovídat dnešní úrovni rozvoje umělé inteligence. Proto je důležité nejnovější směr vývoje AI a digitálních technologií sledovat a vyhodnocovat. Jak nám nedávná historie kolem Brexitu či minulých voleb amerického prezidenta ukázala, ve hře není mimo jiné nic menšího nežli budoucnost demokracie.

Literatura a použité zdroje

[1] – VACA, Jan. Petra Dolejšová: Samotné prompty většinou autorským dílem nejsou. Doporučuju je ale archivovat. 2024. [cit. 2024-9-18]. Dostupný z WWW: [https://www.lupa.cz/clanky/petra-dolejsova-samotne-prompty-vetsinou-autorskym-dilem-nejsou-doporucuju-je-ale-archivovat/].
[2] – FAQ - nejčastější dotazy o generativní umělé inteligenci. 2024. [cit. 2024-9-16]. Dostupný z WWW: [https://digitalizace.rvp.cz/faq-umela-inteligence].
[3] – KAPLER, Tomáš. Google představil multimodální AI modely Gemini. Jsou lepší než GPT-4?. 2023. [cit. 2024-9-16]. Dostupný z WWW: [https://www.kapler.cz/google-gemini-predstaveni/].

Licence

Všechny články jsou publikovány pod licencí Creative Commons BY-NC-ND.

Hodnocení od uživatelů

Článek nebyl prozatím komentován.

Váš komentář

Pro vložení komentáře je nutné se nejprve přihlásit.

Článek není zařazen do žádného seriálu.