Spomocník: Střípky ze světa postupujícího vývoje AI

AI a autorské dílo

Zlé jazyky říkají, že na vývoji AI se podílí více právníků nežli programátorů. Nebylo by to nic divného. Současný svět netrpí tím, že by vývoj nových technologií byl pomalý nebo se nějak zásadně zadrhával, ale tím, že jejich adopce do společnosti vázne a v některých případech nejsou moderní výdobytky společnosti přijímány s nadšením (což je obecně dobře), nebo jsou dokonce odmítány. Mnohdy za to mohou obavy a nejasnosti kolem odpovědnosti. Samořiditelné auto s bezpečností větší, než kdyby jej řídil průměrný řidič, tu je již roky, ale převzetí odpovědnosti za to, když automobil přeci jen nabourá, je složitý právní a i etický problém. Nežli se automobilky vydají do neodvratně navazujících právních bitev, pracují najatí právníci na tom, aby možné vyplácené kompenzace a pokuty byly co nejmenší.

V souvislosti s AI ve vzdělávání nás například zajímá, kdo má práva na výsledek dodaný chatbotem AI, který vznikl na základě našeho zadání, tzv. promptu. Podle autorského zákona může autorské dílo vytvářet jen člověk („… jsou výsledkem tvůrčí činnosti autora“). Proto nelze výtvory AI chápat jako díla autorská a takovým dílům tedy nenáleží autorská ochrana, na jakou jsme zvyklí u lidských děl slovesných, hudebních, filmových či fotografických. Na tomhle se právníci celkem shodnou. Například advokátka Petra Dolejšová [1] je ale přesvědčena, že v případě velmi přesných instrukcí pro chatbota, typicky u obrázků nebo u videí, kdy má člověk přesnou představu, jak by výsledek měl vypadat, autorským dílem být výsledek AI může. Podmínky pro další využívání vygenerovaného obsahu jsou navíc upraveny v licenčních podmínkách jednotlivých AI aplikací. Začínám chápat sousloví člověk v tísni – jak se v tomhle všem vyznat vyžaduje množství energie a jistou odolnost. Abychom učitelům alespoň trochu ulehčili, připravili jsme v Národním pedagogickém institutu ve spolupráci s právníkem Nejčastější otázky a odpovědi o generativní AI, do kterých se můžete začíst na našich stránkách [2].

Ilustrační obrázek. ChatGPT (OpenAI) ve verzi GPT-4o (DALL·E). 4. 8. 2024

Rok 2024 je v AI ve znamení multimodality

Na pojem multimediální jsme si v oblasti digitálního vzdělávání již dávno zvykli a všichni tušíme, co to znamená. V souvislosti s nejnovějším vývojem AI se někdy hovoří o tom, že rok 2024 je rokem multimodality. Na to, jaký je v daných fenoménech významový rozdíl, jsem se zeptal několika chatbotů AI. Nejsrozumitelněji mi přijde, jak odpověděl Le Chat od francouzského Mistral AI, viz rámeček.

Multimediální vs. multimodální

Multimediální a multimodální jsou dva pojmy, které se často používají v souvislosti s komunikací a technologiemi, ale mají poněkud odlišné významy.

Multimediální: Multimediální se týká použití více médií najednou. Média mohou zahrnovat text, obrázky, zvuk, video, animace atd. Například prezentace může být považována za multimediální, pokud obsahuje kombinaci textu, obrázků a videa. Multimediální komunikace se tedy týká použití různých forem médií k přenosu informací.

Multimodální: Multimodální se týká použití více způsobů nebo kanálů k přenosu informací. V tomto kontextu "modus" neznamená jen různé druhy médií, ale také různé smysly nebo způsoby komunikace. Například komunikace může být považována za multimodální, pokud zahrnuje sluchovou komunikaci (mluvené slovo), vizuální komunikaci (gesta, výrazy obličeje) a haptickou komunikaci (dotek).

V zásadě lze říci, že multimediální se týká použití různých forem médií, zatímco multimodální se týká použití různých smyslových nebo komunikačních kanálů.

Mistral AI. Stručně vysvětli rozdíl mezi multimediální a multimodální. Prompt. Le Chat. 2023-05-16. Dostupné z: https://chat.mistral.ai/. [citováno 20. 7. 2024, upraveno autorem].

Po uvedení ChatGPT koncem roku 2022 nám vyrážely dech svojí věrohodností textové výstupy jazykových modelů. K těm se v roce 2023 přidaly i generátory obrázků. V letošním roce není problém s generováním hudby, hlasu a videí. Nástup multimodální AI je ale něco více. Nejde jen o rozpoznávání hlasu a jeho převod na text nebo o vygenerování videa na základě slovního popisu. Klíčová je schopnost vnímat všechny tyto formy současně, v každý okamžik mít kontext i ostatních informací. Sami to známe, když například posloucháte lidskou konverzaci, ale samotné lidi nevidíme – jejich tváře, mimiku, gesta, neverbální projevy atp. –, jistá část sdělení nám může unikat.

Představte si situaci, kdy v českém filmu dítě něco slibuje, a kamera zabere, že při tom má za zády zkřížený ukazováček s prostředníčkem. Filmovému divákovi je hned jasné, že tím slib neguje. Ke stejnému závěru by nyní měl dospět i multimodální systém AI, byť ze samotné hlasové konverzace takové vyznění získat nelze. A to je skutečně velký rozdíl oproti automatickým titulkům, které si již několik let můžeme například na YouTube nechat zobrazovat. Tomáš Kapler, odborník na AI, to vyjadřuje větou „Multimodální model pracuje s několika typy vstupních informací zároveň, tedy je trénovaný, aby vnímal ‚svět kolem sebe‘ podobně jako třeba člověk.“ [3].

OpenAI představila v únoru 2024 svůj generátor videí Sora (https://openai.com/index/sora/), jehož realistická videa obletěla díky své uvěřitelnosti celý svět. Z textového zadání je Sora schopna vytvořit plynulé video ve full HD rozlišení s neuvěřitelnou mírou detailu. Ačkoli technologickým demům není radno vždy 100% věřit, troufnu si tvrdit, že Sora předznamenává novou éru médií. Režisérem, kameramanem či filmařem se nyní může stát každý člověk, a to bez potřebného technického filmařského vybavení, znalostí a zkušeností. To jistě přinese zcela nové a dosud nevídané možnosti pro kreativitu a vyjadřování jedince. Pro vzdělávání to například může znamenat možnost, aby každý učitel relativně jednoduše vytvářel vzdělávací videa pro své žáky.

Je více než jisté, že tento nový fenomén AI bude doprovázen i masivním zneužíváním ve formě zmanipulovaných obrázků, zaměňováním hlasů nám známých lidí, lehce uvěřitelných deepfake videí, propracovaných dezinformačních kampaní, ... Poskytovatelé AI si to uvědomují, proto paralelně pracují na zavádění postupů a technologií, které znemožní nebo alespoň ztíží vytvářet různé formy dezinformací, nenávistného a předsudečného obsahu a zamezí jejich další distribuci. Nežli budou mít dojem, že se jim to dostatečně daří, nebude Sora veřejnosti dostupná. Obdobný postoj zatím zaujali i další poskytovatelé multimodálních AI produktů, kteří mezi tím jejich nové verze ohlásili. Jiné společnosti, mezi nimi např. společnost Meta se svým multimodálním jazykovým modelem Llama, pro uživatele v Evropské unii uvádět tento nástroj vůbec neplánují, prý kvůli právnímu regulačnímu prostředí.

Nám ve vzdělávání to dává alespoň určitý čas pracovat na podpoře nového pojetí vzdělávání zaměřeného na mediální výchovu a digitální vzdělávání, které bude odpovídat dnešní úrovni rozvoje umělé inteligence. Proto je důležité nejnovější směr vývoje AI a digitálních technologií sledovat a vyhodnocovat. Jak nám nedávná historie kolem Brexitu či minulých voleb amerického prezidenta ukázala, ve hře není mimo jiné nic menšího nežli budoucnost demokracie.

Poznámka: Práce byla původně publikována jako – NEUMAJER, O. Střípky ze světa postupujícího vývoje AI – autorská díla a multimodální AI. Řízení školy. Praha: Wolters Kluwer, 2024, roč. 21, č. 10. ISSN 1214-8679.

Máte dotaz z oblasti vzdělávání?

Najděte odpověď v databázi dotazů, nebo položte dotaz nový a pracovníci Konzultačního centra vám ho zodpovědí.

Konzultační centrum

Staňte se součástí

Přihlásit se do portálu

Odborný článek

Střípky ze světa postupujícího vývoje AI – autorská díla a multimodální AI

Anotace

AI a autorské dílo

Rok 2024 je v AI ve znamení multimodality

Literatura a použité zdroje

Máte dotaz z oblasti vzdělávání?

Licence

Přidejte vlastní článek

Hodnocení od uživatelů

Váš komentář

Zařazení do seriálu:

Pro uživatele

Pro výuku

Komunita

Evaluace

Archiv