Budou velké jazykové modely přiznávat chyby?

2. 3. 2026 Základní vzdělávání Spomocník

Autor

Bořivoj Brdička

Anotace

Zpráva o experimentu společnosti OpenAI, který se pokouší odhalit nepřesnosti, či dokonce nesprávné výsledky ve výstupech velkých jazykových modelů.

Velké jazykové modely (LLM) občas lžou, podvádějí a klamou (halucinují). Tomu se nedá zabránit. Zjistit, proč to dělají, je v současnosti jedním z nejžhavějších témat v oblasti umělé inteligence. Pokud má být tato technologie za několik bilionů dolarů nasazena tak široce, jak si její tvůrci přejí, musí být důvěryhodnější. OpenAI proto testuje nový způsob, jak odhalit složité procesy uvnitř probíhající. Snaží se přimět LLM k vytvoření tzv. doznání, ve kterém model vysvětlí, jak provedl úkol, a ke špatnému chování se (většinou) přizná. Podle vědeckého pracovníka OpenAI Boaze Baraka jsou výsledky probíhajícího experimentu velice slibné [1]. Jiní vědci si však kladou otázku, do jaké míry můžeme důvěřovat pravdivosti takového doznání, když k němu byl LLM přinucen.

Testované doznání je součástí dodatku, který následuje po hlavní odpovědi LLM, jestliže uživatel požaduje hodnocení toho, jak dobře se model držel zadání. Cílem je rozpoznat, kdy LLM udělal něco, co neměl, a diagnostikovat, co se pokazilo, spíše než tomuto chování předcházet. Studium toho, jak modely fungují, pomůže výzkumníkům vyhnout se špatnému chování v budoucích verzích.

Jedním z důvodů, proč LLM selhávají, je to, že musí sledovat více cílů najednou. Modely jsou trénovány jako užitečné chatboty pomocí techniky zvané posilovací učení prostřednictvím lidské zpětné vazby, která je odměňuje za dobré výkony v řadě různých kritérií. Mají být užitečné, neškodné a upřímné. Ale tyto cíle nemusí být v souladu a někdy mezi nimi dochází k podivným interakcím.

Například pokud se modelu zeptáte na něco, co neví, touha po nápomoci může někdy převážit nad potřebou upřímnosti. A když LLM dáte těžký úkol, může se stát, že ve snaze se vám zavděčit odpoví chybně.

Aby výzkumníci OpenAI naučili model LLM vytvářet doznání, odměňovali ho v rámci experimentu pouze za upřímnost, aniž by ho tlačili k užitečnosti nebo přínosu. Důležité je, že modely nebyly za doznání špatného chování vůbec penalizovány. To znamená, že dostávaly odměnu za chybu, a pak další za to, že se samy udaly.

Podle Naomi Saphry, která studuje LLM na Harvardově univerzitě, nelze žádnému popisu vlastního chování LLM plně důvěřovat. V praxi jsou LLM stále černé skříňky a je nemožné s jistotou vědět, co se uvnitř nich děje. Proto bychom měli tato doznání brát jen jako odhady toho, co model skutečně udělal, ne jako věrný odraz jeho skrytého uvažování.

Doznání ve skutečnosti donutí model, aby se přiznal k úmyslným obejitím nebo zkratkám pouze tehdy, když ví, že udělal něco špatně. Ale ne vždy to ví. Zejména pokud LLM vybočí z kolejí kvůli jailbreaku (způsob, jak oklamat modely, aby dělaly věci, které dělat nemají), pak si nemusí vůbec uvědomit, že dělají něco špatně.

Proces trénování modelu k doznání je založen na předpokladu, že se bude snažit být upřímný, ale jen tehdy, není-li zároveň nucen být něčím jiným. Barak přiznává, že LLM půjdou vždy cestou nejmenšího odporu. Budou podvádět, pokud je to nejjednodušší způsob, jak splnit obtížný úkol (a nebude-li za to navíc žádný trest). K podvádění se přiznají jen tehdy, budou-li za to odměněny.

Vědci připouštějí, že o tom, jak LLM skutečně fungují, toho zatím moc nevíme. I když interpretace funkce doznání není dosud zcela jasná, každá podobná snaha je určitě užitečná.