Google Genie (https://sites.google.com/view/genie-2024/) je základní světový model vyvinutý společností DeepMind. Je to generativní AI model trénovaný na více než 30 000 hodinách veřejně dostupného videa z 2D plošinovek. Jeho klíčovou vlastností je schopnost generovat plně interaktivní, hratelná prostředí přímo z jednotlivých obrázků, fotografií a dokonce i ručně kreslených skic.
Zdroj: Genie: Generative Interactive Environments (https://arxiv.org/abs/2402.15391)
Jak je to možné? Genie používá techniku nesupervizovaného učení v procesu získávání schopnosti přesně ovládat prostředí pouze na základě videozáznamu. Není potřeba žádné označování lidských akcí. Pomocí speciálního modulu pro kódování akcí zachycuje jemné změny mezi po sobě jdoucími video snímky a mapuje je na interní reprezentace pohybu, jako je skákání nebo otáčení doleva. Model dynamiky poté generuje další snímek v sekvenci na základě kódovaných akcí.
Výsledkem je, že Genie může vytvářet plně ovladatelná, interaktivní herní prostředí z jakýchkoli vizuálních dat. Každý pohyb hráče generuje nový, jedinečný snímek v reálném čase, což vytváří plynulou, hratelnou relaci. To je opravdu velká inovace, která nám umožňuje vytvářet celé interaktivní světy z obrázků nebo textu.
Inovace Genie spočívá v kombinaci několika klíčových prvků v jednom modelu:
I když byla každá z těchto oblastí již dříve prozkoumána, Genie je první model, který je kombinuje, aby se naučil ovladatelná prostředí přímo z videozáznamu. Tento bezprecedentní přístup k učení modelů bez lidského dohledu je klíčovou inovací Genie. Otevírá to dveře k využití obrovského množství videa dostupného na internetu jako zdroje tréninku pro AI modely a bourá bariéry spojené s omezenou dostupností označených dat.
Kombinace generativních video modelů, světových modelů a nesupervizovaného učení v jednom řešení představuje zásadní pokrok ve vývoji umělé inteligence. Genie ukazuje, že pokročilé AI systémy mohou učit složité chování a prostředí přímo z neorganizovaných dat, bez ručního označování. To je klíčový krok na cestě k dosažení skutečné umělé obecné inteligence (AGI).
Zdroj: Google Genie (https://sites.google.com/view/genie-2024/)
Schopnosti Google Genie daleko přesahují generování videoher. Tento průkopnický AI model může najít uplatnění v mnoha oblastech:
Nicméně, potenciální výzvy a omezení této technologie by neměla být přehlížena. V současné fázi vývoje funguje Genie nejlépe v úzkých doménách, jako jsou 2D plošinovky. Zvýšení složitosti na komplexnější 3D prostředí bude vyžadovat další výzkum a optimalizaci. Kromě toho existuje riziko, že by tato technologie mohla být zneužita k vytváření škodlivého nebo nebezpečného obsahu. Je proto zásadní vyvinout robustní etický a právní rámec pro řízení vývoje a použití takových AI modelů.
Zdroj: Google Genie (https://sites.google.com/view/genie-2024/)
Umožněním vytváření plně interaktivních prostředí přímo z vizuálních dat, bez nutnosti ručně označovat akce, představuje Google Genie skutečný průlom v generativní umělé inteligenci. Tento základní světový model dává moc vyjadřovat obraznost ve formě hratelných virtuálních realit, které mohou být prozkoumávány a ovládány člověkem nebo AI agentem.
Potenciál Genie je obrovský – od nástrojů pro vývojáře her, po neomezený zdroj tréninkových dat pro AI, po fyzikální simulace pro robotiku. Je to také důležitý krok na cestě k AGI. Jak se modely jako Genie nadále vyvíjejí, hranice mezi skutečným a virtuálním světem se stává stále plynulejší.
Pokud se vám náš obsah líbí, připojte se k naší komunitě pracovních včel na Facebooku, Twitteru, LinkedInu, Instagramu, YouTube, Pinterestu, TikToku.
Odborník na JavaScript a lektor, který školí IT oddělení. Jeho hlavním cílem je zvýšit produktivitu týmu tím, že učí ostatní, jak efektivně spolupracovat při programování.
Společnosti se potýkají s řízením obrovského množství obsahu publikovaného online, od příspěvků na sociálních médiích…
V éře digitální transformace mají společnosti přístup k bezprecedentnímu množství dat o svých zákaznících –…
Věděli jste, že můžete získat podstatu několika hodinového záznamu ze schůzky nebo rozhovoru s klientem…
Představte si svět, kde vaše firma může vytvářet poutavá, personalizovaná videa pro jakoukoli příležitost, aniž…
Aby plně využily potenciál velkých jazykových modelů (LLM), musí společnosti implementovat efektivní přístup k řízení…
V roce 2018 se Unilever již vydal na vědomou cestu k vyvážení automatizace a rozšiřování…