Před několika dny Google opět upoutal pozornost nadšenců do AI oznámením Gemini 1.5 jen týden po vydání výkonného modelu Gemini 1.0 Ultra a přejmenování chatbotu Bard na Gemini.
Nicméně OpenAI nenechal Google užívat si silnou pozici v oblasti AI ani na den. Tvůrci ChatGPT odhalili ještě vzrušujícíjší řešení: Sora, generátor videí schopný vytvářet téměř minutová videa na základě textových podnětů. OpenAI’s Sora má potenciál stát se revolučním nástrojem, který může změnit průmysl tvorby video obsahu. To, co dělá Sorou výjimečnou, však nejsou jen její technické schopnosti, ale také široká škála potenciálních aplikací – od marketingu a vzdělávání po zábavní průmysl a každodenní komunikaci. Pojďme prozkoumat, jak Sora hodlá přinést tyto změny a jaké vyhlídky otevírá pro podniky.
Ušli jsme dlouhou cestu od prvních neohrabaných pokusů o vytváření videí pomocí počítačů. Již je zřejmé, že videa vytvořená generativní umělou inteligencí, i ta stará jen šest měsíců, vypadají ve srovnání se Sora generacemi docela neohrabaně. Ačkoli Sora, která dokáže vytvářet realistické video scény na základě textových instrukcí, je stále ve fázi experimentování a zatím není veřejně dostupná, její schopnosti jsou ohromující.
Sora nabízí širokou škálu aplikací, které mohou změnit způsob, jakým vytváříme a konzumujeme video obsah. Zde je několik příkladů:
Tyto příklady ukazují obrovský pokrok v oblasti AI. Nicméně především otevírají dveře novým možnostem v tvorbě video obsahu. Podívejte se na prezentaci videa ve vysokém rozlišení, které zobrazuje krásu kvetoucího květu:
Zdroj: OpenAI (https://cdn.openai.com/sora/videos/flower-blooming.mp4 nebo https://youtu.be/UNmqxZoTgsk)
Je Sora jen hračkou a dalším nástrojem pro vytváření video obsahu? Ne. Minimálně podle OpenAI. Jak tvůrci Sory píší:
Učíme umělou inteligenci chápat a simulovat fyzický svět v pohybu, a cílem je trénovat modely, které pomáhají lidem řešit problémy vyžadující interakci s reálným světem.
Aby model přesně generoval videa, musí chápat svět na mnohem hlubší úrovni, než je potřeba pro vytváření textu. To zahrnuje porozumění fyzice, prostorovým vztahům mezi objekty na stejné rovině a interakci mezi popředím a pozadím.
Sora bude schopna generovat:
V budoucnu by Sora mohla být použita k vytváření propagačních videí, obsahu pro sociální média nebo obchodních prezentací. Je to nástroj, který by mohl zcela změnit způsob, jakým vytváříme a sdílíme video obsah:
Zdroj: OpenAI (https://cdn.openai.com/sora/videos/aquarium-nyc.mp4 nebo https://youtu.be/3l8wjxjNubE)
Ačkoli tento kolosální krok ve vývoji generativní umělé inteligence je vzrušující, také vyvolává obavy ohledně rizik spojených s deep fakes, zejména ve vztahu k prezidentským volbám v USA. Hrozby spojené s používáním Sory zahrnují především:
Proto, i když jsou schopnosti Sory ohromující, musíme být opatrní ohledně jejich dopadu na společnost, vytvářet regulace a podniknout další kroky k minimalizaci jejich negativních důsledků.
Ačkoli je Sora v současnosti ve fázi testování a není dostupná širšímu publiku, používání se zdá být jednoduchým a intuitivním procesem. Uživatelé ji pravděpodobně budou moci používat tak, jak nyní používají DALL-E 3 v ChatGPT Plus. To znamená, že budou psát textové příkazy, které Sora převede na krátké video klipy. To nabízí nové příležitosti pro tvůrce obsahu, marketéry a pedagogy, což jim umožní rychle vytvářet atraktivní, vysoce kvalitní videa.
Ale jak se Sora srovnává s jinými generátory videí? Zatím můžeme pouze spekulovat, jak si Sora povede, ale na základě popisu nástroje dostupného na webových stránkách OpenAI můžeme učinit několik obecných pozorování:
Sora se liší od ostatních nástrojů pro generování videí, protože vytváří vysoce realistická videa, která se blíží skutečným záznamům. Rozlišení je zde obzvlášť důležité. Sora dokáže vytvářet videa s rozlišením až 1920x1080px.
Se svým hlubokým porozuměním jazyku model přesně interpretuje příkazy. Zde OpenAI použil metodu osvědčenou v DALL-E 3. Model nejprve interpretuje jednoduchý podnět zadaný uživatelem a poté generuje vizuální obsah na základě jeho propracované a podrobné verze. To mu umožňuje vytvářet složité scény a generovat postavy, které vyjadřují autentické emoce:
Zdroj: OpenAI (https://cdn.openai.com/sora/videos/closeup-man-in-glasses.mp4 nebo https://youtu.be/pxkfUDoQg5I)
Potenciál Sory transformovat kreativní průmysl je obrovský. Přístup k tomuto nástroji pro filmaře a designéry přináší novou kvalitu do tvorby video obsahu. Sora slouží jako základ pro modely schopné simulovat reálný svět, což by mohlo být průlomem v dosažení AGI (Umělá obecná inteligence). Minimálně to tvrdí její tvůrci, OpenAI.
Jelikož Sora vytváří realistické pohyblivé obrázky podobné těm, které byly natočeny lidskou rukou, má potenciál výrazně změnit oblast tvorby videí, od školících materiálů po hollywoodské produkce. Sora nepochybně ovlivní:
Zdroj: DALL·E 3, podnět: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Použití AI ve výrobě videí nabízí společnostem řadu výhod, jako jsou úspory času a nákladů, konzistentní kvalita výsledků a zvýšení hodnoty konečného produktu. OpenAI podniká kroky k zajištění bezpečnosti Sory, včetně spolupráce s týmy pro testování proti zneužití a vývoje klasifikátoru pro detekci videí generovaných AI.
Sora od OpenAI otevírá nové možnosti pro vytváření a konzumaci video obsahu. Od revolucionalizace kreativního průmyslu po ovlivnění marketingu a vzdělávání, až po vliv na každodenní komunikaci – potenciál je obrovský. Jako nástroj, který může zcela změnit pravidla hry, si Sora zaslouží zvláštní pozornost. Těšíme se na další informace od OpenAI, zejména ohledně toho, kdy bude Sora dostupná širší veřejnosti. To znamená začátek nové éry v tvorbě video obsahu. Dalším krokem je její integrace se zvukem, hlasem a 3D modely, což otevře dveře do metaverza.
Pokud se vám náš obsah líbí, připojte se k naší komunitě pilných včel na Facebooku, Twitteru, LinkedInu, Instagramu, YouTube, Pinterestu, TikToku.
Odborník na JavaScript a lektor, který školí IT oddělení. Jeho hlavním cílem je zvýšit produktivitu týmu tím, že učí ostatní, jak efektivně spolupracovat při programování.
Společnosti se potýkají s řízením obrovského množství obsahu publikovaného online, od příspěvků na sociálních médiích…
V éře digitální transformace mají společnosti přístup k bezprecedentnímu množství dat o svých zákaznících –…
Věděli jste, že můžete získat podstatu několika hodinového záznamu ze schůzky nebo rozhovoru s klientem…
Představte si svět, kde vaše firma může vytvářet poutavá, personalizovaná videa pro jakoukoli příležitost, aniž…
Aby plně využily potenciál velkých jazykových modelů (LLM), musí společnosti implementovat efektivní přístup k řízení…
V roce 2018 se Unilever již vydal na vědomou cestu k vyvážení automatizace a rozšiřování…