Categories: AI v podnikáníBlog

ReALM. Průlomový jazykový model od Apple? | AI v podnikání #121

Co je ReALM?

ReALM znamená “Reference Resolution As Language Modeling,” průlomové řešení vyvinuté výzkumníky společnosti Apple. Je to tedy nový jazykový model (Large Language Model, LLM), který považuje problém rozpoznávání referencí za úkol v oblasti jazykového modelování.

ReALM efektivně převádí různé typy kontextu na textovou reprezentaci, kterou poté zpracovává jako součást jazykového úkolu. To může zahrnovat:

  • konverzace – jako jsou textové zprávy, hlasové příkazy asistentovi nebo e-maily,
  • prvky na obrazovce – například fotografie, kalendář, widget počasí nebo aplikace a procesy běžící na pozadí.

Co dělá ReALM odlišným od ostatních modelů rozpoznávání referencí? Především přístup – místo spoléhání se na zpracování obrazu, ReALM funguje v textové doméně. To jej činí mnohem lehčím a efektivnějším, což by mělo umožnit jeho provoz přímo na mobilních zařízeních při zachování soukromí uživatelů.

V čem je ReALM lepší než GPT-4?

Výzkumný tým společnosti Apple porovnal ReALM s nejvýkonnějšími jazykovými modely na trhu dnes – GPT-3.5 a GPT-4 od OpenAI. Výsledky byly působivé. V úlohách rozpoznávání referencí dosáhla nejmenší varianta ReALM přesnosti srovnatelné s GPT-4! Větší modely ReALM dokonce překonaly GPT-4 v rozpoznávání referencí na položky zobrazené na obrazovce (http://arxiv.org/abs/2403.20329).

Co vysvětluje tuto výhodu? Především, ReALM je skvělý s dotazy specifickými pro doménu, jako jsou ty, které se týkají chytrých domácích spotřebičů. To je způsobeno tím, že ReALM prokazuje hlubší porozumění kontextu tím, že model jemně ladí pro data specifická pro doménu.

Co víc, na rozdíl od GPT-4, který se primárně trénuje na obrázcích skutečných objektů, ReALM vyniká v rozpoznávání textových prvků a komponent uživatelských rozhraní aplikací. A porozumění rozhraní je klíčové pro plynulou interakci hlasových asistentů s aplikacemi, které dnes používáme.

Zdroj: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)

Je to začátek éry skutečně inteligentních asistentů?

Opravdu, integrace ReALM se Siri by mohla otevřít zcela novou kapitolu v interakci člověka s počítačem. S ReALM bude Siri schopna rozumět příkazům, které zahrnují odkazy na položky zobrazené na obrazovce smartphonu, stejně jako procesy a aplikace běžící na pozadí. Ale kdy bude tato možnost dostupná uživatelům? To je stále neznámé.

Zůstáváme s spekulacemi založenými na technických schopnostech modelu. Jak by tedy mohla fungovat Siri poháněná ReALM? Například, pokud procházíte webovou stránku s firemními seznamy a vidíte společnost, o kterou máte zájem, můžete jednoduše říct Siri: “Zavolej tuto společnost,” a asistent – využívající ReALM k analýze kontextu – najde telefonní číslo společnosti, kterou specifikujete, a zahájí hovor. Ani nemusíte vysvětlovat, kterou společnost máte na mysli.

A to je teprve začátek možností ReALM. Příkazy jako „Přehrát poslední playlist“ by umožnily intuitivní ovládání multimediálních aplikací a zařízení chytré domácnosti. ReALM by také mohl umožnit Siri rozumět kontextu konverzací a historii příkazů, aby asistent reagoval adekvátně na předchozí požadavky uživatele. To je krok směrem k inteligentním agentům, který nás přibližuje nejen k umělé inteligenci, která rozumí našim dotazům, ale k takové, která bude umět realizovat příkazy.

A to je teprve začátek toho, co ReALM může udělat. Příkazy jako “přehrát poslední playlist” by umožnily intuitivní ovládání multimediálních aplikací a zařízení chytré domácnosti. ReALM by také mohl umožnit Siri rozumět kontextu konverzací a historii příkazů, aby asistent reagoval adekvátně na předchozí požadavky uživatele. To je krok směrem k inteligentním agentům, který nás přibližuje k umělé inteligenci, která rozumí našim požadavkům, ale také ví, jak vykonávat příkazy.

Bohužel, uživatelé zařízení Android budou muset počkat. V současnosti nejsou žádné informace o plánech společnosti Google přidat schopnosti Gemini do Google Assistant. Aplikace Google Gemini pro zařízení Android byla vyvinuta (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), ale zatím není dostupná mimo Spojené státy.

Zdroj: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)

Shrnutí

ReALM je inovativní přístup společnosti Apple k řešení problému rozpoznávání kontextu hlasovými asistenty. Místo spoléhání se na zpracování obrazu tento jazykový model převádí různé typy kontextu na textovou reprezentaci, kterou poté zpracovává v jazykovém úkolu. Tento přístup zajišťuje nejen vysokou přesnost rozpoznávání, ale také schopnost fungovat na mobilním zařízení při zachování soukromí uživatelů.

Poskytnutí přístupu Siri k ReALM může poskytnout přirozenější a kontextuální hlasové interakce, což je důležitý krok směrem k skutečně inteligentním asistentům. S ReALM bude Siri schopna okamžitě reagovat na příkazy týkající se položek na obrazovce, aplikací a procesů na pozadí. Jedna věc je jistá – zlepšení kontextového povědomí asistentů je klíčem k vytvoření skutečně inteligentních a přirozených hlasových interakcí, a ReALM je bezpochyby důležitým krokem tímto směrem.

Pokud se vám náš obsah líbí, připojte se k naší komunitě pilných včel na Facebooku, Twitteru, LinkedInu, Instagramu, YouTube, Pinterestu, TikToku.

Robert Whitney

Odborník na JavaScript a lektor, který školí IT oddělení. Jeho hlavním cílem je zvýšit produktivitu týmu tím, že učí ostatní, jak efektivně spolupracovat při programování.

View all posts →

Robert Whitney

Odborník na JavaScript a lektor, který školí IT oddělení. Jeho hlavním cílem je zvýšit produktivitu týmu tím, že učí ostatní, jak efektivně spolupracovat při programování.

Share
Published by
Robert Whitney

Recent Posts

Role AI v moderaci obsahu | AI v podnikání #129

Společnosti se potýkají s řízením obrovského množství obsahu publikovaného online, od příspěvků na sociálních médiích…

1 day ago

Analýza sentimentu s AI. Jak pomáhá řídit změny v podnikání? | AI v podnikání #128

V éře digitální transformace mají společnosti přístup k bezprecedentnímu množství dat o svých zákaznících –…

2 days ago

Nejlepší nástroje pro přepisování pomocí AI. Jak převést dlouhé nahrávky na stručné shrnutí? | AI v podnikání #127

Věděli jste, že můžete získat podstatu několika hodinového záznamu ze schůzky nebo rozhovoru s klientem…

2 days ago

Generování videa pomocí AI. Nové obzory ve výrobě video obsahu pro podniky | AI v podnikání #126

Představte si svět, kde vaše firma může vytvářet poutavá, personalizovaná videa pro jakoukoli příležitost, aniž…

2 days ago

LLMOps, neboli jak efektivně spravovat jazykové modely v organizaci | AI v podnikání #125

Aby plně využily potenciál velkých jazykových modelů (LLM), musí společnosti implementovat efektivní přístup k řízení…

2 days ago

Automatizace nebo augmentace? Dva přístupy k AI ve společnosti | AI v podnikání #124

V roce 2018 se Unilever již vydal na vědomou cestu k vyvážení automatizace a rozšiřování…

2 days ago