ReALM znamená “Reference Resolution As Language Modeling,” průlomové řešení vyvinuté výzkumníky společnosti Apple. Je to tedy nový jazykový model (Large Language Model, LLM), který považuje problém rozpoznávání referencí za úkol v oblasti jazykového modelování.
ReALM efektivně převádí různé typy kontextu na textovou reprezentaci, kterou poté zpracovává jako součást jazykového úkolu. To může zahrnovat:
Co dělá ReALM odlišným od ostatních modelů rozpoznávání referencí? Především přístup – místo spoléhání se na zpracování obrazu, ReALM funguje v textové doméně. To jej činí mnohem lehčím a efektivnějším, což by mělo umožnit jeho provoz přímo na mobilních zařízeních při zachování soukromí uživatelů.
Výzkumný tým společnosti Apple porovnal ReALM s nejvýkonnějšími jazykovými modely na trhu dnes – GPT-3.5 a GPT-4 od OpenAI. Výsledky byly působivé. V úlohách rozpoznávání referencí dosáhla nejmenší varianta ReALM přesnosti srovnatelné s GPT-4! Větší modely ReALM dokonce překonaly GPT-4 v rozpoznávání referencí na položky zobrazené na obrazovce (http://arxiv.org/abs/2403.20329).
Co vysvětluje tuto výhodu? Především, ReALM je skvělý s dotazy specifickými pro doménu, jako jsou ty, které se týkají chytrých domácích spotřebičů. To je způsobeno tím, že ReALM prokazuje hlubší porozumění kontextu tím, že model jemně ladí pro data specifická pro doménu.
Co víc, na rozdíl od GPT-4, který se primárně trénuje na obrázcích skutečných objektů, ReALM vyniká v rozpoznávání textových prvků a komponent uživatelských rozhraní aplikací. A porozumění rozhraní je klíčové pro plynulou interakci hlasových asistentů s aplikacemi, které dnes používáme.
Zdroj: DALL·E 3, prompt: Marta M. Kania (https://www.linkedin.com/in/martamatyldakania/)
Opravdu, integrace ReALM se Siri by mohla otevřít zcela novou kapitolu v interakci člověka s počítačem. S ReALM bude Siri schopna rozumět příkazům, které zahrnují odkazy na položky zobrazené na obrazovce smartphonu, stejně jako procesy a aplikace běžící na pozadí. Ale kdy bude tato možnost dostupná uživatelům? To je stále neznámé.
Zůstáváme s spekulacemi založenými na technických schopnostech modelu. Jak by tedy mohla fungovat Siri poháněná ReALM? Například, pokud procházíte webovou stránku s firemními seznamy a vidíte společnost, o kterou máte zájem, můžete jednoduše říct Siri: “Zavolej tuto společnost,” a asistent – využívající ReALM k analýze kontextu – najde telefonní číslo společnosti, kterou specifikujete, a zahájí hovor. Ani nemusíte vysvětlovat, kterou společnost máte na mysli.
A to je teprve začátek možností ReALM. Příkazy jako „Přehrát poslední playlist“ by umožnily intuitivní ovládání multimediálních aplikací a zařízení chytré domácnosti. ReALM by také mohl umožnit Siri rozumět kontextu konverzací a historii příkazů, aby asistent reagoval adekvátně na předchozí požadavky uživatele. To je krok směrem k inteligentním agentům, který nás přibližuje nejen k umělé inteligenci, která rozumí našim dotazům, ale k takové, která bude umět realizovat příkazy.
A to je teprve začátek toho, co ReALM může udělat. Příkazy jako “přehrát poslední playlist” by umožnily intuitivní ovládání multimediálních aplikací a zařízení chytré domácnosti. ReALM by také mohl umožnit Siri rozumět kontextu konverzací a historii příkazů, aby asistent reagoval adekvátně na předchozí požadavky uživatele. To je krok směrem k inteligentním agentům, který nás přibližuje k umělé inteligenci, která rozumí našim požadavkům, ale také ví, jak vykonávat příkazy.
Bohužel, uživatelé zařízení Android budou muset počkat. V současnosti nejsou žádné informace o plánech společnosti Google přidat schopnosti Gemini do Google Assistant. Aplikace Google Gemini pro zařízení Android byla vyvinuta (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US), ale zatím není dostupná mimo Spojené státy.
Zdroj: Google Play (https://play.google.com/store/apps/details?id=com.google.android.apps.bard&hl=en_US)
ReALM je inovativní přístup společnosti Apple k řešení problému rozpoznávání kontextu hlasovými asistenty. Místo spoléhání se na zpracování obrazu tento jazykový model převádí různé typy kontextu na textovou reprezentaci, kterou poté zpracovává v jazykovém úkolu. Tento přístup zajišťuje nejen vysokou přesnost rozpoznávání, ale také schopnost fungovat na mobilním zařízení při zachování soukromí uživatelů.
Poskytnutí přístupu Siri k ReALM může poskytnout přirozenější a kontextuální hlasové interakce, což je důležitý krok směrem k skutečně inteligentním asistentům. S ReALM bude Siri schopna okamžitě reagovat na příkazy týkající se položek na obrazovce, aplikací a procesů na pozadí. Jedna věc je jistá – zlepšení kontextového povědomí asistentů je klíčem k vytvoření skutečně inteligentních a přirozených hlasových interakcí, a ReALM je bezpochyby důležitým krokem tímto směrem.
Pokud se vám náš obsah líbí, připojte se k naší komunitě pilných včel na Facebooku, Twitteru, LinkedInu, Instagramu, YouTube, Pinterestu, TikToku.
Odborník na JavaScript a lektor, který školí IT oddělení. Jeho hlavním cílem je zvýšit produktivitu týmu tím, že učí ostatní, jak efektivně spolupracovat při programování.
Společnosti se potýkají s řízením obrovského množství obsahu publikovaného online, od příspěvků na sociálních médiích…
V éře digitální transformace mají společnosti přístup k bezprecedentnímu množství dat o svých zákaznících –…
Věděli jste, že můžete získat podstatu několika hodinového záznamu ze schůzky nebo rozhovoru s klientem…
Představte si svět, kde vaše firma může vytvářet poutavá, personalizovaná videa pro jakoukoli příležitost, aniž…
Aby plně využily potenciál velkých jazykových modelů (LLM), musí společnosti implementovat efektivní přístup k řízení…
V roce 2018 se Unilever již vydal na vědomou cestu k vyvážení automatizace a rozšiřování…