Группа исследователей Apple представила ReALM (Reference Resolution as Language Modeling) — новую ИИ-модель, которая направлена на радикальное улучшение понимания у голосовых помощников и для повышения реагирования на команды.
Компания говорит, что эта большая языковая модель позволяет расшифровать «неоднозначные ссылки» в экранных объектах, а также справляется пониманием разговорного и фонового контекста. ReALM может привести к более интуитивному и естественному взаимодействию с устройствами.
Под неоднозначными ссылками понимаются используемые юзерами местоимения и подобные элементы речи в ходе разговора.
Для голосовых ассистентов эта возможность исторически была серьезной проблемой. Система ReALM от Apple пытается её решить, превращая сложный процесс интерпретации ссылок в задачу языкового моделирования.
ReALM реконструирует визуальный макет экрана, используя текстовые представления, включая анализ экранных объектов и их местоположений для создания текстового формата, отражающего содержимое и структуру экрана. Исследователи Apple обнаружили, благодаря этой стратегии и специальной тонкой настройкой языковых моделей значительно превосходит традиционные методы, включая те, что применяются в ChatGPT.
Новая ИИ-система от Apple может позволить эффективнее взаимодействовать с цифровыми помощниками, опираясь на то, что в данный момент отображается на экране, то есть не надо будет говорить какие-то уточняющие вещи. Это может сделать цифровых ассистентов эффективнее в различных ситуациях. Например, помогая водителям ориентироваться в медиасистемах авто во время вождения или помогая пользователям с ограниченными возможностями, предоставляя более простые и точные средства непрямого взаимодействия. [MacRumors]
Источник