Сбер представил нейросетевые модели, позволяющие распознавать русский жестовый язык. Новинкой на конференции AI Journey поделился старший вице-президент, СTO, руководитель блока «Технологи» Сбербанка Андрей Белевцев.
Команда Vision RnD в SberDevices первой в мире представила прототип общения с генеративной языковой моделью при помощи жестового языка в открытом доступе. Для этого понадобился GigaChat API и программный интерфейс доступа к сервису GigaChat. GigaChat самостоятельно понимает контекст распознанных жестов и распознанные отдельные слова (например, «Я Идти Улица Гулять») преобразовывает в корректную фразу («Я пошёл гулять на улицу» — прим. Ф.), сохраняя контекст.
Текущая версия модели распознаёт более 2,5 тысячи жестов, включая понимание дактиля (произношение слов по буквам — прим. Ф.) и составные жесты. Кроме того, модель понимает терминологию, связанную с банковским делом, транспортом, животными и немного даже терминов из сферы медицины и образования. Этот объём составляет существенную часть словаря русского жестового языка, позволяя создавать сервисы с нужным прикладным применением.
На базе этой модели обучили нейросети, чтобы можно было распознавать американский язык жестов, и они оказались в лидерах рейтинга WLASL-2000. Другая команда исследователей из подразделения Sber AI разработала и опубликовала в открытом доступе лёгкую модель распознавания жестового языка, не требовательную к вычислительным ресурсам. Модель работает на CPU, что позволяет экономить на решениях, создаваемых на её основе. Это даёт возможность широкому кругу разработчиков проектировать инклюзивное программное обеспечение, например, продукты и сервисы для коммуникации или инструменты для изучения жестового языка.
Сейчас алгоритм распознаёт 1,6 тысячи жестов и преобразовывает в слова до трёх жестов в секунду на стандартных персональных компьютерах. В 2024 году учёные намерены протестировать и внедрить распознавание русского жестового языка в нескольких российских регионах.
— Сервисы для распознавания русского жестового языка и созданная Сбером система искусственного интеллекта GigaChat позволят преодолеть коммуникационный разрыв и сделают мир доступнее для людей с нарушением слуха. Модели могут использоваться в рамках исследований, позволяющих развивать сервисы для пользователей с инвалидностью. Например, для создания доступной среды в многофункциональных центрах, в транспортной отрасли (аэропорты, вокзалы, метро), в больницах для общения пациента и врача, в банковских сервисах и адаптации онлайн и оффлайн-образования, — рассказал Андрей Белевцев.