Представьте, что вы сидите в тёмном кинотеатре и гадаете, сколько газировки осталось в вашем стакане. Вместо того, чтобы снять крышку и посмотреть, вы берёте стакан и слегка встряхиваете его, чтобы услышать, сколько льда внутри, и понять, примерно какой объем жидкости остался. Поставив стакан в подстаканник подлокотника, вы задумываетесь, сделан ли подлокотник из настоящего дерева? Однако, постучав по нему несколько раз и услышав глухое эхо. И Вы понимаете, что он сделан из пластика.
Такая способность воспринимать мир с помощью акустических колебаний, исходящих от объекта, — это то, что мы делаем каждый день. И именно эту способность исследователи собираются внедрить в роботов, чтобы расширить их быстро растущий набор сенсорных возможностей.
Новое исследование Университета Дьюка, которое будет представлено на конференции по обучению роботов (CoRL 2024), которая состоится 6-9 ноября в Мюнхене, описывает систему, получившую название SonicSense. Она позволяет роботам взаимодействовать с окружающей средой способами, ранее доступными только людям.
«Сегодня роботы в основном полагаются на зрение для восприятия мира, — объяснил Цзяхсун Лю, ведущий автор статьи и аспирант первого года обучения в лаборатории Боюаня Чена, профессора машиностроения и материаловедения в Университете Дьюка.
«Мы хотели создать решение, которое могло бы работать со сложными и разнообразными объектами, встречающимися в повседневной жизни, и дать роботам гораздо более широкие возможности «чувствовать» и понимать мир».
SonicSense представляет собой роботизированную руку с четырьмя пальцами, каждый из которых оснащен контактным микрофоном, встроенным в кончик пальца. Эти датчики обнаруживают и регистрируют вибрации, возникающие, когда робот постукивает, хватает или встряхивает предмет. А поскольку микрофоны находятся в контакте с объектом, это позволяет роботу отключаться от окружающих шумов.
Основываясь на взаимодействии и обнаруженных сигналах, SonicSense извлекает частотные характеристики и использует свои предыдущие знания в сочетании с последними достижениями в области искусственного интеллекта, чтобы определить, из какого материала сделан объект и какова его трёхмерная форма. Если это объект, который система никогда раньше не видела, системе может потребоваться 20 различных взаимодействий. Но если этот объект уже есть в её базе данных, она может правильно идентифицировать его всего за четыре.
«SonicSense даёт роботам новый способ слышать и чувствовать, как люди, что может изменить то, как современные роботы воспринимают объекты и взаимодействуют с ними, — сказал Чен, у которого также есть ученики и студенты, изучающие электротехнику, компьютерную инженерию и информатику. Хотя зрение важно, звук добавляет уровни информации, которые могут выявить то, что глаз может упустить».
В статье и демонстрациях Чен и его лаборатория демонстрируют ряд возможностей, которые обеспечивает SonicSense. Поворачивая или встряхивая коробку, наполненную игральными костями, он может подсчитать количество костей внутри, а также их форму. Сделав то же самое с бутылкой воды, он может определить, сколько жидкости внутри. А постукивая по поверхности объекта, подобно тому, как люди исследуют предметы в темноте, он может построить трёхмерную реконструкцию формы объекта и определить, из какого материала он сделан.
Хотя SonicSense — не первая попытка использовать этот подход, она идёт дальше и работает лучше, чем предыдущие работы, благодаря использованию четырёх пальцев вместо одного, которые отсеивают окружающий шум, и передовых методов искусственного интеллекта. Такая настройка позволяет системе распознавать объекты, состоящие из нескольких материалов, со сложной геометрией, прозрачными или отражающими поверхностями, а также материалы, которые сложно распознавать с помощью систем, основанных на зрении.
«В то время как большинство наборов данных собираются в контролируемых лабораторных условиях или с участием человека, нам нужно было, чтобы наш робот мог самостоятельно взаимодействовать с объектами в открытой лабораторной среде, — сказал Лю. — Трудно воспроизвести такой уровень сложности в симуляции. Этот разрыв между контролируемыми данными и данными из реального мира имеет решающее значение, и SonicSense устраняет его, позволяя роботам напрямую взаимодействовать с разнообразными и сложными реалиями физического мира».
Благодаря этим возможностям SonicSense является надёжной основой для обучения роботов распознаванию объектов в динамичной, неструктурированной среде. Использование тех же контактных микрофонов, которые музыканты используют для записи звука с гитар, 3D-печати и других доступных на рынке компонентов позволяет сократить расходы на сборку до чуть более 200 долларов.
В дальнейшем группа будет работать над улучшением способности системы взаимодействовать с несколькими объектами. Благодаря интеграции алгоритмов отслеживания объектов роботы смогут работать в динамичных, загромождённых помещениях, что приблизит их к адаптивности человека в реальных условиях.
Ещё одно ключевое нововведение заключается в конструкции самой роботизированной руки.
«Это только начало. В будущем мы планируем использовать SonicSense в более продвинутых роботизированных руках с ловкими манипулятивными навыками, что позволит роботам выполнять задачи, требующие тонкого осязания», — сказал Чен. «Мы с нетерпением ждём возможности изучить, как можно усовершенствовать эту технологию, чтобы интегрировать несколько сенсорных модальностей, таких как давление и температура, для ещё более сложных взаимодействий».