Малые нейросети способны обучать большие ИИ-модели лучше человека

/ 29.06.2024

Новый подход впервые применили в компьютерном зрении — команде удалось повысить точность детектирования и распознавания 3D-объектов.

Ученые Института AIRI и НИУ ВШЭ представили и экспериментально подтвердили преимущества использования малых генеративных моделей, обученных на качественном наборе данных, для дальнейшего обучения больших моделей ИИ и решения задач 3D-детекции. Подход будет применим в развитии беспилотных автомобилей и позволит в перспективе точнее определять скорость и направление движения объекта, свойства его поверхности, а также позиционирование транспортного средства в пространстве. Статья принята на крупнейшую международную конференцию по компьютерному зрению CVPR 2024.

Распознавание 3D-объектов — одна из ключевых задач для предсказания и планирования пути движения беспилотного автомобиля. Для ее решения система по разрозненному набору показаний определяет область (параллелепипед), внутри которой находится объект. Однако такие сенсоры как лидар не всегда позволяют получить полную информацию о глубине и, как следствие, 3D-позиции предмета. На дороге один элемент может полностью или частично перекрываться другими объектами сложной структуры — например, деревом или движущимся автомобилем, что будет негативно сказываться на эффективности работы лидара.

Предложенный российскими учеными подход показал более точное определение 3D-положения предмета несмотря на шум в данных лидара и перекрытие объектов друг другом. В ходе годового исследования команда обучала небольшую генеративную модель на доступных записях облаков точек, снятых во время проезда автомобиля по улицам города. Точки данных собирались по трем сценариям: когда объект был полностью в поле зрения, была видна лишь его часть и когда он оставался позади.

Далее при помощи метода Point Cloud Registration (PCR) облака точек соотносились с конкретными автомобилями и другими предметами даже на основе небольшого видимого фрагмента. Затем эта небольшая, но точная модель (модель-учитель) применялась для обучения большой нейросети (модель-студент), работающей на шумных облаках точек с множеством сложных параметров. В результате нейросеть значительно повысила точность распознавания реальных объектов — технология стала корректно предполагать форму окружающих предметов, которые могла увидеть лишь в будущем.

«Мы начали работу над проектом параллельно с исследователями OpenAI, которые решили применить схожий подход для работы с текстами, тогда как наша команда сосредоточилась на компьютерном зрении. Интересно, что и сама идея, и полученные результаты показали свою состоятельность у обеих команд, которые пришли к схожим выводам не взаимодействуя друг с другом напрямую. Мы видим возможность масштабировать подход в компьютерном зрении: например, увеличивать количество задач и сложность каждой модели. Так, можно обучать несколько маленьких моделей-учителей на хороших данных, каждую — для своих целей, которые после обучат большую модель-студента. Еще вариант — обучать малые нейросети сразу нескольким задачам для получения мультитаск-учителя», — подчеркнул Илья Макаров, руководитель группы «ИИ в промышленности» Института AIRI.

Подписаться на новости

Обсудить

Назад