Исследователи из Института робототехники Университета Карнеги-Меллона показали, что системы компьютерного зрения могут легче обнаруживать движущиеся объекты (например, автомобиль, движущийся по улице, или человек, идущий по пешеходному переходу), чем неподвижные объекты.
Мартиал Хеберт, декан Школы компьютерных наук КМУ и профессор Института робототехники, доктор робототехники. студент Чжипэн Бао сотрудничал в проекте с Исследовательским институтом Toyota, который спонсировал работу. Исследование может помочь компьютерам и роботам лучше автоматически обнаруживать объекты в видео.
Распознавание объектов имеет основополагающее значение для понимания сцен реального мира, поэтому разработка методов обнаружения объектов на основе движения может улучшить автономное вождение. Это также может оказаться полезным для розничной робототехники, роботизированных манипуляций и домашних роботов.
Работая с коллегами из Toyota, Калифорнийского университета в Беркли и Университета Иллинойса в Урбане-Шампейне, исследователи CMU разработали платформу под названием MoTok, которая позволяет компьютеру самостоятельно идентифицировать особенности движущихся объектов. Затем MoTok использует эти функции для реконструкции объекта, позволяя компьютеру обнаружить объект таким образом, чтобы он мог снова найти тот же объект.
С тех пор исследователи расширили работу, чтобы компьютер мог отображать эти функции в упрощенном виртуализированном виде. Эта разработка позволяет компьютеру лучше идентифицировать функции высокого уровня, позволяя компьютеру классифицировать объекты, а не просто идентифицировать конкретный объект. Статья в настоящее время доступна на сервере препринтов arXiv.
Визуализация объектов дается людям естественным образом — на самом деле настолько естественно, что видение трудно поддается самоанализу.
Достижения в области машинного обучения помогли улучшить способность компьютеров распознавать объекты, хотя и не так, как люди. Однако эти методы требуют десятков тысяч часов видео, содержащих помеченные объекты. Это трудоемко, дорого и подвержено сбоям вне лаборатории.
Необходим общий метод, который позволит компьютерным программам самостоятельно обнаруживать объекты в видео, без маркировки или контроля. Как показывает MoTok, использование движения для управления обнаружением объектов — один из способов достижения этой цели.
«Движущиеся объекты легко отличить от статичного фона», – говорит Бао, который завершил исследование во время стажировки в Исследовательском институте Toyota. «Движение также может помочь определить объект, который состоит из нескольких движущихся частей. Дверь автомобиля может открываться и закрываться, а колеса могут вращаться, но все части, движущиеся вместе, когда автомобиль движется по улице, могут помочь компьютерным программам лучше понять концепцию автомобиля. .»
Команда представила свой доклад о MoTok в июне на конференции по распознаванию изображений и образов. Более подробная информация о MoTok доступна на сайте проекта.