Эволюция трехмерного зрения

Трехмерное зрение лежит в основе современной автоматизации, которая бесчисленными способами улучшает производственные процессы и облегчает нашу жизнь. Он помогает нам сортировать продукты, проверять объекты в приложениях контроля качества и находить на них дефекты, а также выполнять самые разнообразные задачи быстрее и эффективнее, чем это когда-либо делал человек. Роботы с визуальным управлением обычно используются для выполнения опасных задач и работы с тяжелыми предметами, поэтому они также повышают безопасность и снижают риск травм.

Технологии 3D-зондирования прошли долгий путь, чтобы предоставить все те преимущества, которыми мы можем наслаждаться сегодня, и они все еще развиваются. От первой фотографии до цифрового изображения, от 2D до 3D, от 3D-сканирования статичных объектов до захвата динамических сцен. Что будет дальше?

Вместе с Томасом Коваковским, соучредителем и техническим директором Photoneo Group, мы рассмотрели историю трехмерного машинного зрения вплоть до последних достижений, которые доминируют в современных тенденциях, таких как Индустрия 4.0. Давайте кратко рассмотрим его.

Фотография и первые технологии захвата изображений

С самого начала фотографии люди были очарованы возможностью запечатлеть и записать события. Первое известное фото был сделан где-то между 1826 и 1827 годами французского изобретателя Жозефа Нисефора Ньепса. В то время как его фотографический процесс требовал не менее восьми часов, если не нескольких дней экспозиции в камере, его коллега Луи Дагер разработал первый публично объявленный фотографический процесс (известный как дагерротип), который длился всего несколько минут экспозиции. Изобретение было представлено публике в 1839 г. – год, который обычно считается рождением практической фотографии.

Долгое время фотография служила только средством фиксации событий. Поскольку обработка изображения занимала довольно много времени, аналоговая технология не была идеальной для использования в задачах машинного зрения или принятия решений.

В 1969 году Уильям Бойл и Джордж Смит из American Bell Laboratories изобрел датчик CCD (устройство с зарядовой связью) для записи изображений , что стало важной вехой в развитии цифровых изображений. ПЗС-датчик захватывает изображения, преобразовывая фотоны в электроны, то есть он принимает свет и переводит его в цифровые данные. Хотя в то время ПЗС-матрицы не могли конкурировать со стандартной пленкой для захвата изображения, их начали использовать для определенных приложений, и дело пошло.

От 2D к 3D

2D-зондирование положило начало эре автоматизации и это был преобладающий подход в автоматизации промышленного сектора в течение длительного времени. 2D-зрение даже сегодня используется в некоторых простых приложениях, в том числе в следующих:

Оптическое распознавание символов (OCR) — чтение печатных, рукописных или печатных текстов; чтение штрих-кода
Контроль качества – часто используется в сочетании со специальным освещением, чтобы гарантировать неизменность оптических качеств сканируемого объекта.
Подсчет
Подбор товаров при четко определенных условиях

Однако основным ограничением 2D-технологий является то, что они не могут распознавать формы объектов или измерять расстояние в Z-измерении.

2D-приложения требуют хороших, четко определенных условий с дополнительным освещением, что также ограничивает такие приложения, как сбор мусора. Эта роботизированная задача может быть выполнена с помощью системы 2D-зрения, но, как правило, это проблематично из-за случайного положения объектов в корзине и большого объема информации в сцене, которую системы 2D-зрения не могут обработать.

Люди осознали необходимость трехмерной информации для автоматизации более сложных задач. Они поняли, что люди могут видеть свое окружение в трехмерном виде и определять расстояние до объектов, потому что у них есть два глаза — стереоскопическое зрение.

В 1960-х Ларри Робертс , которого считают отцом компьютерного зрения. , описано как получить трехмерную геометрическую информацию из двухмерных фотографий штриховых чертежей. и как компьютер может создать 3D-модель из одной 2D-фотографии.

В 1970-х годах в Лаборатории искусственного интеллекта Массачусетского технологического института начался курс «Машинное зрение» для решения низкоуровневых задач машинного зрения. Здесь Дэвид Марр разработал уникальный подход к пониманию сцены с помощью компьютерного зрения, где он использовал зрение как систему обработки информации. Его подход начался с 2D-эскиза, который был построен компьютером для получения окончательного 3D-изображения.

Исследования в области машинного зрения активизировались в 1980-х годах и привели к появлению новых теорий и концепций. Это привело к появлению ряда различных технологий трехмерного машинного зрения, которые постепенно внедрялись в промышленных и производственных средах для автоматизации самых разных процессов.

Первые технологии трехмерного зрения

Попытки имитировать стереоскопическое зрение человека привели к разработке одной из первых технологий трехмерного восприятия — пассивного стерео. . Этот метод триангуляции наблюдает за сценой с двух точек обзора и вычисляет треугольник камера — сканируемый объект — камера. , ища корреляции между двумя изображениями. На основе несоответствия между изображениями вычисляется расстояние (глубина) от сканируемого объекта. Однако этот подход основан на поиске идентичных деталей на изображениях, поэтому он плохо работает с белыми стенами или сценами без узоров. Надежность пассивного стерео невысока, а вывод 3D обычно имеет высокий уровень шума и требует большой вычислительной мощности.

Чтобы компенсировать этот недостаток, исследователи начали экспериментировать с проецированием световых узоров на сцену, чтобы создать искусственную текстуру на поверхности и упростить выявление соответствий в сцене. Этот метод называется активным стерео. . Хотя этот метод более надежен, чем пассивное стерео, качество реконструкции часто снижается из-за строгих требований к времени обработки, что делает его недостаточным для многих приложений.

Одним из первых и до сих пор очень популярных методов получения трехмерной информации является лазерная профилометрия. . Этот метод проецирует узкую полосу света (или точку) на трехмерную поверхность, что создает линию освещения, которая кажется искаженной под углом, отличным от угла проектора. Это отклонение кодирует информацию о глубине. Линейные сканеры захватывают один профиль глубины за раз в быстрой последовательности, для чего им требуется, чтобы сканируемый объект или камера постоянно двигались. Лазерная профилометрия была одним из первых методов 3D-сканирования, который был принят для промышленного использования, и он до сих пор очень популярен, например, в метрологических приложениях.

Другой метод, изобретенный путем проецирования структурированных световых паттернов на сцену, называется структурированный свет. . Одной из наиболее цитируемых работ, в которой обсуждалось использование структурированного света с двоичными кодами для цифровой реставрации, был Цифровой проект Микеланджело . под руководством Марка Левоя и его команды из Стэнфордского университета. Проект начался в 1998 году для оцифровки статуй Микеланджело с использованием проектора и датчика камеры. Данные лазерного сканирования Давида Микеланджело затем использовались для реставрации статуи, которая началась в 2002 году. Хотя метод, использованный в этом проекте, был недостаточно быстрым для использования в приложениях реального времени, он обеспечивал очень высокую точность, необходимую для оцифровки различных изображений. артефакты и предметы. Благодаря этому технология нашла свою нишу в метрологических приложениях и других задачах робототехники и машинного зрения, требующих высокой точности сканирования.

Постепенно технология структурированного света вышла за рамки метрологии и проникла во все виды онлайн-приложений с использованием роботов, управляемых зрением. Преимущество 3D-сканеров структурированного света в том, что они не требуют движения. Поскольку они позволяют сделать снимок всей области сканирования и не нужно обходить весь объект сканером, они работают быстрее, чем устройства на основе лазерной профилометрии, и не требуют такой большой постобработки данных.

От статичных сцен к динамичным

Захват движения намного сложнее, чем 3D-сканирование статических сцен, и не подходит для методов, требующих более длительного времени захвата.

Потому что пассивное стерео — пассивный метод, не использующий дополнительное освещение, его можно использовать для съемки динамичных сцен, но только при соблюдении определенных условий. Тем не менее, результаты будут не очень хорошими.

Лазерная профилометрия в этом отношении не намного более успешный метод, чем пассивное стерео. Поскольку он захватывает один профиль за раз, чтобы сделать снимок всей сцены, камера или сцена должны двигаться. Однако эта технология не может зафиксировать динамическое событие. Чтобы реконструировать глубину для одного профиля, требуется захват изображения сканирования узкой области, при этом его размер ограничивает частоту кадров и, следовательно, также скорость сканирования.

Структурированный свет Системы, с другой стороны, проецируют несколько световых паттернов на сцену последовательно, один за другим. Для этого сцена должна быть статична. Если сканируемый объект или камера двигаются, код нарушается, и 3D-облако точек искажается.

Необходимость трехмерной реконструкции динамических объектов привела к разработке Time-of-Flight (ToF) . системы. Подобно технологии структурированного света, ToF — это активный метод, который посылает световые сигналы на сцену, а затем интерпретирует сигналы с помощью камеры и ее программного обеспечения. В отличие от структурированного света, ToF структурирует свет во времени, а не в пространстве. Он работает по принципу измерения времени, в течение которого световой сигнал, излучаемый источником света, попадает на сканируемый объект и возвращается обратно к датчику.

Первые системы ToF имели довольно низкое качество. Среди крупных игроков в этой области были такие компании, как Canesta, 3DV Systems или Microsoft (которая позже приобрела обе компании). Одним из первых известных проектов была ZCam — камера Time-of-Flight, разработанная 3DV и позже приобретенная Microsoft для использования для получения 3D-информации и взаимодействия с виртуальными объектами в игровой консоли Microsoft Xbox.

В 2010 году Microsoft выпустила сенсорную систему Kinect для Xbox — камеру с датчиком движения, основанную на технологии PrimeSense. Технология PrimeSense использовала структурированный шаблон для кодирования определенных пикселей (не всех) и получения трехмерной информации. Хотя метод не мог обеспечить высокое разрешение и детализированные контуры на краях сканируемых объектов, он получил широкое распространение, так как скорость обработки была достаточно высокой, а сама технология была очень доступной. Он в основном использовался в академической сфере, но вряд ли его можно найти в промышленной среде для роботизированного сбора и других задач.

В отличие от Kinect 1, Kinect 2 был основан на технологии ToF. Достижения в ToF привели к тому, что этот метод стал все более популярным и широко распространенным - он мог обеспечить более высокое качество, чем технология PrimeSense, но разрешение 3D-сканов динамических сцен все еще было недостаточным.

Сегодняшние системы ToF довольно популярны в приложениях 3D-зрения благодаря их высокой скорости сканирования и получению данных почти в реальном времени. Тем не менее, их разрешение все еще остается проблемой, и они также борются с более высоким уровнем шума.

В 2013 году компания Photoneo предложила революционную идею, как снимать быстро движущиеся объекты, чтобы получать трехмерную информацию с высоким разрешением и субмиллиметровой точностью.

Запатентованная технология Parallel Structured Light основан на специальном запатентованном CMOS-датчике с многократным затвором с мозаичным рисунком пикселей, который коренным образом меняет способ съемки изображения.

Этот новый подход к моментальным снимкам использует структурированный свет, но меняет роль камеры и проектора:в то время как системы структурированного света последовательно излучают несколько шаблонов от проектора, технология параллельного структурированного света посылает очень простое лазерное сканирование без шаблонов по всей сцене. и строит шаблоны на другой стороне – в CMOS-датчике. Все это происходит в один момент времени и позволяет создавать несколько виртуальных изображений в одном окне экспозиции. В результате получается 3D-изображение движущихся сцен с высоким разрешением и высокой точностью без артефактов движения.

Динамическая сцена, снятая с помощью технологии Parallel Structured Light .

Технология Parallel Structured Light реализована в 3D-камере Photoneo MotionCam-3D. Разработка камеры и ее выпуск на рынок стали важной вехой в истории машинного зрения, поскольку она переопределила робототехнику с визуальным управлением и беспрецедентно расширила возможности автоматизации. Новый подход был отмечен множеством наград, в том числе Vision Award 2018. , Платиновая награда Vision Systems Design Innovators 2019 , Лучшие инновации inVision 2019 , Премия IERA 2020 , Награда RBR50 Robotics Innovation Awards 2021 по версии журнала Robotics Business Review , Лучшие инновации inVision 2021 и Награда за прорыв в области технологий, 2022 г. .

3D-сканирование в движении и в цвете

В 2022 году компания Photoneo расширила возможности MotionCam-3D, оснастив ее цветным блоком для захвата цветовых данных. MotionCam-3D Color считается следующей серебряной пулей в машинном зрении, поскольку она, наконец, позволяет создавать цветные 3D-облака точек движущихся сцен в реальном времени с идеальным качеством. Благодаря уникальному сочетанию трехмерной геометрии, движения и цвета камера открывает двери для требовательных приложений искусственного интеллекта и роботизированных задач, которые полагаются не только на информацию о глубине, но и на данные о цвете.

Создание цветного 3D-облака точек движущейся сцены в реальном времени с помощью MotionCam-3D Color .

Области применения инноваций машинного зрения

Возможности, предлагаемые последними инновациями в области трехмерного машинного зрения, позволяют нам автоматизировать задачи, которые до недавнего времени были невыполнимы. Эти приложения можно найти в производстве, логистике, автомобилестроении, продуктовом питании, сельском хозяйстве, медицине и других секторах, включая:

Роботизированная обработка объектов, находящихся в постоянном или случайном движении.
Сбор с конвейерных лент и подвесных конвейеров
Руко-глазные манипуляции
Создание 3D-моделей для проверки и контроля качества
Очистка и покраска крупных объектов
Техническое обслуживание в VR/AR
Сортировка и сбор урожая в сельском хозяйстве
И многое другое

Что будет дальше?

Машинное зрение продолжает развиваться, чтобы приносить новые достижения с новыми возможностями. На направление инноваций всегда влияют требования рынка, ожидания клиентов, конкуренция и другие факторы.

Мы можем ожидать, что тенденция к использованию ИИ во всех областях машинного зрения, безусловно, сохранится с целью исключить разработку индивидуальных алгоритмов. Мы видим огромный потенциал в области искусственного интеллекта (ИИ) и его сочетания с технологией Parallel Structured Light. С одной стороны, ИИ зависит от хороших данных. С другой стороны, новая технология машинного зрения может предоставить большой объем высококачественных реальных 3D-данных. Сочетание этих двух подходов может трансформировать интеллектуальную робототехнику и открыть новую сферу возможностей.

Еще одно многообещающее направление будущих разработок — граничные вычисления. Производители, скорее всего, продолжат свои усилия по интеграции ИИ непосредственно в датчики. и специализировать их для определенной цели (например, для подсчета людей, определения размеров или автоматического определения определенных характеристик объекта), упрощая развертывание для интеграторов и сводя к минимуму потребность в дополнительных компонентах. Новые аппаратные решения, способные захватывать движущиеся сцены в сочетании с передовыми алгоритмами искусственного интеллекта, расширят постоянно расширяющиеся области применения даже в более сложных областях, таких как совместная робототехника или полная автоматизация логистики.

Рынок трехмерного машинного зрения в США:интервью с Дэйвом Секстоном из North Coast Technical Как роботы могут помочь предприятиям удовлетворить возросший спрос?

Система управления автоматикой

Производственный процесс

3D печать

Система управления автоматикой

Промышленные технологии