Технологии распознавания лиц или фейсконтроль по-умному

Анна Ионова / 28.02.2017

Распознавание лиц - это автоматическая локализация человеческого лица на изображении или видео и, при необходимости, идентификация личности человека на основе имеющихся баз данных. Интерес к этим системам очень велик в связи с широким кругом задач, которые они решают.

Технологии распознавания лиц применяются в самых разнообразных сферах:

обеспечение безопасности в местах большого скопления людей;
системы охраны, избежание незаконного проникновения на территорию объекта, поиск злоумышленников;
фейс-контроль в сегменте общепита и развлечений, поиск подозрительных и потенциально опасных посетителей;
верификация банковских карт;
онлайн-платежи;
контекстная реклама, цифровой маркетинг, Intelligent Signage и Digital Signage;
фототехника;
криминалистика;
телеконференции;
мобильные приложения;
поиск фото в больших базах фотоснимков;
отметка людей на фото в социальных сетях и многие другие.

Производители смартфонов и других гаджетов уже готовы к внедрению этой технологии. Так, Apple планирует использовать систему распознавания лиц в качестве разблокировки телефона – селфи, снятое владельцем телефона на фронтальную камеру, будет сравниваться с заранее загруженным фото-эталоном. Корпорация уже приобрела израильскую компанию RealFace, специализирующуюся на системах распознавания лиц. Разработку технологий распознавания лиц ведут и другие корпорации - Microsoft, Facebook, Google и т.д.

Аналитики TrendForce ожидают, что рост интереса к технологиям распознавания лиц заметно увеличится, в первую очередь, в системах безопасности финансового и государственного секторов, потребительского и корпоративного рынков. По предварительным данным, рынок технологии распознавания лиц к 2019 году достигнет 450 млн долларов. Основная область применения технологии все так же будет связана с системами безопасности, СКУД и системами мониторинга, но область их использования с каждым годом расширяется, например, совсем скоро они повсеместно будут использоваться в розничной торговле или для совершения мобильных платежей. Другая исследовательская компания, Allied Market Research, предвещает рост рынка систем распознавания лиц до 9,6 млрд долларов к 2022 году при среднем темпе роста 21,3% в год. Лидером рынка, по прогнозам, станет США. 3D-технологии займут большую часть рынка по сравнению с 2D, а рынок ПО будет расти на 23,9% ежегодно до 2022 года. Рынок будет увеличиваться в том числе и за счет распространения приложений в области распознавания лиц.

Главный недостаток технологии распознавания лиц – это ухудшение качества распознавания при

ухудшении освещенности;
изменении положения головы или ракурса.

Существует несколько подходов для создания алгоритма распознавания лиц.

Эмпирический подход использовался в самом начале развития компьютерного зрения. Он базируется на некоторых правилах, которые использует человек для детектирования лица. К примеру, лоб обычно ярче, чем центральная часть лица, которая, в свою очередь, однородна по яркости и цвету. Еще одним важным признаком является наличие частей лица на изображении – носа, рта, глаз. Для определения лиц производится значительное уменьшение участка изображения, где предполагается наличие лица, или строятся перпендикулярные гистограммы. Эти методы легко реализовать, но они практически непригодны при наличии большого количества посторонних объектов на фоне, нескольких лиц в кадре или при изменении ракурса.

Следующий подход использует инвариантные признаки, характерные для изображения лица. В его основе, как и в предыдущем методе, лежит эмпирика, то есть попытка системы «думать» как человек. Метод выявляет характерные части лица, его границу, изменение формы, контрастности и т.д., объединяет все эти признаки и верифицирует. Данный метод может использоваться даже при повороте головы, но при наличии других лиц или неоднородном фоне распознавание становится невозможным.

Следующий алгоритм – это детектирование лиц с помощью шаблонов, которые задает разработчик. Лицо представляется неким шаблоном или стандартом, и цель алгоритма – произвести проверку каждого сегмента на наличие этого шаблона, причем проверка может производиться для разных ракурсов и масштабов. Такая система требует множество трудоемких вычислений.

Все современные технологии распознавания лиц используют системы, обучающиеся с помощью тестовых изображений. Для обучения используются базы с изображениями, содержащими лица, и не содержащими лица. Каждый фрагмент исследуемого изображения характеризуется как вектор признаков, с помощью которого классификаторы (алгоритмы для определения объекта в кадре) определяют, является данная часть изображения лицом или нет.

Рассмотрим наиболее распространенные методы этой категории.

Метод сверточных нейронных сетей основан на том, что сеть в процессе обучения обнаруживает главные характерные признаки, находит взаимосвязь между ними и полученный таким образом опыт применяет для обнаружения новых объектов.

Математическая модель сети состоит из нейронов, которые постоянно взаимодействуют между собой, а вычисление коэффициентов связи между ними обуславливает обучение системы. Нейронная сверточная сеть многослойна и содержит чередующиеся сверточные и подвыборочные слои. Нейроны в слое расположены на одной плоскости. Нейронные сети устойчивы к некоторым изменениям изображений (масштаб, смещение и т.д.), но труднореализуемы на практике.

Ионова1.jpg

Архитектура сверточной нейронной сети. Источник: cyberleninka.ru

Метод Виолы-Джонса является одним из самых эффективных и быстродействующих из существующих методов распознавания лиц и может использоваться в режиме реального времени. Метод распознает лица даже при повороте на 30 градусов, но при увеличении наклона обнаружение происходит с ошибками. Метод характеризуется применением интегрального представления изображений, признаков Хаара и бустинга. Признаки или каскады Хаара представляют собой набор черно-белых прямоугольных масок разной формы. Маска накладывается на какую-то часть кадра, затем алгоритм производит сложение яркости всех пикселей изображения, оказавшейся под черной и под белой частью маски, после чего рассчитывается разность этих значений, то есть вычисляется свертка кадра с маской. Далее происходит сравнение полученного результата с некоторым пороговым значением и, таким образом, детектируется лицо.

Ионова2.jpg

Признаки Хаара. Источник: studfiles.ru

Лица всех людей однотипны, имеют светлые и темные участки в одних и тех же областях, а это значит, что можно подобрать классификаторы и маски, учитывающие эти особенности. Для увеличения точности обнаружения в методе Виолы-Джонса используется бустинг или алгоритм AdaBoost. Он обучает классификатор путем наложения каждой из его масок на множество тестовых изображений. Путем такой проверки каждая маска получает коэффициент, учитывающий вероятность пропуска лица и верного обнаружения, характерные для нее. После этого все маски попадают в каскад классификатора, который учитывает коэффициенты всех масок.

После того, как лицо было обнаружено, необходимо определить, кому оно принадлежит, то есть сравнить его с изображением, хранящимся в базе. При использовании 2D-изображений определяются специальные точки лица и расстояния между ними. Метод работает только при распознавании в анфас и при хороших условиях съемки, он не приспособлен к мимическим изменениям лица, поворотам головы или сложному фону, в том числе наличию нескольких людей в кадре. Этот вариант идеален для охранных систем на заводах, в бизнес-центрах, государственных учреждениях, и зачастую является частью СКУД.

Для детектирования и распознавания лиц в общественных местах больше подходит метод получения 3D-изображений. Несколько синхронизированных камер делают ряд фотоснимков с разных ракурсов, на основе которых формируется эталонная трехмерная модель объекта, а затем уже ведется работа со специальными точками на лице.

Крупнейшие игроки российского рынка систем распознавания лиц – это компании Вокорд, VisionLabs, N-Tech.Lab, Мивар, Центр речевых технологий (ЦРТ). О некоторых из них подробнее можно узнать в материале iot.ru, посвященном искусственному интеллекту.

По результатам конкурса, проводимого на базе тестовой площадки MegaFace в 2016 году, наиболее эффективная методика распознавания лиц принадлежит компании Вокорд. Ее алгоритм DeepVo1 показал эффективность распознавания 75.127%, опознав наибольшее количество людей из базы данных в миллион тестовых изображений. Серебро получила компания Deepsense и ее алгоритм Large, бронзу – Шанхайский технологичесий университет с алгоритмом Tech, а четвертое место рейтинга заняла российская компания NTechLAB. Google оказался только на шестой строчке.

Таким образом, технологии распознавания лиц уже достаточно развиты для внедрения в самые разные сферы нашей жизни. Так, совсем недавно в китайских ресторанах быстрого питания KFC была внедрена система распознавания лиц, которая по изображению узнает настроение, возраст и пол посетителя и на основании этой информации предлагает им определенные блюда.

Подписаться на новости

Обсудить

Назад