Компьютерное или машинное зрение стало привычным инструментом в современном мире, во многом благодаря нейросетевой революции в этой области. Применение камер ассоциируется в первую очередь с безопасностью и шпионажем, но разработки в данном направлении ведутся прежде всего в коммерческих целях.
Оглянитесь вокруг. Сколько камер вы насчитали? Если ни одной, то вы наверняка ошибаетесь: в каждом ноутбуке и смартфоне сегодня есть камера. Объем информации, который фиксируется на видео, огромен. Взять, например, портал открытых данных, где хранится информация обо всех камерах наблюдения в Москве. Теоретически можно получить доступ к информации со 160 тысяч камер за пять предыдущих дней. Конечно, какие-то из них не работают, какие-то не всё записали. Но даже при этом физически просмотреть все эти записи невозможно — слишком велик объем данных.
Сейчас, если нас интересует какой-то инцидент, а время и место происшествия известны, мы можем найти записи со всех камер поблизости и отсмотреть запись за интересующий промежуток времени. Но если мы хотим оперативно реагировать на какие-то события, нужен кто-то, кто будет постоянно наблюдать за происходящим на экране, — и здесь помогают технологии. Человек может попросту не увидеть чего-то важного, а в компьютере человеческий фактор может быть заложен только на уровне кода, но не на уровне принятия решений, поэтому компьютер компенсирует его влияние.
Суперзум
Любимая технология создателей шпионских фильмов. В сети есть видео, где детектив сидит за компьютером и с помощью «нанотехнологий» бесконечно близко приближает фото. На самом деле это невозможно. У цифровой фотографии есть разрешение — количество пикселей на единицу площади, и если увеличить изображение с разрешением в один мегапиксель в тысячу раз, то мы просто увидим огромные пиксели, никаких деталей там не будет.
Сегодня появляются алгоритмы, с помощью которых можно увеличивать разрешение изображения. Они основываются на том, как выглядят естественные изображения при увеличении. Например, можно сознательно уменьшить разрешение фотографии и научить нейросеть из испорченной картинки получать изображение в исходном качестве. Но сложные участки сеть будет упрощать: она выучит, что в мире преобладают повторяющиеся текстуры, которые отделяются резкими границами, и посчитает, что надо просто продолжить текстуру.
Конечно, если рассмотреть небольшой видеоряд, то можно достать некоторые настоящие детали, которые настолько малы, что помещаются в несколько пикселей на цифровой фотографии, но в очень ограниченных случаях. Поэтому на данном этапе суперзум — это чистая фантастика.
В этом году компания «Яндекс» представила свою технологию, которая улучшает качество видео. Ее применяют для повышения визуального качества старых советских фильмов, а также для повышения разрешения потокового видео в реальном времени.
Системы слежения
Работу современных систем слежения, известных как CCTV (Сlosed Circuit Television), не показывают в фильмах, поскольку она не очень зрелищная. Зато эффективная. Системы умеют, среди прочего, выявлять аномальные процессы в зоне слежения. Представьте аэропорт, где много людей, которые постоянно куда-то идут. Как правило, они двигаются в одних и тех же направлениях, в течение суток меняется их количество, иногда проезжает уборочная машина, которая как-то влияет на поток, где-то собирается очередь, как-то изменяется освещение. И вдруг процесс нарушается, люди начинают расходиться или разбегаться в разные стороны, появляются необычные шумы — камеры наблюдения это заметят и оповестят дежурного. Системе не важно, что происходит, — она реагирует на резкое изменение ситуации. Конечно, такая сигнализация не всегда работает хорошо и иногда «кричит» «Волки!», когда не надо. Но это надежный ассистент, в работу которого не вмешивается человеческий фактор.
Многим не нравится повсеместное внедрение CCTV, потому что камеры постоянно следят за тем, что мы делаем, куда поехали, что поели и с кем пошли в кино. Могут ли камеры распознать лица из какой-нибудь фиксированной базы? Да, могут. Конечно, это делают не сами камеры, а алгоритмы, которые обрабатывают видеопоток. Это довольно ресурсоемкая технология, и компьютер едва ли может обработать более одного видеопотока в хорошем качестве, которое необходимо для того, чтобы распознавание каждого лица было возможным. Поэтому, если говорить о глобальной системе слежения, надо отдавать себе отчет в том, насколько она должна быть сложная и дорогая. Например, в рамках пилотного проекта в Москве запустили систему, которая анализирует изображения лиц, полученные с 3 тысяч камер, входящих в единую сеть. Без распознавания власти потратили порядка 5 миллиардов рублей на сеть из 160 тысяч камер. Если каждую камеру подключить к алгоритму распознавания, то цена возрастет в несколько раз. Гораздо масштабнее к этому подошли в Китае: там установлено более 150 миллионов камер. Системы распознавания, которые внедрены в эту сеть, за семь минут справляются с тем, чтобы отыскать человека по фото в городе, где живут 4 миллиона человек. В США камеры распознавания личности установлены в 22 аэропортах. В Австралии биометрическая система распознавания лиц и отпечатков пальцев скоро будет использоваться на таможне для прохождения паспортного контроля. Более того, сейчас активно разрабатываются алгоритмы, которые способны опознать человека не только по лицу, но и по походке — это несколько сложнее, поскольку, чтобы получить информацию о человеке из базы, нужно проанализировать видеопоследовательность, а не один кадр.
Еще один интересный пример использования технологий распознавания лиц для безопасности — стартап Ring. Камеры, встроенные в дверные звонки, с согласия пользователей отправляют данные на центральный сервер, где анализируют пришедший видеоряд со всей сети камер. Это позволяет, например, оперативно информировать хозяина о потенциально опасной ситуации у его двери и транслировать эфир непосредственно в его мобильное приложение. Другой способ применения — распознать лицо преступника и попробовать его найти на всех камерах в радиусе нескольких километров на записях за последние несколько дней. Хотя прямое назначение продукта — контроль того, что происходит за дверью.
Если вы надеялись, что я развенчаю миф о повсеместной слежке, увы: беспокоиться не о чем, только если вы не преступник. Информацию о каждом не записывают в один огромный журнал — это очень дорого и нецелесообразно. Но если вас захотят найти — найдут.
Ищут людей не только для того, чтобы наказать и ограничить, но и чтобы что-нибудь им прорекламировать. Именно крупные IT-компании вносят основной вклад в развитие полномасштабных систем идентификации человека — и они же добиваются того, чтобы эти системы были максимально эффективными и дешевыми, увеличивая прибыль за счет объема продаж рекламы.
Люди, которые обеспечивают безопасность, скорее пользователи, чем создатели всех этих технологий. Например, китайская компания Baidu разрабатывает систему распознавания лиц для замены билетов. Вы платите, система вас запоминает, и не нужны охранники и турникеты, которые проверяют ваш билет, не нужно иметь печатную или электронную копию, не нужен пластиковый абонемент, можно просто прийти и представиться системе через камеру, установленную на входе. Анонсированная точность распознавания 99,77 процента — выше, чем у человека. Такая система установлена в одном из парков в Китае и проверяет посетителей на наличие билетов. Ну и как не упомянуть компанию Apple с ее FaceId, которая заменила отпечаток пальца для разблокировки телефона на распознавание лица человека.
Обман нейросетевых алгоритмов
В мире проводится много исследований, как обмануть нейронную сеть. Глубокие нейронные сети показали очень хорошее качество в конкурсе с другими алгоритмами по классификации фотографий. Но некоторое время спустя появились статьи, которые показывали, что нейронную сеть очень легко обмануть. К входной картинке добавляли сигнал, создающий «шум» (как на центральной картинке снизу), который искажал значение каждого пикселя исходного изображения не более чем на один процент. Таким образом, для человека изображение визуально не отличалось от исходного, но нейронная сеть переставала распознавать объект. Например, немного шума — и нейросеть стала «думать», что на картинке не панда, а гиббон.
С тех пор постоянно проводятся соревнования, где одни команды придумывают атаки на нейронные сети, а другие — сети, устойчивые к таким атакам. Причем в этой области существуют и невиртуальные решения. Например, ученые смоделировали принт на оправе очков так, что, надев их, пользователь становится для камер слежения неузнаваемым. Есть и более простые способы обмануть систему. Представьте, например, что у вас есть дверь, ключом к которой является ваше лицо. Ее можно попытаться открыть, используя распечатанную на листе бумаги фотографию. Конечно, в новом iPhone такой фокус не пройдет, но если использовать какую-то старую систему идентификации лиц, то ее, скорее всего, удастся обмануть. Компания Neuromation в числе прочего тоже занимается исследованиями, целью которых является создание моделей распознавания, устойчивых в том числе и к мошенничеству. Чтобы обеспечивать безопасность, нужно быть на шаг впереди в этой гонке, поэтому нельзя просто взять готовое открытое решение для распознавания лиц и напрямую использовать его в реальном мире. И кажется, эта гонка, как и борьба взломщиков и изобретателей замков, не закончится никогда.
Автор — Алексей Артамонов, исследователь компании Neuromation, Snob