Назовите возможные ограничения в использовании компьютерного зрения

Обновлено: 23.08.2025

Обнаружение объектов похоже на добавление тегов, но API возвращает координаты ограничивающей рамки (в пикселях) для каждого объекта, найденного на изображении. Например, если изображение содержит собаку, кошку и человека, операция «Обнаружение» перечислит эти объекты с их координатами на изображении. Вы можете использовать эту функцию для обработки взаимосвязей между объектами на изображении. Он также позволяет определить, есть ли на изображении несколько экземпляров одного и того же объекта.

API Detect применяет теги на основе объектов или живых существ, идентифицированных на изображении. В настоящее время нет формальной связи между таксономией тегов и таксономией обнаружения объектов. На концептуальном уровне API обнаружения находит только объекты и живые существа, в то время как API тегов может также включать контекстные термины, такие как "внутри", которые нельзя локализовать с помощью ограничительных рамок.

Пример обнаружения объекта

В следующем ответе JSON показано, что возвращает Computer Vision при обнаружении объектов на изображении-примере.

Ограничения

Важно учитывать ограничения обнаружения объектов, чтобы избежать или смягчить последствия ложных срабатываний (пропущенных объектов) и ограниченной детализации.

Объекты обычно не обнаруживаются, если они маленькие (менее 5 % изображения).
Объекты обычно не обнаруживаются, если они расположены близко друг к другу (например, стопка тарелок).
Объекты не различаются по торговым маркам или названиям продуктов (например, разные виды газированных напитков на полке магазина). Однако вы можете получить информацию о бренде из изображения с помощью функции определения бренда.

Использовать API

Функция обнаружения объектов является частью API анализа изображений. Вы можете вызывать этот API через собственный SDK или через вызовы REST. Включите объекты в параметр запроса visualFeatures. Затем, когда вы получите полный ответ JSON, просто проанализируйте строку на наличие содержимого раздела «объекты».

29 июня 2007 года был выпущен Apple iPhone — технологическое новшество, благодаря которому использование смартфонов стало массовым явлением. Хотя двенадцать лет назад он был мощным в своем классе, по сравнению с сегодняшними потомками оригинальный iPhone — кирпич. Однако полезность и функциональность первого по сравнению с текущим здесь не обсуждается.

Технологические достижения, достигнутые благодаря мобильным устройствам, таким как iPhone, — это то, о чем стоит поговорить.

Компьютерные технологии всегда были быстрорастущей областью, в которой инновации устаревают за короткое количество лет. Эти виды достижений варьируются от беспроводной зарядки до постоянно увеличивающихся объемов памяти. Теперь один смартфон во много раз мощнее, чем все технологии вместе взятые, благодаря которым человек высадился на Луне.

Из всех тенденций, появившихся с момента массового использования смартфонов, таких как синхронизация домашних технологий, мобильные платежи и виртуальная реальность, одна конкретная тенденция набирает обороты больше всех остальных: искусственный интеллект.

Искусственный интеллект зарекомендовал себя как одна из передовых тенденций в обеспечении уникального и интуитивно понятного взаимодействия с клиентами. Стремление разнообразить нашу повседневную жизнь с помощью технологий привело к прорыву, который совершался четыре десятилетия, о чем свидетельствуют такие сервисы, как Google Lens, Snapchat, Amazon Go и другие. Это расширение широко известно как компьютерное зрение.

Что такое компьютерное зрение?

Проще говоря, компьютерное зрение – это область искусственного интеллекта, которая берет и разрабатывает передовое программное обеспечение для обработки изображений для почти безграничного использования. Человеческий глаз может обрабатывать только ограниченное количество информации, прежде чем не оправдает ожиданий и требований. Обучив компьютеры эффективно анализировать реальный и виртуальный мир с помощью изображений и фотографий, можно собирать огромные объемы важной информации быстрее, чем люди могут самостоятельно.

Компьютерное зрение как концепция машинного обучения не нова. Уже в 1950-х годах с помощью технологий можно было анализировать объекты и системы окружающей среды и делать из них обоснованные выводы на основе информации. В зачаточном состоянии это было похоже на идентификацию чего-то круглого или квадратного перед переходом к различению печатного и рукописного текста.

Проблема заключалась в том, что технологии компьютерного зрения и машинного обучения того времени не использовали весь свой потенциал.Только совсем недавно наборы данных и алгоритмы стали достаточно продвинутыми, чтобы приложения компьютерного зрения могли иметь практическое применение. Это оказалось чрезвычайно полезным для технологии, имеющей дело со встроенными мобильными камерами.

Сегодня такие компании, как OpenCV, которые были пионерами современного программного обеспечения для компьютерного зрения, предоставляют легкодоступные услуги для всех.

Как работает компьютерное зрение?

Для человека обработка изображений — естественный процесс, о котором мы обычно мало задумываемся или совсем не задумываемся в повседневной жизни. Компьютеры, с другой стороны, должны соблюдать свои собственные уникальные процессы, чтобы анализировать огромные объемы медиа. Чтобы компьютерное зрение для глубокого обучения укоренилось, необходимо скомпилировать тысячи фотографий, видео и других изображений, чтобы эффективный ИИ стал полезным. Однако после того, как будет собрано достаточно данных, как на самом деле работает компьютерное зрение, чтобы понять, что оно видит?

Представьте, что программа деконструирует изображения. Вместо того, чтобы просматривать его как единое целое, он делит изображение на большую сетку блоков, иначе называемых пикселями, и присваивает каждому блоку номер.

Разбивая каждое изображение на базовые компоненты, помеченные числовым значением, компьютер затем может интерпретировать и сохранять каждое изображение на основе полученного массива чисел. Изображение слева — это то, что предоставляется, а изображение справа — это то, как компьютер фактически обрабатывает изображение.

Числовое значение для каждого пикселя может варьироваться от 0 до 255 на базовом изображении, подобном предоставленному, но это только потому, что оно в оттенках серого. Если добавить цвет, все становится немного сложнее.

При учете цвета числовое значение на пиксель увеличивается от одного до трех. Каждый цвет может быть получен путем смешивания трех основных цветов: красного, зеленого и синего. Чтобы программное обеспечение компьютерного зрения правильно интерпретировало цветное изображение, ему необходимо применить числовое значение к каждому из трех основных цветов изображения — отсюда и три числовых значения.

И снова каждый пиксель имеет числовой диапазон от 0 до 255. Это гораздо больше информации для обработки по сравнению с простым изображением в градациях серого, а это означает, что для правильной работы компьютерного зрения необходимо большое количество изображения, уже обученные в программе. Вот где компьютерное зрение с глубоким обучением возвращается в игру. Чем больше изображений было обработано, тем точнее будет программа.

Примеры компьютерного зрения в мобильных приложениях

Как мы уже говорили, технологии, наконец, достигли точки, когда массовое использование компьютерного зрения стало жизнеспособным. Мобильные приложения стали достаточно мощными и сложными, чтобы упростить приложения компьютерного зрения, которые уже влияют на вашу жизнь. Реагирование в реальном времени и обучение предоставили средства для множества новых пользовательских впечатлений, как для развлечения, так и для практичности. Например:

<р>1. Фильтры Snapchat

Snapchat – один из самых известных разработчиков компьютерного зрения для развлечения своих пользователей. От собачьих ушей до цветочных корон и радужных водопадов — Snapchat предлагает множество способов изменить свое лицо. Это, конечно, возможно благодаря относительно недавнему появлению приложения компьютерного зрения, которое может манипулировать изображениями в режиме реального времени.

Фильтры работают, когда Snapchat анализирует ваше лицо и за считанные секунды распознает и оценивает ваши черты и структуру. На человеческом лице есть несколько ориентиров, которые обеспечивают отличные отправные точки для этого процесса, включая нос, рот, глаза и брови. После того, как ваше лицо будет нанесено на карту, Snapchat использует свои глубокие знания, чтобы приравнять ваши черты к «среднему лицу».

«Среднее лицо» – это наиболее важная часть фильтров реального времени, поскольку компьютерное зрение создает сетку, которая перекрывается со структурой вашего лица. Оттуда алгоритм может реагировать и манипулировать выбором фильтров в соответствии с тем, как меняется ваше лицо.

Представьте себе круглосуточный магазин, в котором процесс совершения покупок идеально оптимизирован. Вы входите, берете то, что вам нужно, и выходите, даже не заморачиваясь с кассиром. Возможно, когда-то это было скорее научной фантастикой, чем реальностью, но благодаря компьютерному зрению и машинному обучению Amazon сделала именно это.

Amazon Go — это совместная работа приложения и магазина. Чтобы перейти в другой, вам понадобится одно. Он использует компьютерное зрение для отслеживания запасов, обслуживания и каждого покупателя в магазине, чтобы обеспечить безопасность и эффективность. Их камеры и датчики, расположенные по всему магазину, обнаруживают всех в магазине и подключают их к своей учетной записи Amazon, одновременно сохраняя запас каждого товара, который в настоящее время есть у каждого покупателя.

В двух словах, это впечатляет и достижимо только с помощью этой конкретной технологии искусственного интеллекта.Как только вы закончите делать покупки, вы можете выйти прямо за дверь, и Amazon автоматически снимет с вашего счета все, что вы взяли с собой.

<р>3. Объектив Pinterest

Вместо того, чтобы сосредотачиваться на движении в реальном времени, как это сделали Amazon и Snapchat, Pinterest фокусируется на том, что у него получается лучше всего: связывать вас с вашими интересами. Достаточно сфотографировать что-то, что вам нравится в мире, например автомобиль, растение или произведение искусства, и Pinterest Lens немедленно направит вас к чему-либо, вдохновленному этим интересом.

Как всегда, технология искусственного интеллекта является критически важным компонентом для выполнения этой работы, и она делает это с помощью обширного списка невыполненных работ по машинному зрению для глубокого обучения. Pinterest — это не что иное, как изображения, огромный каталог информации, которая питает и информирует их алгоритм. Этот алгоритм деконструирует, анализирует и затем сравнивает сделанное вами изображение с тысячами других на Pinterest и в Интернете.

<р>4. Эко-образ Амазонки

Вместо того, чтобы сосредоточиться на музыке и аудиофункциях, как в других продуктах линейки Echo от Amazon, Amazon Echo Look посвящен моде. Это включает в себя голосовую операторскую работу, запрашиваемые советы по стилю для ваших нарядов и подробную кинематографию для создания наилучшего изображения.

Возможно, вы видите, где здесь используется компьютерное зрение. Echo Look не только анализирует ваши наряды, воздействуя на ваше окружение, чтобы создать фотогеничное сходство, его компоненты искусственного интеллекта даже помогают вам подчеркнуть свой образ. Он также отслеживает, что есть в вашем гардеробе, классифицирует вашу одежду и предлагает, что вы можете купить на Amazon, чтобы завершить свой образ.

Алгоритм Echo Look использует свои знания глубокого обучения, чтобы использовать опыт и отзывы, полученные от своих потребителей, для создания более сильной сети, посвященной дизайну и стилизации одежды. Чтобы сделать это правильно, необходимо учитывать множество факторов: размер, оттенок кожи, цвет, то, что доступно, и так далее. Все это возможно благодаря компьютерному зрению и машинному обучению.

Преимущества компьютерного зрения

Преимущества компьютерного зрения, связанные с территорией, подпадают под огромное количество заголовков. Почти каждый сектор, как частный, так и государственный, может извлечь выгоду из использования компьютеров для отслеживания, анализа и интерпретации окружающего мира. Чем больше влиятельных организаций осознают, что могут дать компьютерное зрение и машинное обучение, тем больше мы увидим, как эта технология искусственного интеллекта влияет на нашу жизнь.

Улучшенный мерчандайзинг в Интернете

В интернет-торговле традиционно использовались теги, позволяющие определить, ради чего работает покупатель. К продукту, например к рюкзаку, могут прилагаться различные ключевые слова, такие как "сумка", "синий", "полиэстер" или "хлопок", и это лишь некоторые из них, которые помогут сузить поиск до нужного.

Это не самая эффективная система, но мы работаем с ней уже много лет. Однако компьютерное зрение помогает облегчить этот процесс, упрощая и делая более доступным для клиентов поиск именно того, что они ищут.

Вместо того, чтобы полагаться на теги для переключения между различными стилями продукта, компьютерное зрение сравнивает фактические физические характеристики на каждом изображении. Это приложение означает, что клиенты смогут осуществлять поиск по изображениям, чтобы найти стили, похожие на то, что они ищут.

Уникальный клиентский опыт

Такие сервисы, как Snapchat и Animoji, предназначены для предоставления возможностей, которые можно считать только «уникальными». Цель состоит в том, чтобы предоставить потребителям привлекательный, интересный, интуитивно понятный продукт, к которому они будут возвращаться. До недавнего времени компьютерное зрение, особенно в картографии лица, дополнении и манипуляциях, было неслыханным на массовом рынке.

Обнаружение реальных продуктов и контента

Как показывает Pinterest Lens, концепции во всем Интернете и даже в реальном мире могут быть объединены с помощью компьютерного зрения. Одна-единственная фотография того, что вам нужно, открывает поиск, который приводит ваши интересы прямо к вашему порогу.

Если вы хотите купить аналогичный продукт или найти новые идеи, похожие на то, что вы ищете, такие сервисы, как Pinterest Lens и Facebook, помогут вам в этом.

Бесшовное взаимодействие с магазином

Amazon уже продемонстрировала эту концепцию в полной мере. Больше не нужно стоять в длинных очередях, общаться с кассирами или беспокоиться о том, как обращаться с кошельком, когда придет время платить. Впечатления от магазина, дополненные компьютерным зрением, создают комфортную и эффективную среду для совершения покупок. Ключевым словом здесь является удобство как для покупателя, так и для компании.

Дополненная реальность

Когда вышли Google Glass, они были отмечены как следующая большая инновация в том, как технологии влияют на нашу повседневную жизнь. Конечно, история Google Glass не была самой большой историей успеха, и она не была лишней.Дополненная реальность — это концепция наложения на нашу повседневную жизнь информации, предоставляемой Интернетом и нашими телефонами.

Например, предположим, что вы хотите купить новый велосипед. Вместо трудоемкого поиска информации об этом велосипеде компьютерное зрение может использовать дополненную реальность для немедленного предоставления обзоров, фактов и статистики о продукте.

Такие службы, как Google Translate, уже используют эту функцию, предоставляя возможность переводить язык в режиме реального времени на вашем телефоне. Другие компании, такие как Apple, также изучают возможности дополненной реальности.

Недостатки компьютерного зрения

Хотя многие лавры почивают на голове будущего компьютерного зрения, у каждой инновации есть свои недостатки. Недостатки компьютерного зрения связаны с серьезной проблемой современности: конфиденциальностью.

Движущей силой, которая делает компьютерное зрение столь эффективным, является та же самая проблема, которая заставляет потребителей сомневаться в том, следует ли ее развивать. Собирая и изучая тысячи и тысячи фотографий, видео и другой информации, все, что вы делаете, хранится где-то в Интернете, принадлежит корпорациям или открыто для всех.

Благодаря способности распознавать лица людей, а также отслеживать их местонахождение и привычки компьютерное зрение изменило будущее конфиденциальности. По мере того, как эта технология искусственного интеллекта становится все более распространенной, пользователям необходимо будет лучше понимать, какие данные они публикуют в мире. Компьютерное зрение ищет и анализирует бесчисленное количество изображений и видео, и есть вероятность, что вы будете на некоторых из них.

Что вы должны вынести из этого?

Компьютерное зрение может изменить ландшафт любой области, которую вы только можете себе представить: здравоохранение, игры, безопасность и т. д. Жизнь среднего гражданина может быть облегчена за счет упрощения покупок, дополненной реальности для принятия более взвешенных решений и большей связи со всем миром, как физическим, так и цифровым.

Однако это также означает, что вам нужно быть более осторожным с тем, что вы публикуете в Интернете. Поскольку конфиденциальность становится все менее и менее конфиденциальной, конфиденциальные материалы, которые вы, возможно, не хотите, чтобы люди нашли, такие как адреса, учетные записи и другая личная информация, должны храниться в большем секрете, чем раньше.

Суть в том, что компьютерное зрение имеет как преимущества, так и недостатки. Хотя это невероятная технология, она также заслуживает здорового скептицизма. В конце концов, новые достижения никогда не бывают правильными с первого раза.

С самого начала появления искусственного интеллекта ученые-компьютерщики мечтали о создании машин, которые могли бы видеть и понимать мир так же, как мы. Эти усилия привели к появлению компьютерного зрения — обширной области ИИ и компьютерных наук, которая занимается обработкой содержимого визуальных данных.

В последние годы компьютерное зрение значительно продвинулось вперед благодаря достижениям в области глубокого обучения и искусственных нейронных сетей. Глубокое обучение — это ветвь искусственного интеллекта, которая особенно хорошо справляется с обработкой неструктурированных данных, таких как изображения и видео.

Эти достижения проложили путь к расширению использования компьютерного зрения в существующих областях и внедрению его в новые. Во многих случаях алгоритмы компьютерного зрения стали очень важным компонентом приложений, которые мы используем каждый день.

Несколько заметок о текущем состоянии компьютерного зрения

Прежде чем слишком восхищаться достижениями в области компьютерного зрения, важно понять ограничения современных технологий искусственного интеллекта. Несмотря на значительные улучшения, мы все еще очень далеки от алгоритмов компьютерного зрения, которые могли бы понимать фотографии и видео так же, как это делают люди.

В настоящее время глубокие нейронные сети, неотъемлемая часть систем компьютерного зрения, очень хорошо подходят для сопоставления шаблонов на уровне пикселей. Они особенно эффективны при классификации изображений и локализации объектов на изображениях. Но когда дело доходит до понимания контекста визуальных данных и описания отношений между различными объектами, они терпят неудачу.

Недавняя работа, проделанная в этой области, показывает ограничения алгоритмов компьютерного зрения и необходимость новых методов оценки. Тем не менее, современные приложения компьютерного зрения показывают, как многого можно добиться, используя только сопоставление с образцом. В этом посте мы рассмотрим некоторые из этих приложений, а также обсудим их ограничения.

Коммерческие приложения компьютерного зрения

Вы используете приложения для компьютерного зрения каждый день, иногда даже не замечая этого. Ниже приведены некоторые из практических и популярных приложений компьютерного зрения, которые делают жизнь веселой и удобной.

Поиск изображений

Одной из областей, в которых компьютерное зрение достигло огромного прогресса, является классификация изображений и обнаружение объектов.Нейронная сеть, обученная на достаточном количестве размеченных данных, сможет обнаруживать и выделять широкий спектр объектов с впечатляющей точностью.

Немногие компании могут сравниться с обширным хранилищем пользовательских данных Google. И компания использует свое практически безграничное (и постоянно растущее) хранилище пользовательских данных для разработки некоторых из наиболее эффективных моделей искусственного интеллекта. Когда вы загружаете фотографии в Google Фото, он использует свои алгоритмы компьютерного зрения, чтобы добавлять к ним аннотации с информацией о сценах, объектах и людях. Затем вы можете искать свои изображения на основе этой информации.

Например, если вы ищете "собака", Google автоматически выдаст все изображения в вашей библиотеке, на которых есть собаки.

Однако система распознавания изображений Google не идеальна. В одном случае алгоритм компьютерного зрения по ошибке пометил изображение двух темнокожих людей как «гориллу», что вызвало неловкость для компании.

Google также использует компьютерное зрение для извлечения текста из изображений в вашей библиотеке, на Диске и во вложениях Gmail. Например, когда вы ищете термин в своем почтовом ящике, Gmail также будет искать тексты в изображениях. Некоторое время назад я искал свой домашний адрес в Gmail и получил электронное письмо с вложенным изображением, которое содержало пакет Amazon с моим адресом.

Редактирование и улучшение изображений

В настоящее время многие компании используют машинное обучение для автоматического улучшения фотографий. Линейка телефонов Pixel от Google использует встроенные в устройство нейронные сети для автоматического улучшения, например баланса белого, и добавления таких эффектов, как размытие фона.

Еще одно замечательное усовершенствование, появившееся благодаря достижениям в области компьютерного зрения, — интеллектуальное масштабирование. Традиционные функции масштабирования обычно делают изображения размытыми, поскольку они заполняют увеличенные области путем интерполяции между пикселями. Вместо увеличения пикселей масштабирование на основе компьютерного зрения фокусируется на таких функциях, как края, узоры. Такой подход позволяет получать более четкие изображения.

Многие стартапы и давние графические компании обратились к глубокому обучению, чтобы улучшить изображения и видео. Технология Adobe Enhance Details, представленная в Lightroom CC, использует машинное обучение для создания более четких увеличенных изображений.

Инструмент для редактирования изображений Pixelmator Pro поддерживает функцию ML Super Resolution, которая использует сверточную нейронную сеть для обеспечения четкого масштабирования и улучшения.

Приложения для распознавания лиц

До недавнего времени распознавание лиц было неуклюжей и дорогой технологией, доступной только в полицейских исследовательских лабораториях. Но в последние годы, благодаря достижениям в алгоритмах компьютерного зрения, распознавание лиц нашло применение в различных вычислительных устройствах.

В iPhone X появилась система аутентификации FaceID, которая использует встроенную в устройство нейронную сеть для разблокировки телефона, когда он видит лицо владельца. Во время настройки FaceID тренирует свою AI-модель на лице владельца и достойно работает при разных условиях освещения, растительности на лице, стрижках, головных уборах и очках.

В Китае многие магазины теперь используют технологию распознавания лиц, чтобы обеспечить покупателям более удобный процесс оплаты (правда, ценой их конфиденциальности). Вместо того, чтобы использовать кредитные карты или мобильные платежные приложения, клиентам нужно всего лишь показать свое лицо камере с компьютерным зрением.

Однако, несмотря на достижения, текущее распознавание лиц не идеально. Исследователи искусственного интеллекта и безопасности нашли множество способов заставить системы распознавания лиц совершать ошибки. В одном случае исследователи из Университета Карнеги-Меллона показали, что, надев специально изготовленные очки, они могут обмануть системы распознавания лиц, приняв их за знаменитостей.

Эффективная домашняя безопасность данных

С хаотичным распространением Интернета вещей (IoT) возросла популярность домашних камер видеонаблюдения, подключенных к Интернету. Теперь вы можете легко установить камеры видеонаблюдения и контролировать свой дом онлайн в любое время.

Каждая камера отправляет большой объем данных в облако. Но большая часть кадров, записанных камерами видеонаблюдения, не имеет отношения к делу, что приводит к большой трате ресурсов сети, хранилища и электроэнергии. Алгоритмы компьютерного зрения могут повысить эффективность использования этих ресурсов домашней камерой безопасности.

Умные камеры бездействуют до тех пор, пока не обнаружат объект или движение в своем видеопотоке, после чего они могут начать отправлять данные в облако или отправлять предупреждения владельцу камеры. Обратите внимание, однако, что компьютерное зрение все еще не очень хорошо понимает контекст. Так что не ждите, что он отличит безобидные движения (например, мячик, катящийся по комнате) от вещей, требующих вашего внимания (например, вор, проникший в ваш дом).

Взаимодействие с реальным миром

Дополненная реальность, метод наложения видео и изображений реального мира на виртуальные объекты, в последние несколько лет стал растущим рынком. AR во многом обязана своим расширением достижениям в алгоритмах компьютерного зрения. Приложения AR используют машинное обучение для обнаружения и отслеживания целевых местоположений и объектов, где они размещают свои виртуальные объекты. Вы можете увидеть сочетание дополненной реальности и компьютерного зрения во многих приложениях, таких как фильтры Snapchat и виртуальная примерка Warby Parker.

Компьютерное зрение также позволяет извлекать информацию из реального мира через объектив камеры вашего телефона. Весьма примечательный пример — Google Lens, использующий алгоритмы компьютерного зрения для выполнения самых разных задач, таких как чтение визитных карточек, определение стиля мебели и одежды, перевод дорожных знаков и подключение телефона к wi-fi сетям на базе роутера. ярлыки.

Расширенные приложения компьютерного зрения

Благодаря достижениям в области глубокого обучения компьютерное зрение теперь решает проблемы, которые ранее были очень трудными или даже невозможными для компьютеров. В некоторых случаях хорошо обученные алгоритмы компьютерного зрения могут работать наравне с людьми, имеющими многолетний опыт и подготовку.

Обработка медицинских изображений

До глубокого обучения создание алгоритмов компьютерного зрения, которые могли бы обрабатывать медицинские изображения, требовало больших усилий от разработчиков программного обеспечения и экспертов в данной области. Им пришлось сотрудничать, чтобы разработать код, который извлекал соответствующие признаки из рентгенологических изображений, а затем исследовал их для постановки диагноза. (У исследователя искусственного интеллекта Джереми Ховарда есть интересное обсуждение этого вопроса.)

Алгоритмы глубокого обучения предоставляют комплексные решения, которые значительно упрощают процесс. Инженеры создают правильную структуру нейронной сети, а затем обучают ее на рентгеновских снимках, изображениях МРТ или КТ, аннотируя результаты. Затем нейронная сеть находит соответствующие функции, связанные с каждым результатом, и может диагностировать будущие изображения с впечатляющей точностью.

Компьютерное зрение нашло применение во многих областях медицины, включая обнаружение и прогнозирование рака, рентгенологию, диабетическую ретинопатию.

Некоторые исследователи искусственного интеллекта заявляют, что скоро глубокое обучение заменит рентгенологов. Но те, у кого есть опыт в этой области, не согласны. Диагностика и лечение заболеваний — это гораздо больше, чем просмотр слайдов и изображений. И давайте не будем забывать, что глубокое обучение извлекает шаблоны из пикселей — оно не воспроизводит все функции человека-врача.

Играть в игры

Обучение компьютеров играм всегда было актуальной областью исследований ИИ. В большинстве игровых программ используется обучение с подкреплением — метод искусственного интеллекта, который развивает свое поведение путем проб и ошибок.

Алгоритмы компьютерного зрения играют важную роль, помогая этим программам анализировать содержимое игровой графики. Однако следует отметить, что во многих случаях графика «притупляется» или упрощается, чтобы нейронным сетям было легче ее понять. Кроме того, на данный момент алгоритмам ИИ нужны огромные объемы данных для обучения играм. Например, ИИ OpenAI, играющий в Dota, должен был пройти 45 000 лет игрового процесса, чтобы достичь чемпионского уровня.

Магазины без касс

В 2016 году Amazon представила магазин Go – магазин, в который можно было зайти, взять все, что угодно, и выйти, не будучи арестованным за магазинную кражу. Go использовал различные системы искусственного интеллекта, чтобы избавиться от необходимости в кассирах.

Когда покупатели передвигаются по магазину, камеры, оснащенные передовыми алгоритмами компьютерного зрения, отслеживают их поведение и отслеживают, какие товары они берут или возвращают на полки. Когда они покидают магазин, их корзина автоматически списывается с их учетной записи Amazon.

Спустя три года после объявления Amazon открыла 18 магазинов Go, и эта работа все еще продолжается. Но есть многообещающие признаки того, что компьютерное зрение (вместе с другими технологиями) однажды сделает очереди у кассы делом прошлого.

Автономные автомобили

Автомобили, которые могут передвигаться по дорогам без водителя, были одной из самых давних мечтаний и самых больших проблем сообщества ИИ. Сегодня мы все еще очень далеки от беспилотных автомобилей, способных передвигаться по любой дороге при разном освещении и погодных условиях. Но мы добились большого прогресса благодаря достижениям в области глубоких нейронных сетей.

Одна из самых больших проблем при создании беспилотных автомобилей позволяет им ориентироваться в окружающей среде. Хотя разные компании решают эту проблему по-разному, одна из них неизменна — технология компьютерного зрения.

Камеры, установленные вокруг автомобиля, следят за окружением автомобиля. Глубокие нейронные сети анализируют отснятый материал и извлекают информацию об окружающих объектах и людях. Эта информация объединяется с данными другого оборудования, такого как лидары, для создания карты местности и помогает автомобилю ориентироваться на дорогах и избегать столкновений.

Жуткие применения компьютерного зрения

Как и во всех других технологиях, не все в искусственном интеллекте приятно. Усовершенствованные алгоритмы компьютерного зрения могут расширять возможности злонамеренного использования. Вот некоторые из приложений компьютерного зрения, вызвавшие беспокойство.

Наблюдение

Технологией распознавания лиц интересуются не только производители телефонов и компьютеров. На самом деле, крупнейшими клиентами технологии распознавания лиц являются государственные учреждения, которые заинтересованы в использовании этой технологии для автоматического выявления преступников на кадрах с камер наблюдения.

Но вопрос в том, где вы проводите грань между национальной безопасностью и конфиденциальностью граждан? Китай показывает, как слишком много первого и слишком мало первого может привести к состоянию наблюдения, которое дает слишком большой контроль правительству. Широкое использование камер видеонаблюдения с технологией распознавания лиц позволяет правительству внимательно отслеживать передвижения миллионов граждан, независимо от того, являются ли они подозреваемыми в совершении преступлений или нет.

В США и Европе все немного сложнее. Технологические компании столкнулись с сопротивлением со стороны своих сотрудников и борцов за цифровые права в предоставлении технологии распознавания лиц правоохранительным органам. В некоторых штатах и городах США запрещено публичное использование распознавания лиц.

Автономное оружие

Компьютерное зрение также позволяет видеть оружие. Военные дроны могут использовать алгоритмы искусственного интеллекта для идентификации объектов и выбора целей. В последние несколько лет было много споров по поводу использования ИИ военными. Компании Google пришлось отменить продление контракта на разработку технологии компьютерного зрения для Министерства обороны после того, как ее сотрудники подверглись критике.

На данный момент автономного оружия до сих пор нет. Большинство военных учреждений используют искусственный интеллект и компьютерное зрение в системах, в которых участвует человек.

Но есть опасения, что с достижениями в области компьютерного зрения и более активным участием военного сектора это только вопрос времени, когда у нас появится оружие, которое само выбирает цели и нажимает на спусковой крючок без участия человека.

Известный ученый-компьютерщик и исследователь искусственного интеллекта Стюарт Расселл основал организацию, призванную остановить разработку автономного оружия.

Если бы вам сказали назвать определенные предметы, которые вы найдете в парке, вы бы небрежно упомянули такие вещи, как трава, скамья, деревья и т. д. Это очень простая задача, которую любой человек может выполнить в мгновение ока. глаз. Однако в глубине нашего сознания происходит очень сложный процесс. Человеческое зрение включает в себя наши глаза, но оно также включает в себя все наше абстрактное понимание концепций и личный опыт через миллионы взаимодействий, которые мы имели с внешним миром. До недавнего времени у компьютеров были очень ограниченные возможности самостоятельного мышления. Компьютерное зрение — это новейшая отрасль технологий, которая фокусируется на воспроизведении человеческого зрения, чтобы помочь компьютерам идентифицировать и обрабатывать объекты так же, как это делают люди.

Что такое компьютерное зрение?

Компьютерное зрение – это одна из областей искусственного интеллекта, которая обучает компьютеры и позволяет им понимать визуальный мир.Компьютеры могут использовать цифровые изображения и модели глубокого обучения для точной идентификации и классификации объектов и реагирования на них.

Объем данных, которые мы генерируем сегодня, огромен — 2,5 квинтиллиона байт данных каждый день. Этот рост данных оказался одним из движущих факторов развития компьютерного зрения.

Курс глубокого обучения (с TensorFlow и Keras)

Как работает компьютерное зрение?

Компьютерное зрение похоже на решение головоломки в реальном мире. Представьте, что у вас есть все эти кусочки пазла, и вам нужно собрать их, чтобы сформировать реальную картинку. Именно так работают нейронные сети внутри компьютерного зрения. С помощью ряда фильтров и действий компьютеры могут собрать все части изображения вместе, а затем думать самостоятельно. Однако компьютеру не просто задают головоломку с изображением — скорее, его часто кормят тысячами изображений, которые учат его распознавать определенные объекты.

Например, вместо обучения компьютера поиску острых ушей, длинных хвостов, лап и усов, составляющих кошку, программисты загружают и скармливают компьютеру миллионы изображений кошек. Это позволяет компьютеру понять различные особенности, из которых состоит кошка, и мгновенно распознать ее.

Приложения компьютерного зрения

Компьютерное зрение используется в большем количестве областей, чем вы могли бы ожидать. Компьютерное зрение прочно вошло в нашу жизнь — от обнаружения ранних признаков рака до включения автоматических касс в торговых точках. Вот еще несколько приложений компьютерного зрения:

Распознавание лиц. Snapchat, Instagram, Facebook и многие другие приложения для социальных сетей используют алгоритмы распознавания лиц, чтобы узнавать вас на фотографиях и применять фильтры к вашему лицу.
Наблюдение. Камеры наблюдения используют компьютерное зрение, чтобы обнаруживать подозрительное поведение в общественных и частных местах.
Поиск изображений. Картины Google помогают находить релевантные изображения при загрузке изображения. Существуют различные алгоритмы, которые анализируют содержимое загруженного изображения и возвращают результаты на основе наиболее подходящего содержимого.
Биометрия. Распознавание отпечатков пальцев и радужной оболочки глаза являются одними из распространенных методов биометрической идентификации, использующих компьютерное зрение.
Умные автомобили. Умные автомобили используют компьютерное зрение для обнаружения дорожных знаков, огней и других визуальных особенностей, когда автомобили переходят в автоматический режим.

Алгоритмы компьютерного зрения

Классификация объектов. Какова основная категория объекта, представленного на этой фотографии?
Идентификация объекта. Какой тип объекта присутствует на этой фотографии?
Обнаружение объекта. Где находится объект на фотографии?
Сегментация объекта. Какие пиксели относятся к объекту на изображении?
Проверка объекта. Есть ли объект на фотографии?
Распознавание объектов. Какие объекты присутствуют на этой фотографии и где они расположены?
Обнаружение ориентира объекта. Каковы ключевые точки объекта на этой фотографии?

Рис. Компьютерное зрение обнаруживает кошек на картинке (Источник)

Многие другие продвинутые алгоритмы компьютерного зрения, такие как перенос стиля, раскрашивание, оценка позы человека, распознавание действий и многое другое, можно изучать вместе с алгоритмами глубокого обучения.

БЕСПЛАТНЫЙ курс по машинному обучению

Преимущества компьютерного зрения

Компьютерное зрение может автоматизировать несколько задач без вмешательства человека. В результате он предоставляет организациям ряд преимуществ:

Более быстрый и простой процесс. Системы компьютерного зрения могут выполнять повторяющиеся и монотонные задачи быстрее, что упрощает работу людей.
Лучшие продукты и услуги. Хорошо обученные системы компьютерного зрения не допустят ошибок. Это ускорит предоставление высококачественных продуктов и услуг.
Снижение затрат. Компаниям не нужно тратить деньги на исправление своих ошибочных процессов, поскольку компьютерное зрение не оставит места для неисправных продуктов и услуг.

Недостатки компьютерного зрения

Не существует технологий без недостатков, что верно для систем компьютерного зрения. Вот несколько ограничений компьютерного зрения:

Недостаток специалистов. Компании должны иметь команду высококвалифицированных специалистов, хорошо разбирающихся в различиях между технологиями искусственного интеллекта, машинного обучения и глубокого обучения для обучения систем компьютерного зрения. Требуется больше специалистов, которые помогут сформировать будущее технологий.
Необходимость регулярного мониторинга. Если в системе компьютерного зрения возникает технический сбой или она выходит из строя, это может привести к огромным потерям для компаний. Следовательно, компаниям необходимо иметь специальную команду для мониторинга и оценки этих систем.

Освойте концепции глубокого обучения и платформу с открытым исходным кодом TensorFlow с помощью учебного курса по глубокому обучению. Получите опыт сегодня!

Где можно начать работу с компьютерным зрением?

Несмотря на недавний прогресс в этой новой области технологий, мы еще даже не приблизились к раскрытию возможностей компьютерного зрения. Однако уже есть несколько организаций, которые нашли способы использовать эту технологию для решения реальных проблем. Это только доказывает, что компьютерное зрение растет с огромной скоростью и вряд ли остановится в ближайшее время. Если вы хотите узнать больше о компьютерном зрении и других преимуществах глубокого обучения, сертификационный курс Simplilearn Deep Learning Course (с Keras и TensorFlow) — идеальный способ направить вас на правильный путь. Вы освоите все концепции и модели глубокого обучения с использованием фреймворков Keras и TensorFlow и реализуете алгоритмы глубокого обучения. Начните с этого курса сегодня и подготовьтесь к успешной карьере в области глубокого обучения.

Найдите наши обучающие курсы Deep Learning с Keras и TensorFlow Online Classroom в ведущих городах:

< tr>

Имя	Дата	Место
Глубокое обучение с Keras и TensorFlow	16 апреля — 8 мая 2022 г., Пакет выходного дня	Ваш город	Подробнее
Глубокое обучение с помощью Keras и TensorFlow	7–29 мая 2022 г., Группа выходного дня	Ваш город	Подробнее< /td>
Глубокое обучение с помощью Keras и TensorFlow	9–23 мая 2022 г., Пакет по будням	Ваш город	td>	Подробнее

Об авторе

Простое обучение

Simplilearn — один из ведущих мировых поставщиков онлайн-обучения по цифровому маркетингу, облачным вычислениям, управлению проектами, науке о данных, ИТ, разработке программного обеспечения и многим другим новым технологиям.

С каждой волной инноваций возникает ряд препятствий, которые могут помешать прогрессу. Некоторые из них являются техническими блокаторами, некоторые экономическими, некоторые нормативными, а некоторые основаны на человеческой природе. В настоящий момент мы находимся на пороге следующей волны инноваций, которые могут предоставить компаниям всестороннюю бизнес-аналитику об их физической среде и о том, как люди взаимодействуют с ней. Соответствующие данные могут быть собраны за долю времени по сравнению с традиционным методом (буфер обмена, секундомер и бдительные глаза специалиста по времени и движению) и обеспечивают невозможный ранее уровень детализации и точности. Эта грядущая волна инноваций основана на компьютерном зрении, технологии с многолетней историей, которая традиционно сталкивалась с рядом ограничений и препятствий — до сих пор.

Аппаратное обеспечение Одним из основных препятствий компьютерному зрению является камера, которая собирает информацию. Необходимо учитывать решения о том, где их установить, об их источнике питания, освещении, поле зрения и других факторах. И в большинстве случаев камеры отправляют по сети поток визуальных данных, что может привести к перегрузке вашей полосы пропускания. Но благодаря прорывам в устройствах и технологиях искусственного интеллекта это уже не так. Позвольте мне объяснить.

Периферийные и облачные/полосные сети Даже сегодня большинство людей используют традиционные видеокамеры, которые отправляют изображения в облако, где искусственный интеллект компьютерного зрения работает на мощных серверных процессорах для извлечения информации о том, что происходит на каждом изображении. Но в зависимости от того, сколько и как часто вы передаете данные в облако, этот подход может быть очень дорогим. Существует также проблема защиты этих данных для защиты личной конфиденциальности.

С появлением периферийных вычислений теперь можно обрабатывать визуальные данные на самом устройстве, поскольку оно имеет память и мощные процессоры (как центральные, так и графические), которые могут выполнять выводы компьютерного зрения в режиме реального времени. Это означает, что вы устранили передачу изображений по сети, требующих большой пропускной способности, и значительно сократили расходы на облако компьютерного зрения. Например, появились периферийные устройства, компьютеры, расположенные локально, которые объединяют, а затем запускают ИИ компьютерного зрения для нескольких видеопотоков (например, Amazon Panorama, Microsoft Azure Stack Edge).

Компания Nomad Go решила эту проблему, используя стандартные смарт-устройства, в частности телефоны и планшеты. Они представляют собой идеальное сочетание всего, что вам нужно для сбора и обработки изображений на периферии, сочетая в себе мощные камеры, надежность, различные сетевые возможности и, что наиболее важно, очень мощные процессоры и графические процессоры. У них также бесконечная цепочка поставок.

Конфиденциальность Без сомнения, конфиденциальность является одним из самых больших препятствий для компьютерного зрения.Люди обеспокоены распознаванием лиц и потерей личной конфиденциальности — и это правильно. В ряде штатов рассматривается законодательство, запрещающее использование программного обеспечения для распознавания лиц правоохранительными органами, за исключением очень особых случаев. Конечно, распознавание лиц используется в определенных сценариях, но в Nomad-Go мы проделали большую работу, чтобы избежать его использования. Почему?

Потому что практически в каждом случае вы можете получить нужные вам данные без индивидуальной идентификации человека. А решить проблемы конфиденциальности намного проще без распознавания лиц, особенно если вы не сохраняете изображения, не отправляете их по сети и не храните где-либо. Вместо этого вы можете просто делать выводы в режиме реального времени на границе, основываясь на том, что видит камера. Ни одно изображение не сохраняется.

Полезность Существует множество крутых демонстраций, демонстрирующих вау-фактор компьютерного зрения — например, определение настроения человека или отслеживание его движений. Какими бы интересными они ни были, возникает вопрос: «Что я могу сделать с этим, чтобы улучшить свой бизнес?» Это немного напоминает мне о первых днях Интернета, когда компании генерировали все эти данные о посещениях и понятия не имели, как их использовать. Им нужно было, чтобы кто-то объяснил, зачем им это нужно и что с этим делать.

Сейчас не хватает специалистов в области искусственного интеллекта, чтобы помочь компаниям ответить на те же вопросы об их данных, из-за чего многие компании находятся в подвешенном состоянии с решениями, которые не влияют на их прибыль.

Так быть не должно. Nomad Go предоставляет вам панель инструментов, которая обеспечивает целостное представление ваших данных, настраиваемые оповещения, когда требуется немедленное действие или осведомленность, и готовые API-интерфейсы, которые дают вам представление в режиме реального времени о множестве различных функций - скорость обслуживания, заполняемость, взаимодействие с клиентами, и это лишь некоторые из них. У нас даже есть решение, которое берет данные о занятости помещения и преобразует их в данные, которые могут управлять HVAC, снижая потребление энергии и выбросы парниковых газов на 25%.

Возможно, лучше всего то, что нет необходимости в дорогостоящих ресурсах, таких как разработчики, что высвобождает дополнительный бюджет для использования в других критически важных результатах. Компании уже используют компьютерное зрение для снижения затрат на электроэнергию, улучшения обслуживания клиентов и обеспечения устойчивого развития за счет более эффективных методов переработки.

На следующей неделе мы рассмотрим новый рынок поставщиков компьютерного зрения и то, как они работают вместе, чтобы реализовать обещания компьютерного зрения.

Читайте также: