Влияние компьютера на представление человеческого зрения

Обновлено: 11.07.2025

Здравствуйте, меня зовут Марк Вольф, я отраслевой консультант Института SAS, работаю в глобальной штаб-квартире в Кэри, Северная Каролина. Я также являюсь приглашенным научным сотрудником Университета Майами, Института науки о данных и вычислений. Название этой презентации намекает как на перспективы, так и на проблемы компьютерного зрения. Я очень верю, что компьютерное зрение, в отличие от многих других методов восприятия, может сделать некоторые из наиболее перспективных прогнозов, учитывая текущий прогресс в области искусственного интеллекта.

Но может также сыграть решающую роль в решении проблем, связанных с тем, что некоторые называют общим искусственным интеллектом, где возможности сенсорного восприятия, подобные человеческим, будут иметь решающее значение для цели интеллектуального агента, способного понимать или изучать интеллектуальные задачи, которые человек может выполнять. Одна из наиболее серьезных проблем, с которыми сталкивается компьютерное зрение, — это эволюция от единичной модальности восприятия к тому, что выходит за рамки анализа изображений, формально подробного изучения элементов структуры чего-либо, к технологической системе, которая выходит за рамки анализа и развивает атрибуты понимания и вывода значения. .

Итак, давайте начнем с истории, некоторых определений и рассмотрим, как мы можем развивать компьютерное зрение, чтобы преодолеть текущие ограничения и двигаться к, как говорят некоторые, бесконечному зрению. Начнем с истории искусства и философии. Голландский художник Пит Мондриан был одним из самых влиятельных художников в истории и пионером движения абстрактного искусства. На протяжении всей своей карьеры Мондриан развивался от высоко репрезентативного искусства, часто сосредотачиваясь на пейзажах, к высоко абстрактным и геометрическим картинам. В некотором смысле по мере развития своего искусства Мон сводил изображения к абсолютному минимуму.

Это три основных цвета, три основных значения и два основных направления. Это красный, синий, желтый, черный, белый, серый, горизонтальный и вертикальный. Можно задать вопрос, в какой степени человеческое понимание каждого из этих изображений, которые вы видите перед собой, может сравниться с чисто компьютерным анализом каждой работы. Что еще более важно, какую роль контекст и внешние данные, другими словами, метаданные и теги, играют в поддержке человеческого понимания каждого изображения. И интересно, каковы пределы человеческого понимания даже в контексте понимания того, над чем работал Пит Мондриан.

Человек и компьютер вполне могут правильно идентифицировать первую картину как дерево, но в какой момент способность человека правильно идентифицировать каждое изображение отклоняется от подхода компьютерного зрения и насколько важны контекстуальные данные, как от человека и машинная перспектива, и какую роль играют структурные или врожденные, то есть запрограммированные элементы нервной системы, играющие, дающие людям преимущество перед компьютерами и понимание картины Мондриана, например?

Начнем с важного момента в истории. Многие знакомы с историей термина искусственный интеллект. Впервые он был использован в 1955 году в предложении, составленном Джоном Маккарти. Компьютерщик и когнитивист и профессор Дартмутского колледжа вместе с несколькими коллегами, когда группа предложила летний исследовательский проект по теме искусственного интеллекта. И правда, просто интересно отметить, что четверку представляли двое из академии и двое из промышленности. С самого начала было ясно, что вопрос об интеллекте — это не чисто академическая проблема, а проблема, связанная с промышленностью.

В этом предложении по финансированию этого летнего исследовательского проекта цитаты unquote было четыре ключевых момента. Во-первых, это был двухмесячный проект с участием 10 человек. Предполагалось, что каждый аспект обучения или любое другое свойство интеллекта в принципе может быть описан настолько точно, что его можно будет смоделировать с помощью машины.

Во-вторых, заставьте машины использовать язык абстракций и понятий, чтобы решать проблемы, которые теперь предназначены для людей. Сегодня помимо языка мы бы добавили изображения. И что примечательно, они заявили, что тщательно подобранная группа ученых, работающая в течение двух месяцев, могла бы добиться значительных успехов в этой области. Это было начало пятидесятых, 1956 год, если быть точным. Думаю, им понадобится больше двух месяцев.

Еще одним пионером в попытке понять интеллект был Росс Эшби. Английский психиатр и пионер того, что в то время называлось кибернетикой и изучением сложных систем. На Западной объединенной компьютерной конференции 1961 года, организованной Институтом радиоинженеров, Эшби сделал следующее заявление, касающееся машинного и человеческого интеллекта. Он сказал, цитирую, что машины можно сделать настолько разумными, насколько нам угодно, но и они, и человек ограничены тем фактом, что их интеллект не может превышать их способности получать и обрабатывать информацию.Определение интеллекта, данное Эшби, зависит как от количества, так и от объема данных, которые можно получить.

И возможность обрабатывать эти данные. По сути, Эшби определил интеллект как проблему ввода-вывода или ввода-вывода. Ясно, что он считал, что машины можно сделать разумными. Кроме того, если вам интересно, почему радиоинженеры проводят собрание, связанное с компьютерами и кибернетикой, просто посмотрите происхождение термина «кривая радиста» или сокращенно ROC, я уверен, вы обнаружите, что интересная история.

Итак, вернемся к нашему пониманию интеллекта и роли, которую играет зрение. Оксфордский словарь английского языка очень кратко определяет интеллект как способность приобретать и применять знания и навыки. Это определение на первый взгляд не делает различий между людьми и машинами. И в некотором смысле это очень похоже на определение Росса Эшби. То есть собирать данные, получать их и применять, обрабатывать, но давайте рассмотрим определение подробнее.

Корень слова интеллект происходит от латинского intellegentia, от intellegere, понимать. Напрашивается вопрос. Что значит понимать и как понимание связано с интеллектом? Вернемся к нашему пониманию интеллекта и роли, которую играет зрение. Оксфордский словарь английского языка очень кратко определяет интеллект как способность приобретать и применять знания и навыки. На первый взгляд это определение не делает различий между людьми и машинами.

И в некотором смысле это очень похоже на определение Росса Эшби, которое заключается в сборе данных, их применении и обработке. Но давайте рассмотрим определение подробнее. Корень слова интеллект происходит от латинского intellegentia, от intellegere — понимать. Напрашивается вопрос. Что значит понимать и как понимание связано с интеллектом? А теперь двигаться дальше и пытаться вместе понять интеллект и компьютерное зрение?

Я думаю, что мы все понимаем и сталкивались с CAPTCHA. Нам всем это знакомо. Программа CAPTCHA, как мы знаем, защищает веб-сайты от ботов, генерируя и оценивая тесты, которые могут пройти люди, но не могут современные компьютерные программы. Люди могут читать искаженный текст, как показано на этом слайде, но компьютеры не могут. Во всяком случае, еще нет. Но они делают успехи. Итак, кто из вас на самом деле знает, что такое CAPTCHA? Ну, это означает полностью автоматизированные публичные гастрольные тесты, чтобы отличить компьютеры от людей. Вот так. CAPTCHA – это тестовый тест.

Поэтому давайте попробуем понять, как работает CAPTCHA, и при этом получить представление о природе человеческого интеллекта. Действительно, в последнее время было опубликовано много исследований и статей, посвященных именно механизму CAPTCHA, его взаимосвязи с нашей собственной внутренней интеллектуальной архитектурой в центральной нервной системе мозга и тому, как мы обрабатываем информацию. Опять же, что касается определения Росса Эшби количества данных по сравнению с вычислительной мощностью.

Итак, чтобы иметь интеллект или, как мы определили, понимание, особенно в отношении CAPTCHA, нам необходимо учитывать два критических фактора. Один из них — инвариантность, а другой — селективность. Таким образом, чтобы система могла идентифицировать и возражать, ей необходимы эти два качества. Теперь различается способность системы одинаково реагировать на разные взгляды на один и тот же объект. Избирательность как системный компонент приводит к разным реакциям на потенциально очень похожие объекты, например, на разные лица, даже если они представлены с одинаковой точки зрения.

Это означает, что когда я смотрю на комнату, полную людей, я могу быть избирательным и различать отдельные лица. Уникальные лица, и я могу быть инвариантным. Что они все лица в комнате. Но что очень интересно и, возможно, важно, так это то, что легко создать детектор, систему для визуализации чего-то, что является либо инвариантным, но не избирательным, либо избирательным, но не инвариантным.

Каждый из них относительно прост в разработке. Что сложно и почему CAPTCHA все еще работает, так это то, что оба события происходят одновременно. То есть быть инвариантным и избирательным одновременно. Люди могут сделать это и, таким образом, устранить неоднозначность головоломки CAPTCHA. Машины пока не могут этого сделать. Теперь несколько слов о понимании. Здесь важно то, что понимание определяется как воспринимаемое или предполагаемое значение. То есть сделать вывод из полученной информации.

Быть очень педантичным, чтобы понять, значит не знать полностью. И поэтому мы не знаем, что говорит CAPTCHA, но мы понимаем, что говорит CAPTCHA.И по мере того, как компьютеры становились все лучше и лучше, в первую очередь за счет методов грубой силы понимания «нет», попыток узнать, что находится на изображении, у нас была своего рода гонка вооружений, как вы можете видеть здесь, CAPTCHA становится все более и более сложной для понимания. момент, когда в некоторых случаях люди жалуются, что они не могут решить CAPTCHA.

Теперь, как это связано с нашим предыдущим слайдом с картинами Пита Мондриана? Это в каком-то смысле похоже на CAPTCHA? Что у нас есть изображение, как вы можете видеть здесь, первое изображение. Легко узнаваемый. И мы трансмутировали этот образ во что-то полностью редукционистское. Теперь у него может быть философская или художественная цель, как уменьшить или разобрать изображение до его абсолютно минимальных элементов.

И в какой момент человек и компьютер отклоняются от нашей способности следить за процессом деконструкции изображений? И в какой момент даже люди теряют понимание смысла? Теперь я знаю, что эти концепции кажутся очень философскими или очень теоретическими, но они очень важны, потому что здесь мы пытаемся понять, в какой момент может понять компьютерное зрение. И в понимании, в какой момент он может получить смысл.

Итак, если мы будем педантичными, мы можем добавить еще две концепции. Понятие здравого смысла и понятие воображения. Здравый смысл — это суждение, не зависящее от знаний, подготовки и воображения, концепций, которые на самом деле не воспринимаются органами чувств. Итак, это означает, что мы можем создавать информацию там, где ее по сути нет. Таким образом, мы идентифицируем объект без какой-либо маркировки, без каких-либо метаданных, без какого-либо контекста. Так каков же тогда предел передачи машине тех возможностей, которыми обладает наш мозг и нервная система.

Итак, давайте немного обсудим это. Таким образом, CAPTCHA, пытаясь обобщить то, что мы начали здесь, заключается не в знании изображения. Мы не знаем, что это за слова, и компьютер не знает, что это за слова. Мы понимаем. И поэтому критически важным компонентом здесь является то, что означает понимание системы анализа изображений. Теперь человеческий интеллект и машинный интеллект, в отличие от того, что сказал Эшби, связаны не только с вычислительной мощностью и памятью.

Мы, человеческий мозг, состоим из многих, многих систем и подсистем, которые прошли через миллиарды лет итерации в ответ на выживание в различных условиях. Таким образом, человеческий интеллект определяет понимание как нечто большее, чем вычислительная мощность и объем данных. Также речь идет о структурных элементах головного мозга и нервной системы. Те, которые прошли через итерацию эволюции, и эти системы имеют решающее значение для понимания человеческого интеллекта и, в частности, зрения как основной сенсорной модальности.

Например, младенцы запрограммированы на восприятие мира. У них есть жестко закодированное понимание определенных элементов окружающей среды, которые помогают в их защите. И результаты исследований в этой области показывают, что врожденная связность в мозге, структурно-функциональные элементы мозга предшествуют, являются первыми перед появлением доменной специфической функции. Именно так мы учимся и как привносим специфическую функцию предметной области для определенного поведения.

Теперь это представляет совершенно новый взгляд на происхождение знаний. Является ли знание приобретенным или в некоторой степени знанием заранее смонтированным? На данный момент и то, и другое. Таким образом, вопрос для компьютерного зрения и вычислений заключается в том, нужно ли нам затем моделировать эволюцию центральной нервной системы человека и нужно ли нам думать не только о программном обеспечении, но и об аппаратном обеспечении? Должно ли аппаратное обеспечение, по сути, воспроизводить структурные элементы, которые облегчают цитирование, раскапывание, понимание и знания в человеческом мозгу.

Итак, как же нам создать оборудование для обработки изображений, похожее на человека? Как мы разрабатываем методы автоматического и глубокого тегирования? Как мы вводим богатые метаданные вокруг изображения? Как мы представляем связь, интернет вещей, сенсорные данные за пределами визуальных модальностей, как мы представляем аналитику, происходящую в потоке событий, когда данные перемещаются в систему, как мы обрабатываем их в этом потоке? И как мы можем использовать преимущества движущихся потоковых данных датчиков, обогащая визуальные данные для создания обучающих и адаптивных моделей.

Это в некотором смысле описывает, как работает мозг. И это, в некотором смысле, потенциальный путь вперед, по которому мы смотрим в мозг, чтобы понять, как мы будем строить эти бесконечные системы зрения. Таким образом, Интернет вещей — это больше, чем просто подключение с низкой задержкой и высокой пропускной способностью. Речь идет о соединении людей, машин, сред. Речь идет о формировании совершенно новой технологической структуры, выходящей за рамки нашей нынешней парадигмы.

И эта структура, естественно, будет почти революционной технологией, имитирующей человеческую нервную систему. И я поговорю об этом через мгновение. Так что очень быстро, чтобы закончить здесь.Интересно, что Интернет вещей действительно является ключевым фактором в текущем развитии и прогрессе в области ИИ из-за объема данных, которые он производит для ИИ, нуждающегося в данных. Что еще более интересно, Интернет вещей не будет работать с ИИ из-за объемов данных и размерности, которые нам нужны, чтобы ИИ управлял всеми этими данными и всем этим подключением.

И, наконец, этот парадокс, этот парадокс ведет к чему-то совершенно замечательному. И это решает проблему, о которой я говорил ранее. Что архитектура и дизайн систем, которые не только распознают образы, но и могут понимать образы и делать выводы о значении, действительно строятся в некотором смысле путем перепросмотра нервной системы человека. У нас, например, почти один к одному взаимосвязь между конструкциями человеческого мозга и центральной нервной системы и текущими технологическими конструкциями пограничной аналитики, сенсорной телеметрии, облачных вычислений и туманных вычислений. И чем примечательна эта ситуация?

Такого рода взаимосвязь между технологией и биологией заключается в том, что, намеренно или случайно, развитие технологии фактически следует эволюционному пути нервной системы человека. А почему бы и нет? Это достаточно эффективный и функциональный набор биологических технологий. Почему бы электронным технологиям не найти самый экономный путь к… Почему бы электронным технологиям не найти экономичный путь к выполнению функций, аналогичных биологии, следуя ее примеру? На этом я благодарю вас и, надеюсь, если вы человек, вы сможете это прочитать.

Компьютерное зрение – это область искусственного интеллекта (ИИ), которая позволяет компьютерам и системам извлекать значимую информацию из цифровых изображений, видео и других визуальных данных, а затем выполнять действия или давать рекомендации на основе этой информации. Если ИИ позволяет компьютерам думать, то компьютерное зрение позволяет им видеть, наблюдать и понимать.

Компьютерное зрение работает почти так же, как и человеческое, за исключением того, что у человека есть преимущество. Преимущество человеческого зрения заключается в продолжительности жизни контекста, чтобы научиться различать объекты, как далеко они находятся, движутся ли они и есть ли что-то неправильное в изображении.

Компьютерное зрение обучает машины выполнять эти функции, но для этого требуется гораздо меньше времени с помощью камер, данных и алгоритмов, а не сетчатки, зрительных нервов и зрительной коры. Поскольку система, обученная проверять продукты или наблюдать за производственным активом, может анализировать тысячи продуктов или процессов в минуту, замечая незаметные дефекты или проблемы, она может быстро превзойти возможности человека.

Компьютерное зрение используется в самых разных отраслях: от энергетики и коммунальных услуг до производства и автомобилестроения, и рынок продолжает расти. Ожидается, что к 2022 году он достигнет 48,6 млрд долларов США. 1

Как работает компьютерное зрение?

Компьютерному зрению требуется много данных. Он выполняет анализ данных снова и снова, пока не распознает различия и, в конечном счете, не распознает изображения. Например, чтобы научить компьютер распознавать автомобильные шины, ему нужно передать огромное количество изображений шин и элементов, связанных с шинами, чтобы изучить различия и распознать шину, особенно без дефектов.

Для этого используются две основные технологии: тип машинного обучения, называемый глубоким обучением, и сверточная нейронная сеть (CNN).

В машинном обучении используются алгоритмические модели, которые позволяют компьютеру самостоятельно изучать контекст визуальных данных. Если через модель передается достаточно данных, компьютер «посмотрит» на данные и научится отличать одно изображение от другого. Алгоритмы позволяют машине обучаться самостоятельно, а не тому, кто программирует ее для распознавания изображения.

CNN помогает модели машинного обучения или глубокого обучения «выглядеть», разбивая изображения на пиксели, которым присваиваются теги или метки. Он использует метки для выполнения сверток (математическая операция над двумя функциями для получения третьей функции) и делает прогнозы относительно того, что он «видит». Нейронная сеть выполняет свертки и проверяет точность своих прогнозов в серии итераций, пока прогнозы не начнут сбываться. Затем он распознает или видит изображения так же, как люди.

Подобно тому, как человек разбирает изображение на расстоянии, CNN сначала различает резкие края и простые формы, а затем заполняет информацию, выполняя итерации своих прогнозов. CNN используется для понимания отдельных изображений. Рекуррентная нейронная сеть (RNN) используется аналогичным образом для видеоприложений, чтобы помочь компьютерам понять, как изображения в серии кадров связаны друг с другом.

История компьютерного зрения

Ученые и инженеры уже около 60 лет пытаются разработать способы, с помощью которых машины смогут видеть и понимать визуальные данные. Эксперименты начались в 1959 году, когда нейрофизиологи показали кошке набор изображений, пытаясь сопоставить реакцию ее мозга. Они обнаружили, что он сначала реагирует на резкие края или линии, и с научной точки зрения это означает, что обработка изображений начинается с простых форм, таких как прямые края. (2)

Примерно в то же время была разработана первая технология компьютерного сканирования изображений, позволяющая компьютерам оцифровывать и получать изображения. Еще одна веха была достигнута в 1963 году, когда компьютеры смогли преобразовывать двухмерные изображения в трехмерные формы. В 1960-х годах ИИ стал академической областью исследований, и это также положило начало стремлению ИИ решить проблему человеческого зрения.

В 1974 году была представлена технология оптического распознавания символов (OCR), позволяющая распознавать текст, напечатанный любым шрифтом или гарнитурой. (3) Точно так же интеллектуальное распознавание символов (ICR) может расшифровывать рукописный текст с помощью нейронных сетей. (4) С тех пор OCR и ICR нашли свое применение в обработке документов и счетов, распознавании автомобильных номеров, мобильных платежах, машинном переводе и других распространенных приложениях.

В 1982 году нейробиолог Дэвид Марр установил, что зрение работает иерархически, и представил алгоритмы, позволяющие машинам обнаруживать края, углы, кривые и аналогичные базовые формы. Одновременно ученый-компьютерщик Кунихико Фукусима разработал сеть клеток, способных распознавать закономерности. Сеть под названием Неокогнитрон включала сверточные слои нейронной сети.

К 2000 году основное внимание уделялось распознаванию объектов, а к 2001 году появились первые приложения для распознавания лиц в реальном времени. Стандартизация того, как наборы визуальных данных помечаются и аннотируются, появилась в 2000-х годах. В 2010 году стал доступен набор данных ImageNet. Он содержал миллионы помеченных изображений в тысячах классов объектов и обеспечивает основу для CNN и моделей глубокого обучения, используемых сегодня. В 2012 году команда из Университета Торонто представила CNN для участия в конкурсе по распознаванию изображений. Модель под названием AlexNet значительно снизила количество ошибок при распознавании изображений. После этого прорыва количество ошибок снизилось до нескольких процентов. (5)

На протяжении многих десятилетий люди мечтали о создании машин с характеристиками человеческого интеллекта, способных думать и действовать как люди. Одной из самых захватывающих идей было дать компьютерам возможность «видеть» и интерпретировать окружающий мир. Вчерашняя фантастика стала сегодняшней реальностью.

Благодаря достижениям в области искусственного интеллекта и вычислительной мощности технология компьютерного зрения сделала огромный шаг к интеграции в нашу повседневную жизнь. Ожидается, что к 2022 году рынок компьютерного зрения достигнет 48,6 млрд долларов США, что сделает его чрезвычайно многообещающей технологией UX.

В этой статье мы рассмотрим концепцию компьютерного зрения, обсудим, как развивалась эта технология, и поделимся несколькими прекрасными примерами применения этой технологии в нашей жизни.

Компьютерное зрение – это область компьютерных наук, которая занимается созданием цифровых систем, способных обрабатывать, анализировать и понимать визуальные данные (изображения или видео) так же, как это делают люди. Концепция компьютерного зрения основана на обучении компьютеров обрабатывать изображение на уровне пикселей и понимать его. Технически машины пытаются получить визуальную информацию, обработать ее и интерпретировать результаты с помощью специальных программных алгоритмов.

Системы человеческого и компьютерного зрения обрабатывают визуальные данные схожим образом. Изображение предоставлено Мэннингом.

Вот несколько общих задач, для которых можно использовать системы компьютерного зрения:

Классификация объектов. Система анализирует визуальный контент и классифицирует объект на фото/видео по определенной категории. Например, среди всех объектов на изображении система может найти собаку.
Идентификация объекта. Система анализирует визуальный контент и идентифицирует конкретный объект на фото/видео. Например, система может найти конкретную собаку среди собак на изображении.
Отслеживание объектов. Система обработки видео находит объект (или объекты), соответствующие критериям поиска, и отслеживает его перемещение.

Как работает компьютерное зрение?

Технология компьютерного зрения имитирует работу человеческого мозга.Но как наш мозг справляется с распознаванием визуальных объектов? Одна из популярных гипотез гласит, что наш мозг полагается на шаблоны для декодирования отдельных объектов. Эта концепция используется для создания систем компьютерного зрения.

Алгоритмы компьютерного зрения, которые мы используем сегодня, основаны на распознавании образов. Мы обучаем компьютеры на огромном количестве визуальных данных — компьютеры обрабатывают изображения, маркируют объекты на них и находят закономерности в этих объектах. Например, если мы отправим миллион изображений цветов, компьютер проанализирует их, выявит закономерности, похожие на все цветы, и в конце этого процесса создаст модель «цветок». В результате компьютер сможет точно определять, является ли то или иное изображение цветком каждый раз, когда мы отправляем им изображения.

Цветовые значения отдельных пикселей преобразуются в простой массив чисел, используемых в качестве входных данных для алгоритма компьютерного зрения. Изображение предоставлено openframeworks.

Эволюция компьютерного зрения

Компьютерное зрение — не новая технология. первые эксперименты с компьютерным зрением начались в 1950-х годах, и тогда оно использовалось для интерпретации машинописного и рукописного текста. В то время процедуры анализа компьютерного зрения были относительно простыми, но требовали большой работы от людей-операторов, которым приходилось вручную предоставлять образцы данных для анализа. Как вы, наверное, догадались, было сложно предоставить много данных, делая это вручную. Кроме того, вычислительной мощности было недостаточно, поэтому допустимая погрешность для этого анализа была довольно высокой.

Сегодня у нас нет недостатка в мощности компьютеров. Облачные вычисления в сочетании с надежными алгоритмами могут помочь нам решить даже самые сложные проблемы. Но не только новое оборудование в сочетании со сложными алгоритмами (мы рассмотрим их в следующем разделе) двигают вперед технологию компьютерного зрения; впечатляющее количество общедоступных визуальных данных, которые мы генерируем каждый день, отвечает за недавний процесс этой технологии. По данным Forbes, пользователи ежедневно выкладывают в сеть более трех миллиардов изображений, и эти данные используются для обучения систем компьютерного зрения.

Революция в области глубокого обучения

Чтобы понять недавний процесс развития технологии компьютерного зрения, нам нужно углубиться в алгоритмы, на которых основана эта технология. Современное компьютерное зрение основано на глубоком обучении, особом подмножестве машинного обучения, которое использует алгоритмы для извлечения информации из данных. С другой стороны, машинное обучение опирается на искусственный интеллект, который служит основой для обеих технологий (ознакомьтесь с рекомендациями по разработке ИИ, чтобы узнать больше о разработке ИИ).

Глубокое обучение вписывается в машинное обучение, подмножество искусственного интеллекта. Изображение предоставлено Nvidia.

Глубокое обучение представляет собой более эффективный способ компьютерного зрения — в нем используется специальный алгоритм, называемый нейронной сетью. Нейронные сети используются для извлечения шаблонов из предоставленных выборок данных. Алгоритмы вдохновлены человеческим пониманием того, как функционирует мозг, в частности взаимосвязей между нейронами в коре головного мозга.

На уровне ядра нейронной сети находится персептрон, математическое представление биологического нейрона. Подобно биологическим нейронам в коре головного мозга, возможно наличие нескольких слоев взаимосвязанных персептронов. Входные значения (необработанные данные) передаются через сеть, созданную персептронами, и попадают в выходной слой, который является прогнозом или высококвалифицированным предположением об определенном объекте. Например, в конце анализа машина может классифицировать объект с достоверностью X%.

Машинное обучение использует алгоритмы для анализа данных, а глубокое обучение опирается на уровни искусственных нейронных сетей (ИНС). Изображение предоставлено Quora.

Где мы можем применить технологию компьютерного зрения

Некоторые считают, что компьютерное зрение — это нечто из далекого будущего дизайна. Не правда. Компьютерное зрение уже интегрировано во многие сферы нашей жизни. Ниже приведены лишь несколько примечательных примеров того, как мы используем эту технологию сегодня:

Организация контента

Системы компьютерного зрения уже помогают нам систематизировать наш контент. Apple Photos — отличный пример. Приложение имеет доступ к нашим коллекциям фотографий, оно автоматически добавляет теги к фотографиям и позволяет нам просматривать более структурированную коллекцию фотографий. Что делает Apple Photos замечательным, так это то, что приложение создает для вас тщательно подобранный обзор ваших лучших моментов.

В разделе «Для вас» программы «Фото» для iOS вы можете увидеть рекомендуемый контент, созданный приложением, чтобы вы могли просматривать свои любимые моменты. Изображение предоставлено Apple.

Распознавание лиц

Технология распознавания лиц используется для сопоставления фотографий лиц людей с их личностью. Эта технология интегрирована в основные продукты, которые мы используем каждый день. Например, Facebook использует компьютерное зрение для распознавания людей на фотографиях.

Распознавание лиц — важнейшая технология биометрической аутентификации. Многие мобильные устройства, доступные сегодня на рынке, позволяют пользователям разблокировать устройства, показывая свое лицо. Фронтальная камера используется для распознавания лиц; мобильные устройства обрабатывают это изображение и на основе анализа могут сказать, авторизован ли человек, который держит устройство, на этом устройстве. Прелесть этой технологии в том, что она работает очень быстро.

Дополненная реальность

Компьютерное зрение – ключевой элемент приложений дополненной реальности. Эта технология помогает приложениям дополненной реальности обнаруживать физические объекты (как поверхности, так и отдельные объекты в заданном физическом пространстве) в режиме реального времени и использовать эту информацию для размещения виртуальных объектов в физической среде.

Приложение Ikea Place использует дополненную реальность, чтобы помочь пользователям понять, впишется ли мебель, которую они хотят купить, в их интерьер. Изображение предоставлено Wired.

Автономные автомобили

Компьютерное зрение позволяет автомобилям ориентироваться в окружающей среде. У умного автомобиля есть несколько камер, которые снимают видео с разных ракурсов и отправляют видео в качестве входного сигнала в программное обеспечение компьютерного зрения. Система обрабатывает видео в режиме реального времени и обнаруживает такие объекты, как дорожная разметка, объекты рядом с автомобилем (например, пешеходы или другие автомобили), светофоры и т. д. Одним из наиболее ярких примеров применения этой технологии является автопилот в автомобилях Tesla. .

Здоровье

Информация об изображении является ключевым элементом диагностики в медицине, поскольку на нее приходится 90 % всех медицинских данных. Многие диагнозы в области здравоохранения основаны на обработке изображений — рентген, МРТ и маммография, и это лишь некоторые из них. А сегментация изображений доказала свою эффективность при анализе медицинских сканов. Например, алгоритмы компьютерного зрения могут обнаруживать диабетическую ретинопатию — самую быстрорастущую причину слепоты. Компьютерное зрение может обрабатывать изображения задней части глаза (см. ниже) и оценивать их на предмет наличия и тяжести заболевания.

Алгоритмы компьютерного зрения можно использовать для обработки фотографий глазного дна сетчатки для выявления диабетической ретинопатии. Изображение предоставлено ai.googleblog.

Обнаружение рака – еще один примечательный пример. Точность в диагностике различных форм рака жизненно важна. По данным Google, инструменты компьютерного зрения помогают обнаруживать метастазы рака с гораздо большей точностью, чем врачи-люди. Ниже вы можете увидеть крупный план биопсии лимфатического узла. Ткань содержит метастазы рака молочной железы, а также участки, похожие на опухоль, но доброкачественные. Алгоритм компьютерного зрения успешно идентифицирует область опухоли (ярко-зеленый цвет) и не путается с нормальными областями, которые выглядят как опухоли.

Применение технологии компьютерного зрения во время биопсии лимфатического узла может помочь обнаружить область опухоли. Изображение предоставлено Google.

Сельское хозяйство

Многие сельскохозяйственные организации используют компьютерное зрение для наблюдения за урожаем и решения общих сельскохозяйственных проблем, таких как появление сорняков или нехватка питательных веществ. Системы компьютерного зрения обрабатывают изображения со спутников, дронов или самолетов и пытаются обнаружить проблемы на ранней стадии, что помогает избежать ненужных финансовых потерь.

Заключение

Компьютерное зрение — популярная тема в статьях о новых технологиях. Отличительной чертой этой технологии является другой подход к использованию данных. Огромные объемы данных, которые мы ежедневно создаем и которые некоторые считают проклятием нашего поколения, на самом деле используются для нашего блага — данные могут научить компьютеры видеть и понимать объекты. Эта технология также демонстрирует важный шаг, который наша цивилизация делает на пути к созданию искусственного интеллекта, который будет таким же сложным, как человек.

Мозг и глаза являются важными компонентами человеческого тела и составляют основные элементы системы человеческого зрения, один для интерпретации, а другой для восприятия соответственно. Говоря современным языком программирования, нейронная сеть и датчики имитируют человеческий мозг и глаза, и получившаяся система становится компьютерным зрением. Человеческое зрение использует естественный интеллект, а искусственный интеллект управляет компьютерным зрением. В этом выступлении освещаются основные возможности компьютерного зрения по сравнению с человеческим зрением, включая обзор, сравнение и несколько новых областей применения компьютерного зрения, таких как изучение когнитивных способностей человеческого мозга; и беспилотные автомобили; а также направление будущих исследований. В докладе также будет рассказано о том, как компьютерное зрение использует возможности человеческого мозга в различных приложениях, связанных с принятием решений в современном мире.

Откройте для себя мировые исследования

20 миллионов участников
135 миллионов публикаций
Более 700 тыс. исследовательских проектов

Большинство биометрических методов представляют собой обычные биометрические методы, использующие некоторую архитектуру нейронной сети, состоящую из подходящего количества скрытых слоев в процессе обучения. Точность распознавания больше не является мерой, обеспечивающей надежность метода распознавания. Надежность также была предпринята с использованием гибридных методов обучения, таких как нейро-нечеткий метод, и применения некоторых методов оптимизации. Традиционное использование концепции обучения почти полностью исчерпало себя в области компьютерного зрения и распознавания лиц. Новая концепция метода обучения, которая исследуется на международном уровне в нескольких когнитивных задачах, задачах компьютерного зрения и классификации данных, — это глубокое обучение, которое является подобластью машинного обучения, вдохновленной структурой и функциями искусственной нейронной сети. В этой статье предлагается использовать глубокое обучение для оценки когнитивных способностей человеческого мозга. Мы планируем добавить тысячи изображений лиц в нашу базу данных изображений. Глубокое обучение сравнивали с поверхностным обучением в задаче распознавания лиц, выполняемой для приложений реального времени; оценка когнитивных способностей и выводы для разных возрастных групп и полов; исследование времени реакции и т. д. На выборке размером 380 человек было протестировано распознавание лиц на основе глубокого обучения в режиме реального времени. Были зафиксированы время отклика и правильная идентификация, что показывает большой объем исследований глубокого обучения для оценки когнитивных способностей человеческого мозга в больших масштабах. Когнитивные способности у женщин оказались выше, чем у женщин.

Читайте также: