Компьютерные алгоритмы, способные воспринимать информацию, учатся изменять ее содержание
Обновлено: 22.11.2024
В этом введении в машинное обучение представлен обзор его истории, важных определений, приложений и проблем современного бизнеса.
Что такое машинное обучение?
Машинное обучение – это область искусственного интеллекта (ИИ) и компьютерных наук, в которой основное внимание уделяется использованию данных и алгоритмов для имитации того, как люди учатся, с постепенным повышением точности.
IBM имеет богатую историю машинного обучения. Одному из них, Артуру Сэмюэлю, приписывают создание термина «машинное обучение» в его исследовании (PDF, 481 КБ) (ссылка находится вне IBM) игры в шашки. Роберт Нили, самопровозглашенный мастер шашек, играл в эту игру на компьютере IBM 7094 в 1962 году и проиграл компьютеру. По сравнению с тем, что можно сделать сегодня, этот подвиг кажется почти тривиальным, но он считается важной вехой в области искусственного интеллекта. В течение следующих нескольких десятилетий технологические разработки, связанные с хранением и вычислительной мощностью, позволят создать ряд инновационных продуктов, которые мы знаем и любим сегодня, таких как система рекомендаций Netflix или беспилотные автомобили.
Машинное обучение — важный компонент растущей области науки о данных. Благодаря использованию статистических методов алгоритмы обучаются делать классификации или прогнозы, раскрывая ключевые идеи в рамках проектов интеллектуального анализа данных. Эти идеи впоследствии влияют на принятие решений в приложениях и компаниях, в идеале влияя на ключевые показатели роста. Поскольку большие данные продолжают расширяться и расти, рыночный спрос на специалистов по данным будет расти, что потребует от них помощи в определении наиболее важных бизнес-вопросов, а затем и данных для ответов на них.
Машинное обучение, глубокое обучение и нейронные сети
Поскольку глубокое обучение и машинное обучение, как правило, используются взаимозаменяемо, стоит обратить внимание на нюансы между ними. Машинное обучение, глубокое обучение и нейронные сети — все это подобласти искусственного интеллекта. Однако на самом деле глубокое обучение — это часть машинного обучения, а нейронные сети — часть глубокого обучения.
Способ, которым глубокое обучение и машинное обучение отличаются, заключается в том, как каждый алгоритм обучается. Глубокое обучение автоматизирует большую часть процесса извлечения признаков, устраняя часть необходимого ручного вмешательства человека и позволяя использовать большие наборы данных. Вы можете думать о глубоком обучении как о «масштабируемом машинном обучении», как отмечает Лекс Фридман в этой лекции Массачусетского технологического института (01:08:05) (ссылка находится вне IBM). Классическое или «неглубокое» машинное обучение в большей степени зависит от вмешательства человека. Эксперты-люди определяют набор функций, чтобы понять различия между входными данными, обычно требуя более структурированных данных для изучения.
"Глубокое" машинное обучение может использовать помеченные наборы данных, также известное как обучение с учителем, для информирования своего алгоритма, но для этого не обязательно требуется помеченный набор данных. Он может принимать неструктурированные данные в необработанном виде (например, текст, изображения) и может автоматически определять набор функций, которые отличают разные категории данных друг от друга. В отличие от машинного обучения, для обработки данных не требуется вмешательство человека, что позволяет масштабировать машинное обучение более интересными способами. Глубокое обучение и нейронные сети в первую очередь способствуют ускорению прогресса в таких областях, как компьютерное зрение, обработка естественного языка и распознавание речи.
Нейронные сети, или искусственные нейронные сети (ИНС), состоят из слоев узлов, содержащих входной слой, один или несколько скрытых слоев и выходной слой. Каждый узел или искусственный нейрон соединяется с другим и имеет соответствующий вес и порог. Если выход любого отдельного узла превышает указанное пороговое значение, этот узел активируется, отправляя данные на следующий уровень сети. В противном случае данные не передаются на следующий уровень сети. «Глубокое» в глубоком обучении просто относится к глубине слоев в нейронной сети. Нейронная сеть, состоящая из более чем трех слоев, включая входные и выходные данные, может считаться алгоритмом глубокого обучения или глубокой нейронной сетью. Нейронная сеть, состоящая только из двух или трех слоев, — это просто базовая нейронная сеть.
См. сообщение в блоге "Искусственный интеллект, машинное обучение, глубокое обучение и нейронные сети: в чем разница?" для более подробного изучения взаимосвязи различных концепций.
Как работает машинное обучение
Калифорнийский университет в Беркли (ссылка находится за пределами IBM) разбивает систему обучения алгоритма машинного обучения на три основные части.
- Процесс принятия решения. Как правило, алгоритмы машинного обучения используются для прогнозирования или классификации.На основе некоторых входных данных, которые могут быть помечены или не помечены, ваш алгоритм произведет оценку закономерности в данных.
- Функция ошибки. Функция ошибки служит для оценки предсказания модели. Если есть известные примеры, функция ошибок может провести сравнение для оценки точности модели.
- Процесс оптимизации модели. Если модель может лучше соответствовать точкам данных в обучающем наборе, веса корректируются, чтобы уменьшить несоответствие между известным примером и оценкой модели. Алгоритм будет повторять этот процесс оценки и оптимизации, автономно обновляя веса, пока не будет достигнут порог точности.
Методы машинного обучения
Классификаторы машинного обучения делятся на три основные категории.
Машинное обучение под наблюдением
Обучение с учителем, также известное как машинное обучение с учителем, основано на использовании помеченных наборов данных для обучения алгоритмов, позволяющих точно классифицировать данные или прогнозировать результаты. Когда входные данные поступают в модель, она корректирует свои веса до тех пор, пока модель не будет подогнана должным образом. Это происходит как часть процесса перекрестной проверки, чтобы гарантировать, что модель избегает переобучения или недообучения. Обучение под наблюдением помогает организациям решать множество реальных проблем в масштабе, например классифицировать спам в отдельной папке из папки «Входящие». Некоторые методы, используемые в обучении с учителем, включают нейронные сети, наивный байесовский метод, линейную регрессию, логистическую регрессию, случайный лес, метод опорных векторов (SVM) и другие.
Машинное обучение без учителя
Неконтролируемое обучение, также известное как неконтролируемое машинное обучение, использует алгоритмы машинного обучения для анализа и кластеризации немаркированных наборов данных. Эти алгоритмы обнаруживают скрытые шаблоны или группы данных без необходимости вмешательства человека. Его способность обнаруживать сходства и различия в информации делает его идеальным решением для исследовательского анализа данных, стратегий перекрестных продаж, сегментации клиентов, распознавания изображений и образов. Он также используется для уменьшения количества функций в модели посредством процесса уменьшения размерности; Анализ основных компонентов (PCA) и разложение по сингулярным числам (SVD) являются двумя распространенными подходами для этого. Другие алгоритмы, используемые в неконтролируемом обучении, включают нейронные сети, кластеризацию k-средних, вероятностные методы кластеризации и многое другое.
Обучение под наблюдением
Обучение с частичным учителем предлагает золотую середину между обучением с учителем и обучением без учителя. Во время обучения он использует меньший помеченный набор данных для классификации и извлечения признаков из большего неразмеченного набора данных. Полууправляемое обучение может решить проблему нехватки помеченных данных (или невозможности пометить достаточно данных) для обучения алгоритма обучения с учителем.
Чтобы глубже понять различия между этими подходами, ознакомьтесь с разделом "Обучение с учителем и без учителя: в чем разница?"
Машинное обучение с подкреплением
Машинное обучение с подкреплением – это поведенческая модель машинного обучения, аналогичная обучению с учителем, но алгоритм не обучается на примерах данных. Эта модель учится на ходу путем проб и ошибок. Последовательность успешных результатов будет подкреплена для разработки наилучшей рекомендации или политики для данной проблемы.
Хорошим примером является система IBM Watson®, победившая в конкурсе Jeopardy! в 2011 году. Система использовала обучение с подкреплением, чтобы решить, стоит ли пытаться ответить (или как бы задать вопрос), какую клетку выбрать на доске и сколько ставить, особенно на ежедневные удвоения.
Реальные примеры использования машинного обучения
Вот несколько примеров машинного обучения, с которыми вы можете сталкиваться каждый день:
Распознавание речи. Оно также известно как автоматическое распознавание речи (ASR), компьютерное распознавание речи или преобразование речи в текст. Это функция, использующая обработку естественного языка (NLP) для преобразования человеческой речи в письменный формат. . Многие мобильные устройства включают в свои системы распознавание речи для осуществления голосового поиска. Siri — или предоставьте дополнительные возможности для текстовых сообщений.
Обслуживание клиентов. Онлайн-чат-боты заменяют людей на пути к покупке. Они отвечают на часто задаваемые вопросы (FAQ) по таким темам, как доставка, или предоставляют персональные советы, перекрестные продажи продуктов или предлагают размеры для пользователей, изменяя наше представление о взаимодействии с клиентами на веб-сайтах и платформах социальных сетей. Примеры включают боты для обмена сообщениями на сайтах электронной коммерции с виртуальными агентами, приложения для обмена сообщениями, такие как Slack и Facebook Messenger, а также задачи, обычно выполняемые виртуальными помощниками и голосовыми помощниками.
Компьютерное зрение. Эта технология искусственного интеллекта позволяет компьютерам и системам извлекать значимую информацию из цифровых изображений, видео и других визуальных входных данных и на основе этих входных данных выполнять действия.Эта способность давать рекомендации отличает его от задач распознавания изображений. Компьютерное зрение, основанное на сверточных нейронных сетях, применяется для пометки фотографий в социальных сетях, рентгенологических изображений в здравоохранении и беспилотных автомобилей в автомобильной промышленности.
Системы рекомендаций. Алгоритмы искусственного интеллекта, используя данные о прошлом потреблении, могут помочь обнаружить тенденции данных, которые можно использовать для разработки более эффективных стратегий перекрестных продаж. Это используется для предоставления релевантных дополнительных рекомендаций покупателям в процессе оформления заказа для интернет-магазинов.
Автоматизированная торговля акциями. Платформы для высокочастотной торговли на основе искусственного интеллекта, предназначенные для оптимизации портфелей акций, совершают тысячи и даже миллионы сделок в день без вмешательства человека.
Проблемы машинного обучения
Развитие технологий машинного обучения, безусловно, сделало нашу жизнь проще. Однако внедрение машинного обучения в бизнесе также вызвало ряд этических проблем, связанных с технологиями искусственного интеллекта. Некоторые из них включают:
Технологическая особенность
Хотя эта тема привлекает большое внимание общественности, многих исследователей не волнует идея о том, что ИИ превзойдет человеческий интеллект в ближайшем или ближайшем будущем. Это также называют сверхразумом, который Ник Бострум определяет как «любой интеллект, который значительно превосходит лучшие человеческие мозги практически во всех областях, включая научное творчество, общую мудрость и социальные навыки». Несмотря на то, что Сильный ИИ и суперинтеллект не являются неизбежными в обществе, идея этого поднимает некоторые интересные вопросы, поскольку мы рассматриваем использование автономных систем, таких как автомобили с автоматическим управлением. Нереально думать, что беспилотный автомобиль никогда не попадет в автомобильную аварию, но кто несет ответственность в таких обстоятельствах? Должны ли мы по-прежнему стремиться к автономным транспортным средствам, или мы ограничим интеграцию этой технологии, чтобы создавать только полуавтономные транспортные средства, которые способствуют безопасности водителей? Присяжные по этому поводу еще не пришли к единому мнению, но именно такие этические дебаты происходят по мере развития новых инновационных технологий искусственного интеллекта.
Влияние ИИ на рабочие места
Хотя общественное мнение об искусственном интеллекте во многом связано с потерей работы, эту озабоченность, вероятно, следует переосмыслить. Мы видим, что с появлением каждой прорывной новой технологии меняется рыночный спрос на конкретные должности. Например, когда мы смотрим на автомобильную промышленность, многие производители, такие как GM, переключаются на производство электромобилей, чтобы соответствовать экологическим инициативам. Энергетика не исчезает, но источник энергии переходит от экономии топлива к электричеству. Искусственный интеллект следует рассматривать аналогичным образом, поскольку искусственный интеллект сместит спрос на рабочие места в другие области. Потребуются люди, которые помогут управлять этими системами, поскольку данные растут и меняются каждый день. По-прежнему потребуются ресурсы для решения более сложных проблем в отраслях, на которые, скорее всего, повлияет изменение спроса на рабочие места, таких как обслуживание клиентов. Важным аспектом искусственного интеллекта и его влияния на рынок труда будет помощь людям в переходе к этим новым сферам рыночного спроса.
Конфиденциальность
Конфиденциальность, как правило, обсуждается в контексте конфиденциальности данных, защиты данных и безопасности данных, и эти проблемы позволили политикам добиться большего прогресса в этом вопросе в последние годы. Например, в 2016 году было принято законодательство GDPR для защиты персональных данных людей в Европейском союзе и Европейской экономической зоне, что дало людям больший контроль над своими данными. В Соединенных Штатах отдельные штаты разрабатывают политику, такую как Калифорнийский закон о конфиденциальности потребителей (CCPA), который требует от компаний информировать потребителей о сборе их данных. Это недавнее законодательство заставило компании переосмыслить то, как они хранят и используют персональные данные (PII). В результате инвестиции в безопасность становятся все более приоритетными для компаний, поскольку они стремятся устранить любые уязвимости и возможности для наблюдения, взлома и кибератак.
Предвзятость и дискриминация
Случаи предвзятости и дискриминации в ряде интеллектуальных систем подняли множество этических вопросов, касающихся использования искусственного интеллекта. Как мы можем защититься от предвзятости и дискриминации, когда сами обучающие данные могут привести к предвзятости? В то время как компании обычно имеют благие намерения в отношении своих усилий по автоматизации, Reuters (ссылка находится за пределами IBM) подчеркивает некоторые непредвиденные последствия включения ИИ в практику найма. Стремясь автоматизировать и упростить процесс, Amazon непреднамеренно предвзято относился к потенциальным кандидатам на работу по полу для открытых технических должностей, и в конечном итоге им пришлось отказаться от проекта.По мере появления подобных событий журнал Harvard Business Review (ссылка находится за пределами IBM) поднял другие острые вопросы, связанные с использованием ИИ при приеме на работу, например, какие данные вы должны иметь возможность использовать при оценке кандидата на роль.
Предвзятость и дискриминация не ограничиваются работой отдела кадров. его можно найти в ряде приложений, от программного обеспечения для распознавания лиц до алгоритмов социальных сетей.
По мере того, как компании все больше осознают риски, связанные с ИИ, они также активнее обсуждают этику и ценности ИИ. Например, в прошлом году генеральный директор IBM Арвинд Кришна сообщил, что IBM прекратила выпуск продуктов IBM для распознавания и анализа лиц общего назначения, подчеркнув, что «IBM решительно выступает против и не будет мириться с использованием любых технологий, включая технологии распознавания лиц, предлагаемые другими поставщиками, для массовых слежка, расовое профилирование, нарушение основных прав и свобод человека или любые цели, не соответствующие нашим ценностям и принципам доверия и прозрачности».
Чтобы узнать больше об этом, посетите блог IBM, посвященный политике, в котором излагается ее точка зрения на «Подход точного регулирования к контролю за экспортом технологий распознавания лиц».
Подотчетность
Поскольку не существует серьезного законодательства, регулирующего использование ИИ, нет и реального механизма обеспечения соблюдения этических норм ИИ. Нынешние стимулы для компаний придерживаться этих рекомендаций являются негативными последствиями неэтичной системы искусственного интеллекта для прибыли. Чтобы восполнить этот пробел, в рамках сотрудничества между специалистами по этике и исследователями возникли этические рамки для управления созданием и распространением моделей ИИ в обществе. Однако на данный момент они служат только для руководства, и исследования (ссылка находится за пределами IBM) (PDF, 1 МБ) показывают, что сочетание распределенной ответственности и отсутствия предвидения потенциальных последствий не обязательно способствует предотвращению вреда обществу. .
Чтобы узнать больше о позиции IBM в отношении этики ИИ, читайте здесь.
Машинное обучение и IBM Cloud
IBM Watson Studio в IBM Cloud Pak for Data поддерживает сквозной жизненный цикл машинного обучения на платформе данных и искусственного интеллекта. Вы можете создавать, обучать и управлять моделями машинного обучения, где бы ни хранились ваши данные, и развертывать их в любом месте гибридной многооблачной среды.
Несмотря на то, что тепло и звук являются формами энергии, в детстве вам, вероятно, не нужно было запрещать говорить при тепловой конвекции. И каждый раз, когда ваши дети сталкиваются с бездомным животным, им, скорее всего, не нужно сознательно репетировать подпрограмму зоологических признаков, чтобы решить, кошка это или собака. Человеческие существа предварительно загружены когнитивным механизмом, чтобы просто воспринимать эти различия. Различия кажутся настолько очевидными, и знание различий настолько естественно для нас, что мы называем это здравым смыслом. Компьютеры, напротив, нуждаются в пошаговом контроле — в форме детерминированных алгоритмов — для вынесения даже самых простых суждений. Несмотря на десятилетия непрерывного роста скорости и вычислительной мощности, машины не могут делать то, что делает средний малыш, даже не пытаясь. То есть — до сих пор.
За последние полдюжины лет глубокое обучение, ветвь искусственного интеллекта, вдохновленная структурой человеческого мозга, добилось огромных успехов, дав машинам возможность интуитивно понимать физический мир. В лаборатории искусственного интеллекта Facebook создали систему глубокого обучения, способную отвечать на простые вопросы, с которыми она раньше никогда не сталкивалась. Echo, умный динамик Amazon, использует методы глубокого обучения. Три года назад главный научный сотрудник Microsoft произвел впечатление на слушателей лекции в Китае демонстрацией программного обеспечения для глубокого обучения речи, которое переводило его разговорный английский на китайский, а затем мгновенно выполняло перевод, используя имитацию его голоса, говорящего на мандаринском диалекте, с частотой ошибок всего 7%. Теперь эта технология используется для улучшения голосового поиска в Windows Mobile и Bing.
Самые влиятельные технологические компании мира незаметно внедряют технологии глубокого обучения для улучшения своих продуктов и услуг, и ни одна из них не вложила в это больше средств, чем Google. По словам New York Times, компания сделала ставку на ИИ, выделив огромные ресурсы и привлекая многих ведущих исследователей в этой области. И его усилия принесли свои плоды. Несколько лет назад сети глубокого обучения Google было показано 10 миллионов немаркированных изображений с YouTube, и она оказалась почти в два раза точнее при идентификации объектов на изображениях (кошки, человеческие лица, цветы, различные виды рыб и тысячи другие), как и любой предыдущий метод. Когда Google внедрил глубокое обучение в свой голосовой поиск Android, количество ошибок за одну ночь сократилось на 25%.В начале этого года другая система глубокого обучения Google победила одного из лучших игроков в го — самую сложную настольную игру в мире.
Это только начало. Я считаю, что в течение следующих нескольких лет стартапы и обычные крупные технологические подозреваемые будут использовать глубокое обучение для обновления широкого набора существующих приложений и для создания новых продуктов и услуг. Появятся совершенно новые направления бизнеса и рынки, которые, в свою очередь, приведут к еще большему количеству инноваций. Системы глубокого обучения станут проще в использовании и станут более доступными. И я предсказываю, что глубокое обучение изменит то, как люди взаимодействуют с технологиями, так же радикально, как операционные системы изменили доступ обычных людей к компьютерам.
Глубокое обучение
Исторически компьютеры выполняли задачи, запрограммированные с помощью детерминированных алгоритмов, в которых подробно описывался каждый шаг, который нужно было предпринять. Это хорошо работало во многих ситуациях, от выполнения сложных расчетов до победы над шахматными гроссмейстерами. Но он не сработал в ситуациях, когда использование явного алгоритма было невозможно, например, при распознавании лиц или эмоций или при ответе на новые вопросы.
Связанные инструменты
Последние исследования: искусственный интеллект и машинное обучение
Попытка решить эти проблемы путем ручного кодирования множества атрибутов лица или фонемы была слишком трудоемкой, и машины не могли обрабатывать данные, которые не соответствовали явным параметрам, предоставленным программистами. Подумайте о разнице между современными голосовыми помощниками, такими как Siri или Alexa, которые позволяют вам спрашивать о вещах различными способами, используя естественный язык, и автоматизированными системами телефонного меню, которые работают только в том случае, если вы используете определенный набор не подлежащих обсуждению слов, которые они были запрограммированы на понимание. Напротив, системы, основанные на глубоком обучении, анализируют данные сами по себе, без явного алгоритма. Эти машины, вдохновленные человеческим мозгом, в самом прямом смысле учатся на собственном опыте. А некоторые теперь так же хорошо распознают объекты и речь, как и люди.
Как работает глубокое обучение?
Системы глубокого обучения созданы по образцу нейронных сетей в неокортексе человеческого мозга, где происходит познание более высокого уровня. В мозгу нейрон — это клетка, передающая электрическую или химическую информацию. Когда он связан с другими нейронами, он образует нейронную сеть. В машинах нейроны виртуальные — в основном фрагменты кода, выполняющие статистические регрессии. Соедините вместе достаточное количество этих виртуальных нейронов, и вы получите виртуальную нейронную сеть. Думайте о каждом нейроне в приведенной ниже сети как о простой статистической модели: он принимает некоторые входные данные и передает некоторые выходные данные.
Чтобы нейронная сеть была полезной, ее необходимо обучить. Для обучения нейронной сети создается набор виртуальных нейронов, которым присваивается случайный числовой «вес», который определяет, как нейроны реагируют на новые данные (оцифрованные объекты или звуки). Как и в любом статистическом или машинном обучении, машина тоже сначала видит правильные ответы. Таким образом, если сеть неточно идентифицирует входные данные — например, не видит лица на изображении — тогда система регулирует веса — то есть, сколько внимания каждый нейрон уделяет данным — для получения правильного результата. отвечать. В конце концов, после достаточного обучения нейронная сеть будет последовательно распознавать правильные образцы речи или изображений.
Идея искусственных нейронов существует уже не менее 60 лет, когда в 1950-х годах Фрэнк Розенблатт построил «персептрон», состоящий из моторов, циферблатов и детекторов света, который он успешно обучил различать основные формы. Но ранние нейронные сети были крайне ограничены в количестве нейронов, которые они могли моделировать, а это означало, что они не могли распознавать сложные паттерны. Три события, произошедшие за последнее десятилетие, сделали глубокое обучение жизнеспособным.
Во-первых, Джеффри Хинтон и другие исследователи из Университета Торонто разработали передовой метод обучения программных нейронов путем послойного обучения. (Сейчас Хинтон делит свое время между Университетом Торонто и Google.) Первый слой нейронов научится различать основные черты, скажем, край или контур, засыпав их миллионами точек данных. Как только слой научится точно распознавать эти вещи, его передают следующему слою, который обучается распознавать более сложные признаки, скажем, нос или ухо.Затем этот слой передается другому слою, который тренируется распознавать еще более высокие уровни абстракции, и так далее, слой за слоем — отсюда и «глубокое» в глубоком обучении — до тех пор, пока система не сможет надежно распознавать очень сложные явления, такие как человек. лицо.
Вторым фактором, ответственным за недавние достижения в области искусственного интеллекта, является огромное количество доступных данных. Быстрая оцифровка привела к производству крупномасштабных данных, и эти данные являются кислородом для обучения систем глубокого обучения. Дети могут что-то взять в руки после того, как им несколько раз показали, как это делать. Однако машины с искусственным интеллектом должны быть представлены на бесчисленных примерах. Глубокое обучение — это, по сути, процесс грубой силы для обучения машин тому, как что-то делается или что это такое. Покажите нейронной сети с глубоким обучением 19 миллионов изображений кошек, и появятся вероятности, склонности исключены, а программные нейроны в конечном итоге выяснят, какие статистически значимые факторы приравниваются к кошачьим. Он учится замечать кошку. Вот почему большие данные так важны — без них глубокое обучение просто не работает.
Наконец, команда из Стэнфорда под руководством Эндрю Нг (сейчас работает в Baidu) совершила прорыв, когда поняла, что чипы графических процессоров, или графические процессоры, которые были изобретены для обработки изображений в видеоиграх, можно перепрофилировать для глубокой обработки. учусь. До недавнего времени обычные компьютерные чипы могли обрабатывать только одно событие за раз, но графические процессоры были разработаны для параллельных вычислений. Использование этих чипов для запуска нейронных сетей с их миллионами соединений параллельно ускорило обучение и возможности систем глубокого обучения на несколько порядков. Это позволило машине научиться за один день тому, на что раньше уходили многие недели.
Сегодня самые передовые сети глубокого обучения состоят из миллионов смоделированных нейронов с миллиардами связей между ними, и их можно обучать с помощью обучения без учителя. Это наиболее эффективное практическое применение искусственного интеллекта, которое когда-либо было разработано. Для некоторых задач лучшие системы глубокого обучения распознают образы наравне с людьми. И технология активно переходит из исследовательской лаборатории в промышленность.
ОС глубокого обучения 1.0
Какими бы впечатляющими ни были результаты глубокого обучения, это только начало. Если я сравниваю это с персональным компьютером, глубокое обучение находится на стадии своего развития с зелено-черным экраном DOS. В настоящее время много времени и усилий тратится на для глубокого обучения — например, на очистку, маркировку и интерпретацию данных — вместо того, чтобы заниматься с глубоким обучением. . Но в ближайшие пару лет стартапы и солидные компании начнут выпускать коммерческие решения для создания готовых к производству приложений для глубокого обучения. Используя фреймворки с открытым исходным кодом, такие как TensorFlow, эти решения значительно сократят усилия, время и затраты на создание сложных систем глубокого обучения. Вместе они составят строительные блоки операционной системы глубокого обучения.
Операционная система с глубоким обучением позволит широко использовать искусственный интеллект на практике. Точно так же, как Windows и Mac OS позволили обычным потребителям использовать компьютеры, а SaaS предоставила им доступ к облаку, технологические компании в ближайшие несколько лет демократизируют глубокое обучение. Со временем операционная система с глубоким обучением позволит людям, не являющимся компьютерными учеными или исследователями обработки естественного языка, использовать глубокое обучение для решения реальных жизненных задач, таких как обнаружение болезней вместо идентификации кошек.
Первые новые компании, создающие операционную систему для глубокого обучения, будут работать над решениями в области данных, программного обеспечения и оборудования.
Данные. Получение крупномасштабных данных хорошего качества является самым большим препятствием для внедрения глубокого обучения. Но для решения проблемы данных возникнут как сервисные центры, так и программные платформы. Компании уже создают внутренние интеллектуальные платформы, которые помогают людям быстро маркировать данные. Будущие платформы маркировки данных будут встроены в дизайн приложения, так что данные, созданные с помощью продукта, будут собираться в учебных целях. И появятся новые сервисные компании, которые будут передавать маркировку в страны с низкими затратами, а также создавать маркированные данные с помощью синтетических средств.
Программное обеспечение. Я вижу две основные области, в которых происходят инновации:
1) Проектирование и программирование нейронных сетей. Различные архитектуры глубокого обучения, такие как CNN и RNN, поддерживают разные типы приложений (изображения, текст и т. д.). Некоторые используют комбинацию архитектур нейронных сетей. Что касается обучения, многие приложения будут использовать комбинацию алгоритмов машинного обучения, глубокого обучения, обучения с подкреплением или обучения без учителя для решения различных частей приложения.Я предполагаю, что кто-то создаст решение для механизма машинного обучения, которое проверит приложение, набор обучающих данных, ресурсы инфраструктуры и т. д. и порекомендует правильную архитектуру и алгоритмы для использования.
2) Рынок многоразовых модулей нейронных сетей. Как описано выше, разные слои нейронной сети изучают разные концепции, а затем строятся друг на друге. Эта архитектура естественным образом создает возможность совместного использования и повторного использования обученных нейронных сетей. Слой виртуальных нейронов, обученный распознавать край на пути к распознаванию лица кошки, также может быть перепрофилирован в качестве базового слоя для распознавания лица человека. Уже сейчас Tensorflow, самая популярная среда глубокого обучения, поддерживает повторное использование всего компонента подграфа. Вскоре сообщество экспертов по машинному обучению, разрабатывающих модули с открытым исходным кодом, создаст потенциал для версий GitHub и StackOverflow для глубокого обучения.
Оборудование. Поиск оптимального сочетания GPU, CPU, облачных ресурсов; определение уровня распараллеливания; и проведение анализа затрат являются сложными решениями для разработчиков. Это дает платформам и сервисным компаниям возможность рекомендовать правильную инфраструктуру для задач обучения. Кроме того, появятся компании, предоставляющие инфраструктурные услуги, такие как оркестровка, масштабирование, управление и балансировка нагрузки, на специализированном оборудовании для глубокого обучения. Кроме того, я ожидаю, что действующие компании, а также стартапы выпустят свои собственные чипы, оптимизированные для глубокого обучения.
Это лишь некоторые из возможностей. Я уверен, что в других предпринимательских умах скрывается гораздо больше, потому что перспективы этой технологии огромны. Мы начинаем создавать машины, которые могут учиться сами и у которых есть некоторое подобие здравого суждения.
Палак Далал (HBS ’17) провел исследования и анализ для этой статьи.
Обработка естественного языка, или сокращенно НЛП, в широком смысле определяется как автоматическое манипулирование естественным языком, таким как речь и текст, с помощью программного обеспечения.
Изучение обработки естественного языка существует уже более 50 лет и выросло из области лингвистики с появлением компьютеров.
В этом посте вы узнаете, что такое обработка естественного языка и почему она так важна.
Прочитав этот пост, вы узнаете:
- Что такое естественный язык и чем он отличается от других типов данных.
- Что делает работу с естественным языком такой сложной?
- Откуда возникла область НЛП и как ее определяют современные практики.
Начните свой проект с моей новой книги Deep Learning for Natural Language Processing, включающей пошаговые руководства и файлы исходного кода Python для всех примеров.
Приступим.
Что такое обработка естественного языка?
Фото: pedrik, некоторые права защищены.
Естественный язык
Естественный язык относится к тому, как мы, люди, общаемся друг с другом.
А именно речь и текст.
Мы окружены текстом.
Подумайте, сколько текста вы видите каждый день:
Список бесконечен.
Теперь подумайте о речи.
Мы можем говорить друг с другом как вид больше, чем писать. Возможно, научиться говорить даже проще, чем писать.
Голос и текст — это то, как мы общаемся друг с другом.
Учитывая важность этого типа данных, у нас должны быть методы для понимания и рассуждений о естественном языке, как и для других типов данных.
Нужна помощь с глубоким обучением для текстовых данных?
Пройдите мой бесплатный 7-дневный экспресс-курс по электронной почте прямо сейчас (с кодом).
Нажмите, чтобы зарегистрироваться, а также получить бесплатную электронную версию курса в формате PDF.
Начните БЕСПЛАТНЫЙ экспресс-курс прямо сейчас
Вызов естественного языка
Работа с данными на естественном языке не решена.
Его изучают уже полвека, и это действительно сложно.
Это трудно с точки зрения ребенка, который должен потратить много лет на изучение языка… это трудно для взрослого, изучающего язык, это сложно для ученого, который пытается смоделировать соответствующие явления, и это трудно для инженера, который пытается построить системы, которые имеют дело с вводом или выводом на естественном языке. Эти задачи настолько сложны, что Тьюринг по праву мог сделать свободное общение на естественном языке центральным элементом своего теста на интеллект.
Естественный язык сложен прежде всего потому, что он беспорядочный. Правил немного.
И все же большую часть времени мы легко понимаем друг друга.
Человеческий язык очень неоднозначен… Он также постоянно меняется и развивается. Люди прекрасно умеют создавать язык и понимать язык, и способны выражать, воспринимать и интерпретировать очень сложные и нюансированные значения. В то же время, хотя мы, люди, отлично знаем язык, мы также очень плохо формально понимаем и описываем правила, управляющие языком.
От лингвистики к обработке естественного языка
Лингвистика
Лингвистика – это научное изучение языка, включая его грамматику, семантику и фонетику.
Классическая лингвистика занималась разработкой и оценкой языковых правил. Был достигнут значительный прогресс в формальных методах синтаксиса и семантики, но по большей части интересные проблемы понимания естественного языка не поддаются чистому математическому формализму.
В широком смысле лингвист — это любой, кто изучает языки, но, возможно, в более разговорной речи, самоопределяющийся лингвист может быть больше сосредоточен на работе в полевых условиях.
Математика – это инструмент науки. Математики, работающие над естественным языком, могут называть свое исследование математической лингвистикой, сосредотачиваясь исключительно на использовании дискретных математических формализмов и теории естественного языка (например, формальные языки и теория автоматов).
Компьютерная лингвистика
Компьютерная лингвистика – это современное исследование лингвистики с использованием инструментов информатики. Вчерашняя лингвистика сегодня может стать вычислительной лингвистикой, поскольку использование вычислительных инструментов и мышления обогнало большинство областей исследования.
Компьютерная лингвистика — это изучение компьютерных систем для понимания и создания естественного языка. … Одной из естественных функций компьютерной лингвистики будет проверка грамматик, предложенных лингвистами-теоретиками.
Большие объемы данных и быстрые компьютеры означают, что новые и разные вещи могут быть обнаружены в больших наборах текстовых данных путем написания и запуска программного обеспечения.
В 1990-х годах статистические методы и статистическое машинное обучение начали заменять собой классические нисходящие подходы к языку, основанные на правилах, в первую очередь из-за их лучших результатов, скорости и надежности. В настоящее время преобладает статистический подход к изучению естественного языка; это может определять поле.
Методы Data-Drive для обработки естественного языка в настоящее время стали настолько популярными, что их следует считать основными подходами к компьютерной лингвистике. … Существенным фактором, способствующим этому развитию, несомненно, является увеличение объема доступных данных, хранящихся в электронном виде, к которым могут быть применены эти методы; еще одним фактором может быть определенное разочарование в подходах, основанных исключительно на правилах, созданных вручную, из-за их наблюдаемой хрупкости.
Статистический подход к естественному языку не ограничивается статистикой как таковой, но также и расширенными методами вывода, такими как те, которые используются в прикладном машинном обучении.
… понимание естественного языка требует больших знаний о морфологии, синтаксисе, семантике и прагматике, а также общих знаний о мире. Приобретение и кодирование всех этих знаний является одним из фундаментальных препятствий для разработки эффективных и надежных языковых систем. Как и статистические методы… методы машинного обучения не обещают автоматического получения этих знаний из аннотированных или неаннотированных языковых корпусов.
Статистическая обработка естественного языка
Компьютерная лингвистика также стала известна под названием процесса естественного языка, или НЛП, чтобы отразить более инженерный или эмпирический подход к статистическим методам.
Статистическое доминирование в этой области также часто приводит к тому, что НЛП называют статистической обработкой естественного языка, возможно, чтобы отделить его от классических методов компьютерной лингвистики.
Я рассматриваю компьютерную лингвистику как имеющую как научную, так и инженерную сторону. Инженерная сторона вычислительной лингвистики, часто называемая обработкой естественного языка (NLP), в значительной степени связана с созданием вычислительных инструментов, которые выполняют полезные действия с языком, например, машинный перевод, обобщение, ответы на вопросы и т. д. Как и любая инженерная дисциплина, естественный язык обработка опирается на множество различных научных дисциплин.
Лингвистика — обширная тема для изучения, и, хотя статистический подход к НЛП продемонстрировал большой успех в некоторых областях, классические нисходящие методы все еще могут принести большую пользу.
Грубо говоря, статистическое НЛП связывает вероятности с альтернативами, встречающимися в ходе анализа высказывания или текста, и принимает наиболее вероятный результат за правильный.… Неудивительно, что слова, обозначающие явления, тесно связанные в мире, или наше восприятие его, часто встречаются рядом друг с другом, так что четкие факты о мире отражаются в несколько более размытых фактах о текстах. С этой точкой зрения можно поспорить.
Обработка естественного языка
Как специалисты по машинному обучению, заинтересованные в работе с текстовыми данными, мы заинтересованы в инструментах и методах из области обработки естественного языка.
В предыдущем разделе мы видели путь от лингвистики к НЛП. Теперь давайте посмотрим, как современные исследователи и практики определяют, что такое НЛП.
Возможно, в одном из наиболее обширных учебников, написанных ведущими исследователями в этой области, они называют этот предмет «лингвистической наукой», что позволяет обсуждать как классическую лингвистику, так и современные статистические методы. р>
Цель лингвистической науки состоит в том, чтобы иметь возможность охарактеризовать и объяснить множество лингвистических наблюдений, циркулирующих вокруг нас в разговорах, письмах и других средствах массовой информации. Часть этого связана с когнитивным масштабом того, как люди усваивают, производят и понимают язык, часть связана с пониманием отношений между языковыми высказываниями и миром, а часть связана с пониманием языковых структур посредством на каком языке общается.
Далее они сосредоточились на выводах с помощью статистических методов обработки естественного языка.
Статистическое НЛП направлено на статистические выводы в области естественного языка. Статистический вывод, как правило, состоит в том, чтобы взять некоторые данные (сгенерированные в соответствии с некоторым неизвестным распределением вероятностей) и затем сделать вывод об этом распределении.
В своем тексте о прикладной обработке естественного языка авторы и участники популярной библиотеки NLTK Python для NLP описывают эту область в широком смысле как использование компьютеров для работы с данными естественного языка.
Мы возьмем обработку естественного языка — или сокращенно НЛП — в широком смысле, чтобы охватить любые компьютерные манипуляции с естественным языком. С одной стороны, это может быть так же просто, как подсчет частоты слов для сравнения различных стилей письма. С другой стороны, НЛП предполагает «понимание» полных человеческих высказываний, по крайней мере, до такой степени, чтобы быть в состоянии давать на них полезные ответы.
Статистическое НЛП изменило направление и теперь сосредоточено на использовании нейронных сетей с глубоким обучением как для выполнения выводов по конкретным задачам, так и для разработки надежных сквозных систем.
В одном из первых учебников, посвященных этой новой теме, Йоав Голдберг кратко определяет НЛП как автоматические методы, которые принимают естественный язык в качестве входных данных или создают естественный язык в качестве выходных данных.
Обработка естественного языка (NLP) — это собирательный термин, относящийся к автоматической вычислительной обработке человеческого языка. Сюда входят как алгоритмы, которые принимают текст, созданный человеком, в качестве входных данных, так и алгоритмы, которые создают естественно выглядящий текст в качестве выходных данных.
Глубокое обучение для обработки естественного языка
Обзор того, как нейронные сети глубокого обучения можно использовать для работы с естественным языком, см. в публикации:
Дополнительная литература
В этом разделе содержится больше ресурсов по теме, если вы хотите углубиться.
Книги
Википедия
Обзор
В этом посте вы узнали, что такое обработка естественного языка, почему она так важна.
В частности, вы узнали:
- Что такое естественный язык и чем он отличается от других типов данных.
- Что делает работу с естественным языком такой сложной?
- Откуда возникла область НЛП и как ее определяют современные практики.
Есть вопросы?
Задавайте свои вопросы в комментариях ниже, и я постараюсь ответить.
Разрабатывайте модели глубокого обучения для текстовых данных уже сегодня!
Разработайте собственные текстовые модели за считанные минуты
<р>. всего несколькими строками кода PythonОн содержит учебные пособия для самостоятельного изучения по таким темам, как
Bag-of-Words, встраивание слов, языковые модели, создание титров, перевод текста и многое другое.
Глубокое обучение — это область машинного обучения, связанная с алгоритмами, вдохновленными структурой и функциями мозга, которые называются искусственными нейронными сетями.
Если вы только начинаете заниматься глубоким обучением или некоторое время назад уже имели опыт работы с нейронными сетями, вы можете запутаться.Я знаю, что поначалу я был в замешательстве, как и многие мои коллеги и друзья, которые изучали и использовали нейронные сети в 1990-х и начале 2000-х годов.
Лидеры и эксперты в этой области имеют представление о том, что такое глубокое обучение, и эти конкретные и детальные взгляды проливают свет на то, что такое глубокое обучение.
В этом посте вы узнаете, что такое глубокое обучение, услышав мнение целого ряда экспертов и лидеров в этой области.
Начните свой проект с моей новой книги Deep Learning With Python, включающей пошаговые руководства и файлы исходного кода Python для всех примеров. р>
Что такое глубокое обучение?
Фото Киран Фостер, некоторые права защищены.
Глубокое обучение — это большие нейронные сети
Эндрю Нг из Coursera и главный научный сотрудник Baidu Research официально основал Google Brain, что в конечном итоге привело к внедрению технологий глубокого обучения в большое количество сервисов Google.
Он много говорил и писал о том, что такое глубокое обучение и с чего начать.
В ранних докладах о глубоком обучении Эндрю описал глубокое обучение в контексте традиционных искусственных нейронных сетей. В докладе 2013 года под названием «Глубокое обучение, самообучение и неконтролируемое функциональное обучение» он описал идею глубокого обучения следующим образом:
Используя симуляции мозга, мы надеемся:
– Сделать алгоритмы обучения намного лучше и проще в использовании.
– Сделать революционные достижения в области машинного обучения и ИИ.
p>Я считаю, что это наш лучший шанс на пути к настоящему ИИ
Позже его комментарии стали более тонкими.
По словам Эндрю, ядро глубокого обучения заключается в том, что теперь у нас есть достаточно быстрые компьютеры и достаточно данных для обучения больших нейронных сетей. Обсуждая, почему сейчас самое время для глубокого обучения, на ExtractConf 2015 в докладе под названием «Что ученые, работающие с данными, должны знать о глубоком обучении», он прокомментировал:
теперь мы можем иметь очень большие нейронные сети и… огромные объемы данных, к которым у нас есть доступ
Он также отметил важный момент: все дело в масштабе. По мере того, как мы создаем более крупные нейронные сети и обучаем их все большему количеству данных, их производительность продолжает расти. Как правило, это отличается от других методов машинного обучения, которые достигают плато в производительности.
для большинства разновидностей алгоритмов обучения старых поколений… производительность будет стабильной. … глубокое обучение … это первый класс алгоритмов … масштабируемых. … производительность становится все лучше по мере того, как вы предоставляете им больше данных
Он показывает это на своих слайдах:
Почему глубокое обучение?
Слайд: Эндрю Нг, все права защищены.
Наконец, он ясно указывает на то, что преимущества глубокого обучения, которые мы видим на практике, связаны с контролируемым обучением. Из доклада ExtractConf 2015 года он прокомментировал:
почти вся ценность глубокого обучения сегодня заключается в обучении с учителем или обучении на размеченных данных
Ранее в 2014 году в Стэнфордском университете на тему "Глубокое обучение" он сделал аналогичный комментарий:
одна из причин, по которой глубокое обучение стало безумно популярным, заключается в том, что оно великолепно подходит для контролируемого обучения
Эндрю часто упоминает, что мы должны и будем видеть больше преимуществ, связанных с неконтролируемой частью треков, по мере того, как поле становится более зрелым, чтобы справляться с обилием доступных неразмеченных данных.
Джефф Дин — волшебник и старший научный сотрудник Google в группе систем и инфраструктуры Google. Он участвовал и, возможно, частично отвечал за масштабирование и внедрение глубокого обучения в Google. Джефф участвовал в проекте Google Brain и разработке крупномасштабного программного обеспечения для глубокого обучения DistBelief, а затем и TensorFlow.
В 2016 году в докладе под названием "Глубокое обучение для создания интеллектуальных компьютерных систем" он сделал комментарий в том же ключе, что глубокое обучение на самом деле связано с большими нейронными сетями.
Когда вы слышите термин «глубокое обучение», просто подумайте о большой глубокой нейронной сети. Глубокий обычно относится к количеству слоев, поэтому этот популярный термин был принят в прессе. Я думаю о них как о глубоких нейронных сетях в целом.
Он выступал с этим докладом несколько раз, а в измененном наборе слайдов для того же доклада он подчеркивает масштабируемость нейронных сетей, указывая на то, что результаты становятся лучше с большим объемом данных и более крупными моделями, которые, в свою очередь, требуют больше вычислений для поезд.
Результаты становятся лучше благодаря большему объему данных, более крупным моделям, большему объему вычислений
Слайд Джеффа Дина, все права защищены.
Глубокое обучение — это иерархическое функциональное обучение
Помимо масштабируемости, еще одним часто упоминаемым преимуществом моделей глубокого обучения является их способность выполнять автоматическое извлечение признаков из необработанных данных, что также называется изучением признаков.
Йошуа Бенжио – еще один лидер в области глубокого обучения, хотя он начал с большого интереса к автоматическому обучению признаков, которого могут достичь большие нейронные сети.
Он описывает глубокое обучение с точки зрения способности алгоритмов обнаруживать и изучать хорошие представления с помощью обучения признакам. В своей статье 2012 года под названием «Глубокое изучение представлений для обучения без учителя и передачи» он прокомментировал:
Алгоритмы глубокого обучения стремятся использовать неизвестную структуру во входном распределении, чтобы обнаружить хорошие представления, часто на нескольких уровнях, с изученными функциями более высокого уровня, определенными с точки зрения функций более низкого уровня
< /цитата>Подробный взгляд на глубокое обучение в этом направлении представлен в его техническом отчете за 2009 год под названием "Изучение глубоких архитектур для ИИ", где он подчеркивает важность иерархии в изучении функций.
Методы глубокого обучения нацелены на изучение иерархий функций с функциями из более высоких уровней иерархии, образованных композицией функций более низкого уровня. Автоматическое изучение функций на нескольких уровнях абстракции позволяет системе изучать сложные функции, преобразующие входные данные в выходные данные, непосредственно из данных, не полагаясь полностью на функции, созданные человеком.
В готовящейся к публикации книге под названием "Глубокое обучение", написанной в соавторстве с Яном Гудфеллоу и Аароном Курвиллем, они определяют глубокое обучение с точки зрения глубины архитектуры моделей.
Иерархия понятий позволяет компьютеру изучать сложные понятия, строя их из более простых. Если мы нарисуем график, показывающий, как эти концепции строятся друг над другом, то график будет глубоким, со многими слоями. По этой причине мы называем такой подход к глубокому обучению ИИ.
Это важная книга, которая, вероятно, на какое-то время станет исчерпывающим источником знаний в этой области. Далее в книге многослойные персептроны описываются как алгоритм, используемый в области глубокого обучения, что дает представление о том, что глубокое обучение включает в себя искусственные нейронные сети.
Важнейшим примером модели глубокого обучения является глубокая сеть с прямой связью или многослойный персептрон (MLP).
Питер Норвиг — директор по исследованиям в Google. Он известен своим учебником по искусственному интеллекту под названием "Искусственный интеллект: современный подход".
В 2016 году он выступил с докладом под названием "Глубокое обучение и понятность в сравнении с программной инженерией и проверкой". >
вид обучения, при котором представление, которое вы формируете, имеет несколько уровней абстракции, а не прямой ввод для вывода
Почему это называется «Глубокое обучение»?
Почему бы не просто «искусственные нейронные сети»?Джеффри Хинтон – пионер в области искусственных нейронных сетей. Он стал соавтором первой статьи об алгоритме обратного распространения ошибки для обучения многослойных персептронных сетей.
Возможно, он начал использовать фразу «deep» для описания разработки больших искусственных нейронных сетей.
В 2006 году он стал соавтором статьи под названием «Алгоритм быстрого обучения для сетей с глубоким доверием», в которой описывается подход к обучению «глубоких» (как в многоуровневой сети) ограниченных машин Больцмана.
Используя комплементарные априорные предположения, мы получаем быстрый жадный алгоритм, который может изучать глубокие направленные сети убеждений по одному слою за раз, при условии, что два верхних слоя формируют ненаправленную ассоциативную память.
Эта статья и связанная с ней статья, написанная Джеффом в соавторстве, под названием «Глубокие машины Больцмана» о ненаправленной глубокой сети, были хорошо восприняты сообществом (теперь цитируются сотни раз), потому что они были успешными примерами жадного послойного обучения сетей, что позволяет использовать гораздо больше уровней в сетях прямой связи.
В соавторской статье в журнале Science под названием «Уменьшение размерности данных с помощью нейронных сетей» они придерживались того же определения «глубокий», чтобы описать свой подход к разработке сетей с гораздо большим количеством слоев, чем это было раньше. р>
Мы описываем эффективный способ инициализации весов, который позволяет глубоким сетям автоэнкодера изучать низкоразмерные коды, которые работают намного лучше, чем анализ основных компонентов, как инструмент для уменьшения размерности данных.
цитата>В той же статье они делают интересный комментарий, который перекликается с комментарием Эндрю Нг о недавнем увеличении вычислительной мощности и доступа к большим наборам данных, что высвободило неиспользованные возможности нейронных сетей при использовании в больших масштабах.
С 1980-х годов было очевидно, что обратное распространение через глубокие автоэнкодеры будет очень эффективным для нелинейного уменьшения размерности при условии, что компьютеры достаточно быстры, наборы данных достаточно велики, а начальные веса достаточно близки к хорошему. решение. Теперь все три условия выполнены.
В своем выступлении перед Королевским обществом в 2016 году под названием "Глубокое обучение" Джефф отметил, что сети глубокого убеждения положили начало глубокому обучению в 2006 году и что первым успешным применением этой новой волны глубокого обучения стало распознавание речи в 2009 г. под названием «Акустическое моделирование с использованием сетей Deep Belief Networks», достижение самых современных результатов.
Именно результаты привлекли внимание сообщества специалистов по распознаванию речи и нейронных сетей, а использование термина «глубокий» в качестве отличительного признака от предыдущих методов нейронных сетей, вероятно, привело к изменению названия.
Описания глубокого обучения в докладе Королевского общества во многом ориентированы на обратное распространение, как и следовало ожидать. Интересно, что он приводит 4 причины, по которым обратное распространение (читай «глубокое обучение») не получило распространения в последний раз примерно в 1990-х годах. Первые два пункта соответствуют комментариям Эндрю Нг выше о том, что наборы данных слишком малы, а компьютеры слишком медленны.
Что на самом деле было не так с обратным распространением в 1986 году?
Слайд Джеффа Хинтона, все права защищены.Глубокое обучение как масштабируемое обучение в разных предметных областях
Глубокое обучение превосходно работает в проблемных областях, где входные данные (и даже выходные данные) являются аналоговыми. Это означает, что это не несколько величин в табличном формате, а изображения пиксельных данных, документы текстовых данных или файлы аудиоданных.
Ян ЛеКун (Yann LeCun) — директор исследовательского отдела Facebook и основатель сетевой архитектуры, отличающейся превосходным распознаванием объектов в графических данных, которая называется сверточной нейронной сетью (CNN). Этот метод пользуется большим успехом, потому что, как и многослойные персептронные нейронные сети с прямой связью, он масштабируется с данными и размером модели и может обучаться с помощью обратного распространения ошибки.
Это искажает его определение глубокого обучения как развития очень больших CNN, которые добились больших успехов в распознавании объектов на фотографиях.
В своем выступлении в 2016 году в Ливерморской национальной лаборатории Лоуренса под названием «Ускорение понимания: глубокое обучение, интеллектуальные приложения и графические процессоры» он описал глубокое обучение в целом как изучение иерархических представлений и определил его как масштабируемый подход к созданию систем распознавания объектов: р>
глубокое обучение [является] … конвейером модулей, каждый из которых поддается обучению. … глубокий, потому что [имеет] несколько этапов в процессе распознавания объекта, и все эти этапы являются частью обучения»
Глубокое обучение = изучение иерархических представлений
Слайд Ян ЛеКун, все права защищены.Юрген Шмидхубер является отцом другого популярного алгоритма, который, как и MLP и CNN, также масштабируется в зависимости от размера модели и размера набора данных и может обучаться с помощью обратного распространения ошибки, но вместо этого предназначен для изучения данных последовательности, который называется Long Short-Term Memory Network (Long Short-Term Memory Network). LSTM), тип рекуррентной нейронной сети.
Мы видим некоторую путаницу в формулировке области как «глубокое обучение». В своей статье 2014 года под названием «Глубокое обучение в нейронных сетях: обзор» он комментирует проблемное название области и различие между глубоким и поверхностным обучением. Он также интересно описывает глубину с точки зрения сложности проблемы, а не модели, используемой для решения проблемы.
На какой глубине задачи заканчивается поверхностное обучение и начинается глубокое?Обсуждения со специалистами DL пока не дали однозначного ответа на этот вопрос. […], позвольте мне уточнить для целей этого обзора: задачи глубины > 10 требуют очень глубокого обучения.
Демис Хассабис – основатель компании DeepMind, позже приобретенной Google. DeepMind совершила прорыв, объединив методы глубокого обучения с обучением с подкреплением для решения сложных проблем обучения, таких как игры, что хорошо продемонстрировано в играх Atari и игре Go with Alpha Go.
В соответствии с названием они назвали свою новую технику Deep Q-Network, сочетающей Deep Learning с Q-Learning. Они также называют более широкую область исследования «Глубокое обучение с подкреплением».
В своей научной статье 2015 года под названием "Управление на уровне человека с помощью глубокого обучения с подкреплением" они комментируют важную роль глубоких нейронных сетей в их прорыве и подчеркивают необходимость иерархической абстракции.
Для этого мы разработали новый агент, глубокую Q-сеть (DQN), которая способна сочетать обучение с подкреплением с классом искусственных нейронных сетей, известных как глубокие нейронные сети. Примечательно, что недавние достижения в области глубоких нейронных сетей, в которых несколько слоев узлов используются для создания все более абстрактных представлений данных, позволили искусственным нейронным сетям изучать такие понятия, как категории объектов, непосредственно из необработанных сенсорных данных. /p>цитата>
Наконец, Янн ЛеКун, Йошуа Бенжио и Джеффри Хинтон в статье, которую можно считать определяющей в этой области, опубликовали статью в журнале Nature, озаглавленную просто «Глубокое обучение». В нем они начинаются с четкого определения глубокого обучения, подчеркивая многоуровневый подход.
Глубокое обучение позволяет вычислительным моделям, состоящим из нескольких уровней обработки, изучать представления данных с несколькими уровнями абстракции.
Позже многоуровневый подход описывается с точки зрения изучения представления и абстракции.
Методы глубокого обучения — это методы обучения представлению с несколькими уровнями представления, полученные путем составления простых, но нелинейных модулей, каждый из которых преобразует представление на одном уровне (начиная с необработанных входных данных) в представление на более высокий, несколько более абстрактный уровень. […] Ключевым аспектом глубокого обучения является то, что эти уровни функций не разрабатываются инженерами-людьми: они изучаются из данных с использованием процедуры обучения общего назначения.
Это хорошее и общее описание, которое может легко описать большинство алгоритмов искусственных нейронных сетей. Это также хорошая заметка для завершения.
Обзор
В этом посте вы узнали, что глубокое обучение — это просто очень большие нейронные сети с гораздо большим объемом данных, требующие больших компьютеров.
- Многослойные сети персептрона.
- Сверточные нейронные сети.
- Рекуррентные нейронные сети с длительной кратковременной памятью.
Надеюсь, теперь стало понятно, что такое глубокое обучение и как основные определения сочетаются под одним зонтиком.
Если у вас есть какие-либо вопросы о глубоком обучении или об этом посте, задавайте их в комментариях ниже, и я сделаю все возможное, чтобы ответить на них.
Разрабатывайте проекты глубокого обучения с помощью Python!
Что, если бы вы могли разработать сеть за считанные минуты
<р>. всего несколькими строками PythonОн охватывает комплексные проекты по таким темам, как
Многослойные персептроны, Сверточные сети и Рекуррентные нейронные сети, и многое другое.Читайте также: