На каком языке обрабатывается информация на компьютере

Обновлено: 23.08.2025

Вычислительный анализ и понимание естественных языков: принципы, методы и приложения

Венкат Н. Гудивада, Камьяр Арбабифард, Справочник по статистике, 2018 г.

1 Введение

Обработка естественного языка (NLP) – это междисциплинарная область, связанная с пониманием естественных языков, а также с их использованием для обеспечения взаимодействия человека с компьютером. Естественные языки по своей природе сложны, и многие задачи НЛП не подходят для математически точных алгоритмических решений. С появлением больших данных основанные на данных подходы к задачам НЛП открыли новую парадигму, в которой сложность предметной области эффективно управляется за счет использования больших наборов данных для построения простых, но высококачественных моделей.

Основная цель этой главы — предоставить аннотированный список различных ресурсов для исследований НЛП и разработки приложений. Учитывая быстрый прогресс в этой области и междисциплинарный характер НЛП, это сложная задача. Кроме того, будут продолжать появляться новые наборы данных, программные библиотеки, платформы приложений и системы рабочих процессов. Тем не менее, мы ожидаем, что эта глава послужит отправной точкой для дальнейших исследований читателей с использованием концептуальной дорожной карты, представленной в этой главе.

Глава организована следующим образом: наборы корпусных данных обсуждаются в Разделе 2. В разделе 3 мы перечисляем наборы данных, которые необходимы для разработки статистических моделей и моделей машинного обучения для выполнения различных задач НЛП. Банки деревьев перечислены в Разделе 4, а программные библиотеки и фреймворки для машинного обучения представлены в Разделе 5. Инструменты НЛП для конкретных задач обсуждаются в разделе 7. Типичное приложение НЛП требует, чтобы основные задачи НЛП выполнялись в определенной последовательности. система рабочего процесса НЛП предоставляет единый интерфейс для объединения основных задач и их выполнения. Системы рабочих процессов НЛП обсуждаются в разделе 8. Раздел 9 завершает главу.

Новая вселенная данных

Криш Кришнан, Шон П. Роджерс, Social Data Analytics, 2015 г.

Обработка естественного языка

Обработка естественного языка (NLP) сочетает в себе лингвистику и искусственный интеллект (ИИ), чтобы компьютеры могли понимать входные данные, вводимые человеком или на естественном языке. Коммерческая ценность НЛП, вероятно, очевидна. Социальные данные часто представляют собой информацию, непосредственно созданную человеком, и эти данные неструктурированы по своей природе, что делает практически невозможным их использование с помощью стандартного SQL. НЛП может разобраться в неструктурированных данных, создаваемых источниками социальных данных, и помочь организовать их в более структурированную модель для поддержки запросов на основе SQL. НЛП открывает двери для сложного анализа социальных данных и поддерживает анализ текстовых данных и другие сложные аналитические функции.

Эти четыре функциональные области платформы являются ключевыми основами аналитических данных, которые большинству компаний необходимо использовать с их платформой анализа социальных данных. Оповещения, рабочие процессы, совместная работа, интеграция, интерфейсы прикладного программирования (API) и механизмы NLP — важные строительные блоки для мощных платформ, стремящихся удовлетворить потребности корпоративного класса.

Обработка естественного языка — это не бесплатный обед

Обработка естественного языка

Введение в когнитивные вычисления и их различные приложения

Обработка естественного языка

НЛП вносит свой вклад в когнитивные вычисления, осознавая, обрабатывая и моделируя человеческие выражения с точки зрения языка, выраженного в устной или письменной форме. В литературе (Aghav-Palwe & Mishra, 2017, 2020; Chen & Argentinis, 2016; Chen et al., 2017; Gupta et al., 2020; Orozco et al., 2010; Tian et al., 2016) описаны различные методы Предлагаются и реализуются НЛП: набор слов, тематическое моделирование и лемматизация. Различные модели для НЛП в области информатики в основном используются: конечные автоматы и автоматы, системы формальных правил, логика и теория вероятностей. Методы контролируемого машинного обучения, такие как линейная регрессия и классификация, оказались полезными для классификации текста и сопоставления его с семантикой.

Агент с вычислительным интеллектом для обнаружения фейковых новостей с использованием генеративно-состязательных сетей

Шринидхи Хирианная, . КГ. Шриниваса, гибридный вычислительный интеллект, 2020 г.

4.2.4.3 Обработка естественного языка

НЛП – это способность системы обрабатывать разговорную речь человека. Традиционно люди общаются с машинами с помощью языков программирования, которые точны и недвусмысленны, в отличие от естественного языка, который мы используем для общения друг с другом.

Текущие исследования НЛП в основном сосредоточены на поиске предприятий. Корпоративный поиск позволяет пользователям запрашивать наборы данных, задавая вопросы на понятном человеку языке. Задача машины — понять запрос так, как это сделал бы человек, и дать ответ.НЛП также можно использовать для интерпретации и анализа текста и извлечения из него полезной информации. Текстовые данные могут включать медицинские карты пациентов, речь президента и т. д.

Одним из основных вариантов использования НЛП является анализ настроений [19] . Анализ тональности помогает специалистам по обработке и анализу данных оценивать комментарии в социальных сетях, чтобы оценить общее отношение к бизнес-бренду, или анализировать заметки команд обслуживания клиентов, чтобы улучшить обслуживание в целом.

Модели НЛП используются в некоторых основных технологиях машинного перевода [20] . Модели помогают конвертировать текст с одного языка на другой.

Как же работать с НЛП? Текущие подходы в основном основаны на методах глубокого обучения, таких как RNN, LSTM и т. д. Основным препятствием для НЛП на основе глубокого обучения является доступность данных. Модели глубокого обучения требуют больших наборов данных для работы и хорошего обобщения.

Прежние подходы к НЛП в основном основывались на правилах. Подходы, основанные на правилах, в основном включали алгоритмы со строгими правилами для поиска определенных фраз и последовательностей и выполнения операций на основе этих правил. Это делает его очень жестким и менее устойчивым к изменениям в нюансах языка, а также требует большого ручного вмешательства. Методы глубокого обучения обеспечивают более гибкий подход и позволяют модели учиться на примерах.

Есть много неясных элементов, которые появляются в человеческом языке. Например, рассмотрим утверждение «Страхование облачных вычислений должно быть частью каждого соглашения об уровне обслуживания (SLA). Хороший SLA обеспечивает более легкий ночной сон — даже в облаке», слово «облако» относится к облачным вычислениям, а SLA означает соглашение об уровне обслуживания. С помощью методов глубокого обучения мы можем эффективно обучать модели, способные идентифицировать такие элементы.

Одним из основных преимуществ усовершенствований НЛП являются типы данных, которые можно анализировать. Многие данные, которые генерируются изо дня в день, представляют собой данные на естественном языке. Достижения в НЛП позволяют использовать эти данные и учиться на них.

Идентификация и проверка цели

Что такое обработка естественного языка

Обработка естественного языка (NLP) в конечном счете заключается в быстром доступе к информации и поиске нужных частей информации. Он отличается от интеллектуального анализа текста тем, что если у вас есть большой фрагмент текста, при интеллектуальном анализе текста вы можете искать определенное место, например Лондон. При анализе текста вы сможете извлечь все примеры Лондона, упомянутые в документе. С помощью NLP вместо поиска слова «Лондон» вы можете попросить его вернуть все упоминания о месте или задать разумные вопросы, например, где живет человек или какие английские города упоминаются в документе. Он также принимает во внимание окружающую информацию. Подводя итог, можно сказать, что обработка естественного языка связана с обработкой взаимодействия между исходными данными, компьютерами и людьми.

Когнитивные вычисления: теория и приложения

С. Джотилакшми, В.Н. Гудивада, Статистический справочник, 2016 г.

Аннотация

Обработка естественного языка (NLP) — это междисциплинарная область, целью которой является анализ и понимание человеческого языка. Естественные языки используются в двух формах: письменной и устной. Текст и речь являются носителями письменного и устного языков соответственно. Синергетическое слияние достижений в области обработки сигналов, машинного обучения, когнитивных вычислений и больших данных привело к появлению крупномасштабных подходов, основанных на данных, к исследованиям и приложениям речи. В этой главе представлено вводное руководство по основным задачам обработки речи, обзор последних крупномасштабных подходов к решению проблем в разговорных языках, основанных на данных, описаны текущие тенденции в исследованиях речи и указаны направления будущих исследований.

Предисловие Зиде Ду

Обработка естественного языка направлена на решение проблемы понимания и создания естественного языка. Естественный язык — это жемчужина в короне искусственного интеллекта. Это одна из самых важных способностей компьютеров, но также и сложное направление для изучения. Каждый человеческий язык имеет свою собственную грамматику, но из-за различных стилей использования в сочетании с такими факторами, как диалекты и идиомы, результирующие формы языка имеют большое разнообразие. Эти вариации обычно не сильно мешают общению между людьми, но компьютерам их очень трудно понять. Это связано с тем, что текущая компьютерная архитектура фон Неймана хорошо справляется с обработкой информации по четким правилам, но менее способна обрабатывать постоянно меняющиеся формы информации.

Знание коммуникаций

5.5.2.1 Основные принципы обработки естественного языка

НЛП решает проблемы формальных теорий лингвистических знаний, а прикладное НЛП фокусируется на практических результатах моделирования человеческого языка с целью создания программного обеспечения, обеспечивающего улучшенное взаимодействие человека и машины.Исследователи НЛП исследуют, помимо прочего, следующие темы:

Понимание NL включает преобразование человеческого языка, либо входной речи (акустика/фонология), либо введенных пользователем письменных слов ( рис. 5.18 , слева направо).

Генерация NL включает преобразование естественного языка из внутреннего компьютерного представления либо в письменный текст, либо в произнесенный звук (рис. 5.18, справа налево). Этот процесс часто разбивается на три операции: планирование текста (макропланирование текстового содержания), планирование предложений (микропланирование организации на уровне предложений) и реализация предложений (грамматическая передача в линейной сентенциональной форме).

Речь и акустический ввод начинаются с понимания акустического звука (см. рис. 5.18, левое поле). Это включает в себя фонологию (то, как звуки функционируют в данном языке) и морфологию (изучение структуры словоформ), которые решают проблемы извлечения слова из произнесенного звука или диалог.

Машинный перевод включает в себя перевод текста с одного языка на другой.

Обобщение текста включает в себя создание резюме текстов, которое включает основную информацию в тексте (текстах) с учетом интересов читателей.

Ответы на вопросы включают в себя ответы на запросы пользователей, начиная от простого факта (одно слово или фраза) и заканчивая сложными ответами (включая историю, мнение и т. д.).

Анализ дискурса включает преобразование человеческого текста в рамках дискурса во внутреннее машинное представление, более подробно обсуждаемое в разделе 5.6.4.

НЛП обычно фокусируется на понимании или создании естественного языка на нескольких уровнях: синтаксис (структура слов), семантика (значение групп слов), прагматика (намерение групп слов) и диалог (обмен группами слов между людьми). При создании языка преподаватели создают фразы, предложения или диалоги. Они могут получить команду на выполнение некоторого коммуникативного акта (прагматика) или создать структуру, фиксирующую предложное содержание высказывания (семантика), порождающую синтаксическую структуру, текст или звук. Пять фаз НЛП, представленные на рис. 5.18, представляют собой удобную метафору для вычислительных шагов обработки языка, основанного на знаниях (семантическая фаза интерпретирует предложения учащегося, а прагматическая фаза интерпретирует предложения учащегося). намерение ученика). Однако они не соответствуют непосредственно этапам обработки. На самом деле многие фазы функционируют одновременно или итеративно и имеют двойные аспекты в зависимости от того, понимает ли система естественный язык или генерирует его. В любом случае постулируются различные представления внутренней структуры данных, и системы ЕЯ обычно реализуют отображения от представлений на одном уровне к представлениям на другом. Репетитор, который управляет диалогом со смешанной инициативой, будет понимать входную речь/текст учащихся и генерировать язык. Он может хранить весь речевой ввод и создавать структуру данных фонем.

Синтаксис, семантика и прагматика влияют на правильность предложений, как понятых, так и сгенерированных, как показывают предложения на рис. 5.19.

Рисунок 5.19. Примеры предложений, в которых исследуется роль синтаксиса, семантики и прагматики.

Предложение A структурно правильное и соответствует намерению говорящего. Слушатель (человек или компьютер) легко поймет это предложение.

Предложение B неправильно сформировано с практической точки зрения. Это не способствует намерению говорящего. Прагматика рассматривает роль высказывания в более широком контексте дискурса.

Предложение C семантически неправильно сформировано, исходя из знаний о мире и здравого смысла. Это не имеет смысла, и семантический процессор не примет это предложение.

Предложение D синтаксически неправильно сформировано. Это структурно неправильно, смысл неясен, и синтаксический процессор не примет это предложение.

IBM Watson

Обработка естественного языка (NLP)

Обработка естественного языка позволяет компьютерам взаимодействовать с человеческим (естественным) языком и понимать его. Эта область исследований направлена на то, чтобы дать компьютерам возможность воспринимать входные данные на естественном языке и извлекать из них смысл. Хотя исследования НЛП ведутся с 1950-х годов, недавние исследования позволили создать алгоритмы, которые позволяют Watson анализировать естественный язык и понимать вопросы очень полным и точным образом.

Часто Watson использует контекст конкретных данных для обработки естественного языка при определении его значения. В случае с Jeopardy! категория данной подсказки служила контекстом для определения наиболее вероятных ответов. Например, если категорией была география, а вопрос касался населения, Watson мог бы собрать данные из соответствующих статей Википедии, чтобы сузить выбор ответов до местоположений.Анализируя данные в этом контексте, ответы Watson на сложные вопросы могут стать гораздо более точными, чем в противном случае.

В опасности! конкурса, быстрая обработка естественного языка в сочетании с быстрой обработкой значительного объема данных продемонстрировала возможности новой платформы. С тех пор BM добавила в Watson еще несколько сервисов, в том числе анализ тонов, обработку изображений и анализ возможных компромиссов. Категории сервисов, которые теперь доступны разработчикам приложений, будут обсуждаться в разделе «Интерфейсы прикладного программирования (API)».

Тем не менее, версия Watson для Jeopardy (Jeopardy Watson) имела некоторые особенности, характерные для соревнования Jeopardy. Например, Уотсону была дана отдельная процедура, специально предназначенная для быстрого определения вопроса Daily Double и размещения оптимальной ставки. Еще одной особенностью был электронный «палец» для нажатия на зуммер. Оппоненты-люди могут получить преимущество, предвидя свой ответ и нажимая зуммер, прежде чем сформулировать свой ответ. Jeopardy Watson не мог этого сделать, но у него был сверхбыстрый электронный палец, чтобы жужжать, как только он пришел к выводу.

Чтобы прочитать весь вопрос, в среднем требуется около 6–7 секунд, что эквивалентно минимальному времени обработки, необходимому оппоненту-человеку для поиска собственных знаний. Более сложные вопросы, конечно, требуют больше времени, и иногда противники-люди опережают Уотсона, а иногда нет. Jeopardy Watson был построен на базе самой быстрой технологии массивно-параллельных процессоров IBM (MPP), способной обрабатывать около 500 ГБ/с, что примерно соответствует миллиону книг в секунду. Кроме того, во время практики база знаний хранилась на диске, а во время соревнований вся база знаний находилась в оперативной памяти, чтобы сделать ее такой же быстрой, как и у конкурентов-людей. Современные приложения Watson на несколько порядков мощнее и дешевле.

Компьютер использует аппаратное и программное обеспечение для следующих четырех функций, позволяющих ему обрабатывать данные.

Ввод

Прежде чем компьютер сможет что-либо обработать, данные должны быть введены. Например, ввод текста на клавиатуре может вводить данные в компьютер.

Когда вы вводите информацию в компьютер, на самом низком уровне компьютер понимает только двоичный язык (0 и 1). Дополнительную информацию о том, как работает двоичный код, см. на наших страницах о двоичном и машинном языках.

Процесс

После того, как компьютер получил входные данные, программа обрабатывает эту информацию. Типичная программа может вычислять, обрабатывать или систематизировать данные для создания информации, понятной и представляемой пользователю.

Вывод

После того, как данные преобразованы в информацию, они отображаются как выходные данные для пользователя. Например, программа отображает информацию на вашем мониторе, когда вы используете калькулятор Windows.

Хранилище

Наконец, компьютер может хранить созданную информацию для последующего использования.

Реальный пример обработки данных

В качестве реального примера обработки данных в информацию представьте себе следующий сценарий. Вы открываете программу для работы с электронными таблицами на своем компьютере и вводите данные «1,25» в первую ячейку. Изначально компьютер понимает эти данные только как число с плавающей запятой 1,25. Используя программу для работы с электронными таблицами, вы можете указать данные, которые должны быть отформатированы как валюта, чтобы компьютер воспринимал их как «1,25 доллара США» (один доллар и двадцать пять центов).

Вы можете ввести данные "0,75" в другую ячейку и снова отформатировать их как валюту ("0,75 доллара США"). Затем вы можете ввести формулу в третью ячейку, которая суммирует значения информации из первых двух ячеек. Эта формула вернет новую информацию «2,00 доллара США». Или формула может преобразовать сумму в другую денежную единицу. Например, если один доллар стоит 0,89 евро, формула может преобразовать "2,00 доллара" в новую информацию "1,77 евро".

После обработки всех данных программа для работы с электронными таблицами может сохранить (сохранить) файл, что позволит снова открыть его для добавления дополнительных данных.

Несмотря на то, что были приложены все усилия для соблюдения правил стиля цитирования, могут быть некоторые расхождения. Если у вас есть какие-либо вопросы, обратитесь к соответствующему руководству по стилю или другим источникам.

Наши редакторы рассмотрят то, что вы отправили, и решат, нужно ли пересматривать статью.

обработка информации, получение, запись, организация, поиск, отображение и распространение информации. В последние годы этот термин часто применялся конкретно к компьютерным операциям.

В популярном использовании термин информация относится к фактам и мнениям, предоставленным и полученным в ходе повседневной жизни: человек получает информацию непосредственно от других живых существ, из средств массовой информации, из электронных банков данных, и от всевозможных наблюдаемых явлений в окружающей среде. Человек, использующий такие факты и мнения, генерирует больше информации, часть которой сообщается другим в ходе дискурса, в инструкциях, в письмах и документах, а также через другие средства массовой информации. Информация, организованная в соответствии с некоторыми логическими отношениями, называется совокупностью знаний, которые должны быть получены путем систематического воздействия или изучения. Применение знаний (или навыков) дает опыт, а дополнительные аналитические или эмпирические идеи, как говорят, представляют собой примеры мудрости. Использование термина информация не ограничивается исключительно ее передачей посредством естественного языка. Информация также регистрируется и передается с помощью искусства, мимики и жестов или таких других физических реакций, как дрожь. Более того, каждое живое существо наделено информацией в виде генетического кода. Эти информационные явления пронизывают физический и ментальный мир, и их разнообразие таково, что до сих пор бросало вызов всем попыткам единого определения информации.

Интерес к информационным явлениям резко возрос в 20 веке, и сегодня они являются объектами изучения в ряде дисциплин, включая философию, физику, биологию, лингвистику, информатику и информатику, электронную и коммуникационную инженерию, науку об управлении, и социальные науки. С коммерческой точки зрения индустрия информационных услуг стала одной из самых новых отраслей во всем мире. Почти все остальные отрасли — производство и обслуживание — все больше озабочены информацией и ее обработкой. Различные, хотя и часто пересекающиеся, точки зрения и явления в этих областях приводят к различным (а иногда и противоречивым) концепциям и «определениям» информации.

В этой статье затрагиваются такие понятия, связанные с обработкой информации. Рассматривая основные элементы обработки информации, он различает информацию в аналоговой и цифровой форме и описывает ее получение, запись, организацию, поиск, отображение и методы распространения. Отдельная статья, информационная система, посвящена методам организационного контроля и распространения информации.

Общие соображения

Основные понятия

Интерес к тому, как передается информация и как ее носители передают смысл, со времен досократических философов занимал область исследования, называемую семиотикой, изучением знаков и знаковых явлений. Знаки являются нередуцируемыми элементами коммуникации и носителями смысла. Американскому философу, математику и физику Чарльзу С. Пирсу приписывают указание на три измерения знаков, которые связаны соответственно с телом или средой знака, объектом, который знак обозначает, и интерпретантом или интерпретантом. толкование знака. Пирс признал, что фундаментальные отношения информации по существу триадны; напротив, все отношения физических наук сводятся к диадическим (бинарным) отношениям. Другой американский философ, Чарльз У. Моррис, назвал эти три знаковых измерения синтаксическим, семантическим и прагматическим — имена, под которыми они известны сегодня.

Информационные процессы выполняются информационными процессорами. Для данного информационного процессора, физического или биологического, токен — это объект, лишенный смысла, который процессор распознает как полностью отличный от других токенов. Группа таких уникальных токенов, распознаваемых процессором, составляет его основной «алфавит»; например, точка, тире и пробел составляют основной алфавит символов процессора азбуки Морзе. Объекты, несущие значение, представлены наборами токенов, называемых символами. Последние объединяются для формирования символьных выражений, которые являются входными данными или выходными данными информационных процессов и хранятся в памяти процессора.

Информационные процессоры — это компоненты информационной системы, представляющей собой класс конструкций. Абстрактная модель информационной системы включает четыре основных элемента: процессор, память, рецептор и эффектор (рис. 1). У процессора есть несколько функций: (1) выполнять элементарные информационные процессы над символьными выражениями, (2) временно хранить в кратковременной памяти процессора входные и выходные выражения, над которыми работают эти процессы и которые они генерируют, (3) планировать выполнение этих процессов и (4) изменять эту последовательность операций в соответствии с содержимым кратковременной памяти. В памяти хранятся символьные выражения, в том числе те, которые представляют составные информационные процессы, называемые программами.Два других компонента, рецептор и эффектор, представляют собой механизмы ввода и вывода, функции которых заключаются, соответственно, в получении символических выражений или стимулов из внешней среды для обработки процессором и в передаче обработанных структур обратно в окружающую среду.

Мощность этой абстрактной модели системы обработки информации обеспечивается способностью составляющих ее процессоров выполнять небольшое количество элементарных информационных процессов: чтение; сравнение; создание, изменение и наименование; копирование; хранение; и писать. Модель, представляющая широкий спектр таких систем, оказалась полезной для объяснения искусственных информационных систем, реализованных на последовательных информационных процессорах.

Поскольку было признано, что в природе информационные процессы не являются строго последовательными, с 1980 года все большее внимание уделяется изучению человеческого мозга как информационного процессора параллельного типа. Когнитивные науки, междисциплинарная область, занимающаяся изучением человеческого разума, внесли свой вклад в развитие нейрокомпьютеров, нового класса параллельных процессоров с распределенной информацией, которые имитируют функционирование человеческого мозга, включая его возможности самоконтроля. организация и обучение. Так называемые нейронные сети, представляющие собой математические модели, вдохновленные сетью нейронных цепей человеческого мозга, все чаще находят применение в таких областях, как распознавание образов, управление производственными процессами и финансами, а также во многих исследовательских дисциплинах.

Информация как ресурс и товар

В конце 20 века информация приобрела два основных утилитарных значения. С одной стороны, он считается экономическим ресурсом, наравне с другими ресурсами, такими как труд, материал и капитал. Эта точка зрения основана на доказательствах того, что обладание информацией, ее манипулирование и использование могут повысить рентабельность многих физических и когнитивных процессов. Рост активности обработки информации в промышленном производстве, а также в решении человеческих проблем был замечательным. Анализ одного из трех традиционных секторов экономики, сферы услуг, показывает резкий рост информационно-емкой деятельности с начала 20 века. К 1975 году на эти виды деятельности приходилось половина рабочей силы Соединенных Штатов.

Как индивидуальный и общественный ресурс, информация имеет некоторые интересные характеристики, которые отличают ее от традиционных представлений об экономических ресурсах. В отличие от других ресурсов, информация обширна, и ее ограничения, по-видимому, накладываются только временем и когнитивными способностями человека. Его экспансивность объясняется следующим: (1) он естественным образом распространяется, (2) он воспроизводится, а не потребляется посредством использования, и (3) им можно только делиться, а не обмениваться в транзакциях. В то же время информация сжимаема как синтаксически, так и семантически. В сочетании с его способностью заменять другие экономические ресурсы, его транспортабельностью на очень высоких скоростях и его способностью давать преимущества обладателю информации, эти характеристики лежат в основе таких социальных отраслей, как исследования, образование, издательское дело, маркетинг, и даже политика. Забота общества об экономии информационных ресурсов вышла за пределы традиционной области библиотек и архивов и теперь охватывает организационную, институциональную и государственную информацию под эгидой управления информационными ресурсами.

Второе восприятие информации заключается в том, что это экономический товар, который помогает стимулировать мировой рост нового сегмента национальной экономики — сектора информационных услуг. Используя свойства информации и опираясь на восприятие ее индивидуальной и общественной полезности и ценности, этот сектор предоставляет широкий спектр информационных продуктов и услуг. К 1992 году рыночная доля сектора информационных услуг США выросла примерно до 25 миллиардов долларов. Это было эквивалентно примерно одной седьмой компьютерного рынка страны, который, в свою очередь, составлял примерно 40 процентов мирового рынка компьютеров в том году. Однако возможная конвергенция компьютеров и телевидения (рыночная доля которых в 100 раз превышает долю компьютеров) и ее влияние на информационные услуги, развлечения и образование, скорее всего, изменят структуру соответствующих рыночных долей информационной индустрии.

Обработка естественного языка направлена на создание машин, которые понимают и реагируют на текстовые или голосовые данные, а также реагируют собственным текстом или речью почти так же, как люди.

Что такое обработка естественного языка?

Обработка естественного языка (NLP) относится к области компьютерных наук, а точнее к области искусственного интеллекта или ИИ, связанной с предоставлением компьютерам возможности понимать текст и произносимые слова почти так же, как люди.

НЛП объединяет вычислительную лингвистику — моделирование человеческого языка на основе правил — со статистическими моделями, машинным обучением и моделями глубокого обучения. Вместе эти технологии позволяют компьютерам обрабатывать человеческий язык в виде текстовых или голосовых данных и «понимать» его полное значение, включая намерения и чувства говорящего или пишущего.

НЛП управляет компьютерными программами, которые переводят текст с одного языка на другой, реагируют на голосовые команды и быстро обобщают большие объемы текста — даже в режиме реального времени. Скорее всего, вы взаимодействовали с НЛП в виде голосовых систем GPS, цифровых помощников, программного обеспечения для диктовки речи в текст, чат-ботов для обслуживания клиентов и других потребительских удобств. Но NLP также играет все более важную роль в корпоративных решениях, помогающих упростить бизнес-операции, повысить производительность сотрудников и упростить критически важные бизнес-процессы.

Задания НЛП

Человеческий язык полон неоднозначностей, из-за чего невероятно сложно написать программное обеспечение, точно определяющее предполагаемое значение текстовых или голосовых данных. Омонимы, омофоны, сарказм, идиомы, метафоры, исключения из грамматики и использования, вариации в структуре предложений — это лишь некоторые из нарушений человеческого языка, на изучение которых у людей уходят годы, но программисты должны научить приложения, управляемые естественным языком, распознавать и с самого начала точно понять, будут ли эти приложения полезными.

Некоторые задачи НЛП разбивают человеческий текст и голосовые данные таким образом, чтобы помочь компьютеру разобраться в том, что он получает. Некоторые из этих задач включают следующее:

Распознавание речи, также называемое преобразованием речи в текст, представляет собой задачу надежного преобразования голосовых данных в текстовые данные. Распознавание речи требуется для любого приложения, которое следует голосовым командам или отвечает на голосовые вопросы. Что особенно затрудняет распознавание речи, так это то, как люди говорят: быстро, нечленораздельно, с разным ударением и интонацией, с разным акцентом и часто с неправильной грамматикой.
Тегирование части речи, также называемое грамматическим тегированием, представляет собой процесс определения части речи определенного слова или фрагмента текста на основе его использования и контекста. Часть речи определяет «сделать» как глагол в «Я могу сделать бумажный самолетик» и как существительное в «Какой марки автомобиля у тебя есть?»
Устранение многозначности слова — это выбор значения слова с несколькими значениями в процессе семантического анализа, который определяет слово, которое имеет наибольший смысл в данном контексте. Например, устранение неоднозначности смысла слова помогает отличить значение глагола "сделать" в словах "сделать оценку" (достичь) и "сделать ставку" (место).
Распознавание именованных объектов, или NEM, идентифицирует слова или фразы как полезные объекты. NEM определяет «Кентукки» как местоположение или «Фред» как мужское имя.
Разрешение по взаимной ссылке — это задача определить, относятся ли два слова к одному и тому же объекту и когда. Наиболее распространенным примером является определение лица или объекта, к которому относится определенное местоимение (например, «она» = «Мэри»), но это также может включать в себя определение метафоры или идиомы в тексте (например, пример, в котором « медведь не животное, а большой волосатый человек).
Анализ настроений пытается извлечь из текста субъективные качества — отношение, эмоции, сарказм, замешательство, подозрительность.
Создание естественного языка иногда называют противоположностью распознаванию речи или преобразованию речи в текст. это задача перевода структурированной информации на человеческий язык.

Инструменты и подходы НЛП

Python и набор инструментов для работы с естественными языками (NLTK)

Язык программирования Python предоставляет широкий спектр инструментов и библиотек для решения конкретных задач НЛП. Многие из них можно найти в Natural Language Toolkit, или NLTK, коллекции библиотек, программ и образовательных ресурсов с открытым исходным кодом для создания программ НЛП.

NLTK включает библиотеки для многих из перечисленных выше задач НЛП, а также библиотеки для подзадач, таких как синтаксический анализ предложений, сегментация слов, формирование корней и лемматизация (методы обрезки слов до их корней) и токенизация (для разбиения фраз, предложения, абзацы и отрывки в токены, помогающие компьютеру лучше понять текст). Он также включает библиотеки для реализации таких возможностей, как семантическое мышление, возможность делать логические выводы на основе фактов, извлеченных из текста.

Статистическое НЛП, машинное обучение и глубокое обучение

Самые ранние приложения НЛП представляли собой написанные вручную системы, основанные на правилах, которые могли выполнять определенные задачи НЛП, но не могли легко масштабироваться, чтобы справиться с кажущимся бесконечным потоком исключений или растущими объемами текстовых и голосовых данных.

Войдите в статистический NLP, который сочетает компьютерные алгоритмы с машинным обучением и моделями глубокого обучения для автоматического извлечения, классификации и маркировки элементов текстовых и голосовых данных, а затем присваивает статистическую вероятность каждому возможному значению этих элементов. Сегодня модели глубокого обучения и методы обучения, основанные на сверточных нейронных сетях (CNN) и рекуррентных нейронных сетях (RNN), позволяют системам НЛП «обучаться» в процессе работы и извлекать все более точный смысл из огромных объемов необработанного, неструктурированного и неразмеченного текста. и наборы голосовых данных.

Для более глубокого изучения нюансов между этими технологиями и их подходами к обучению см. раздел «Искусственный интеллект, машинное обучение, глубокое обучение и нейронные сети: в чем разница?»

Случаи использования НЛП

Обработка естественного языка является движущей силой искусственного интеллекта во многих современных реальных приложениях. Вот несколько примеров:

Обнаружение спама. Возможно, вы не считаете обнаружение спама решением NLP, но лучшие технологии обнаружения спама используют возможности классификации текста NLP для сканирования электронных писем на наличие языка, который часто указывает на спам или фишинг. Эти индикаторы могут включать чрезмерное использование финансовых терминов, характерную плохую грамматику, угрожающий язык, неуместную срочность, неправильно написанные названия компаний и многое другое. Обнаружение спама — одна из немногих проблем NLP, которые эксперты считают «почти решенными» (хотя вы можете возразить, что это не соответствует вашему опыту работы с электронной почтой).
Машинный перевод. Google Translate — это пример общедоступной технологии НЛП в действии. По-настоящему полезный машинный перевод включает в себя нечто большее, чем замену слов одного языка словами другого. Эффективный перевод должен точно отражать смысл и тон исходного языка и переводить их в текст с тем же значением и желаемым воздействием на выходной язык. Инструменты машинного перевода делают успехи в плане точности. Отличный способ протестировать любой инструмент машинного перевода — перевести текст на один язык, а затем вернуться к оригиналу. Часто цитируемый классический пример: не так давно при переводе «Дух хочет, но плоть слаба» с английского на русский и обратно давался «Водка хороша, но мясо тухлое». ». Сегодня результатом является «Дух желает, но плоть немощна», что не идеально, но в переводе с английского на русский внушает гораздо больше доверия.
Виртуальные агенты и чат-боты. Виртуальные агенты, такие как Siri от Apple и Alexa от Amazon, используют распознавание речи для распознавания шаблонов в голосовых командах и генерации естественного языка, чтобы реагировать соответствующим действием или полезными комментариями. Чат-боты выполняют ту же магию в ответ на введенный текст. Лучшие из них также учатся распознавать контекстуальные подсказки о человеческих запросах и использовать их для предоставления еще лучших ответов или вариантов с течением времени. Следующим улучшением для этих приложений является функция ответов на вопросы, возможность отвечать на наши вопросы — ожидаемые или нет — соответствующими и полезными ответами своими словами.
Анализ настроений в социальных сетях. НЛП стало важным бизнес-инструментом для выявления скрытых данных из каналов социальных сетей. Анализ настроений может анализировать язык, используемый в сообщениях, ответах, обзорах и т. д. в социальных сетях, чтобы определять отношение и эмоции, связанные с продуктами, рекламными акциями и событиями. Эту информацию компании могут использовать при разработке продуктов, рекламных кампаниях и т. д.
Обобщение текста. Обобщение текста использует методы НЛП для анализа огромных объемов цифрового текста и создания резюме и синопсисов для указателей, исследовательских баз данных или занятых читателей, у которых нет времени читать полный текст. Лучшие приложения для реферирования текста используют семантические рассуждения и генерацию естественного языка (NLG), чтобы добавить полезный контекст и выводы к рефератам.

Обработка естественного языка и IBM Watson

- Находите высококачественные ответы и богатые идеи из ваших сложных корпоративных документов — таблиц, PDF-файлов, больших данных и многого другого — с помощью поиска ИИ. Позвольте своим сотрудникам принимать более обоснованные решения и экономить время с помощью поисковой системы в реальном времени и возможностей анализа текста, которые выполняют извлечение текста и анализируют отношения и шаблоны, скрытые в неструктурированных данных. Watson Discovery использует настраиваемые модели NLP и методы машинного обучения, чтобы предоставить пользователям ИИ, который понимает уникальный язык их отрасли и бизнеса.Explore Watson Discovery (NLU) — анализируйте текст в форматах неструктурированных данных, включая HTML, веб-страницы, социальные сети и т. д. Улучшите свое понимание человеческого языка, используя этот набор инструментов естественного языка для определения понятий, ключевых слов, категорий, семантики и эмоций, а также для выполнения классификации текста, извлечения сущностей, распознавания именованных сущностей (NER), анализа тональности и суммирования. Изучите Watson Natural Language Understanding — улучшите качество обслуживания клиентов при одновременном снижении затрат. Watson Assistant — это чат-бот на основе искусственного интеллекта с простым в использовании визуальным конструктором, который позволяет развертывать виртуальных агентов по любому каналу за считанные минуты. Узнайте больше о Watson Assistant

Разработанный специально для медицинских и медико-биологических областей, IBM Watson Annotator for Clinical Data извлекает ключевые клинические понятия из текстов на естественном языке, таких как состояния, лекарства, аллергии и процедуры. Глубокие контекстуальные идеи и значения для ключевых клинических атрибутов позволяют получить более значимые данные. Потенциальные источники данных включают в себя клинические записи, выписки из больницы, протоколы клинических испытаний и литературные данные.

В основе когнитивной психологии лежит идея обработки информации.

Когнитивная психология рассматривает человека как обработчика информации, примерно так же, как компьютер получает информацию и следует программе для получения результата.

Основные предположения

Подход к обработке информации основан на ряде предположений, в том числе:

(1) информация, предоставляемая окружающей средой, обрабатывается рядом систем обработки (например, внимание, восприятие, кратковременная память);
(2) эти системы обработки преобразуют или изменяют информацию в систематическими способами;
(3) цель исследования — определить процессы и структуры, лежащие в основе когнитивных функций;
(4) обработка информации у людей похожа на обработку в компьютерах.

Компьютер — аналогия разума

Развитие компьютеров в 1950-х и 1960-х годах оказало важное влияние на психологию и отчасти стало причиной того, что когнитивный подход стал доминирующим подходом в современной психологии (заменив бихевиоризм).

Компьютер дал когнитивным психологам метафору или аналогию, с которой они могли сравнить мыслительную деятельность человека. Использование компьютера в качестве инструмента для понимания того, как человеческий разум обрабатывает информацию, известно как компьютерная аналогия.

По сути, компьютер кодирует (то есть изменяет) информацию, хранит информацию, использует информацию и производит вывод (извлекает информацию). Идея обработки информации была принята когнитивными психологами как модель того, как работает человеческое мышление.

Например, глаз получает визуальную информацию и кодирует информацию в электрическую нейронную активность, которая возвращается в мозг, где она «хранится» и «кодируется». Эта информация может использоваться другими частями мозга, связанными с умственной деятельностью, такой как память, восприятие и внимание. Результатом (т. е. поведением) может быть, например, чтение того, что вы видите на печатной странице.

Следовательно, подход к обработке информации характеризует мышление как среду, обеспечивающую ввод данных, которые затем преобразуются нашими органами чувств. Информацию можно хранить, извлекать и преобразовывать с помощью «ментальных программ», результатом чего являются поведенческие реакции.

Когнитивная психология повлияла и интегрировалась со многими другими подходами и областями исследований, чтобы создать, например, теорию социального обучения, когнитивную нейропсихологию и искусственный интеллект (ИИ).

Обработка информации и выборочное внимание

Когда мы выборочно обращаем внимание на одно действие, мы, как правило, игнорируем другие стимулы, хотя наше внимание может быть отвлечено чем-то другим, например телефонным звонком или кем-то, кто называет наше имя.

Психологов интересует, что заставляет нас обращать внимание на одно, а не на другое (избирательное внимание); почему мы иногда переключаем наше внимание на то, что раньше оставалось без внимания (например, синдром вечеринки с коктейлем), и на скольких вещах мы можем сосредоточиться одновременно (объем внимания).

Один из способов концептуализации внимания — представить людей как обработчиков информации, которые могут обрабатывать только ограниченный объем информации за раз, не перегружаясь.

Бродбент и другие в 1950-х годах приняли модель мозга как системы обработки информации с ограниченными возможностями, через которую передаются внешние входные данные.

Процессы ввода связаны с анализом стимулов.
Процессы хранения охватывают все, что происходит со стимулами внутри мозга, и могут включать кодирование и манипулирование стимулами.
Процессы вывода отвечают за подготовку соответствующей реакции на стимул.

Критическая оценка

В рамках концепции обработки информации был предложен ряд моделей внимания, в том числе:

Модель фильтра Бродбента (1958 г.), модель затухания Трейсмана (1964 г.) и модель позднего отбора Дойча и Дойча (1963 г.).

Однако при изучении этих моделей и подхода к обработке информации в целом следует учитывать ряд оценочных моментов. К ним относятся:

Последовательная обработка фактически означает, что один процесс должен быть завершен до начала следующего.
Параллельная обработка предполагает, что некоторые или все процессы, связанные с когнитивной задачей, происходят одновременно.

Эксперименты с двумя задачами показали, что возможна параллельная обработка. Трудно определить, обрабатывается ли конкретная задача последовательно или параллельно, так как это, вероятно, зависит (а) от процессов, необходимых для решения задачи, и (б) от количества практики выполнения задачи.

Параллельная обработка, вероятно, чаще используется, когда кто-то обладает высокой квалификацией; например, опытный машинист думает на несколько букв вперед, а новичок сосредотачивается только на одной букве за раз.

Компьютеры можно рассматривать как системы обработки информации, поскольку они:

(i) комбинировать представленную информацию с сохраненной информацией для решения различных проблем, и

НО -

(i) человеческий мозг способен к обширной параллельной обработке, а компьютеры часто полагаются на последовательную обработку;

Большинство лабораторных исследований являются искусственными, и можно сказать, что они не имеют экологической достоверности.

В повседневной жизни когнитивные процессы часто связаны с целью (например, вы уделяете внимание в классе, потому что хотите сдать экзамен), тогда как в лаборатории эксперименты проводятся изолированно от других когнитивных и мотивационных факторов.< /p>

Хотя эти лабораторные эксперименты легко интерпретировать, данные могут быть неприменимы к реальному миру за пределами лаборатории. Были предложены более современные экологически обоснованные подходы к познанию (например, Perceptual Cycle, Neisser, 1976).

Внимание в основном изучалось изолированно от других когнитивных процессов, хотя очевидно, что оно действует как взаимозависимая система со связанными когнитивными процессами восприятия и памяти.

Чем успешнее мы изучаем часть когнитивной системы изолированно, тем меньше наши данные говорят нам о когнитивных способностях в повседневной жизни.

Эти влияния известны как "нисходящие" или "концептуально управляемые" процессы. Например, прочтите треугольник ниже:

Ожидание (обработка «сверху вниз») часто замещает информацию, действительно имеющуюся в стимуле (снизу вверх), на который мы предположительно обращаем внимание. Как вы прочитали текст в треугольнике выше?

Ссылки на стиль APA

Бродбент, Д. (1958). Восприятие и общение. Лондон: Pergamon Press.

Дойч, Дж. А., и Дойч, Д. (1963). Внимание: некоторые теоретические соображения. Психологический обзор, 70, 80–90

Нейссер, У. (1967). Когнитивная психология. Нью-Йорк: Appleton-Century-Crofts.

Трейсман, А. (1964). Избирательное внимание у человека. Британский медицинский бюллетень, 20, 12–16.

Как ссылаться на эту статью:

Контент сайта Simply Psychology предназначен только для информационных и образовательных целей. Наш веб-сайт не предназначен для замены профессиональной медицинской консультации, диагностики или лечения.

Читайте также: