Для обработки текстовой информации на компьютере необходимо ее представить

Обновлено: 21.11.2024

Хотя обработка естественного языка не является новой наукой, эта технология быстро развивается благодаря повышенному интересу к общению между людьми, а также доступности больших данных, мощных вычислений и усовершенствованных алгоритмов.

Как человек, вы можете говорить и писать на английском, испанском или китайском языках. Но родной язык компьютера, известный как машинный код или машинный язык, по большей части непонятен большинству людей. На самых низких уровнях вашего устройства общение происходит не словами, а миллионами нулей и единиц, которые производят логические действия.

Действительно, программисты использовали перфокарты для связи с первыми компьютерами 70 лет назад. Этот ручной и трудный процесс был понят относительно небольшим числом людей. Теперь вы можете сказать: «Алекса, мне нравится эта песня», и устройство, воспроизводящее музыку в вашем доме, уменьшит громкость и ответит: «ОК. Рейтинг сохранен, — человеческим голосом. Затем он адаптирует свой алгоритм для воспроизведения этой песни и других подобных песен при следующем прослушивании этой музыкальной станции.

Давайте подробнее рассмотрим это взаимодействие. Ваше устройство активировалось, когда услышало, что вы говорите, поняло невысказанное намерение в комментарии, выполнило действие и предоставило ответ в правильно построенном предложении на английском языке, и все это в течение примерно пяти секунд. Полное взаимодействие стало возможным благодаря НЛП, наряду с другими элементами ИИ, такими как машинное обучение и глубокое обучение.

Усиление работы с населением и поддержка пациентов с ХОБЛ за счет обработки естественного языка и машинного обучения

Фонд COPD использует текстовую аналитику и анализ настроений, а также методы НЛП, чтобы превратить неструктурированные данные в ценную информацию. Эти результаты помогают предоставить медицинские ресурсы и эмоциональную поддержку пациентам и лицам, осуществляющим уход. Узнайте больше о том, как аналитика улучшает качество жизни людей с легочными заболеваниями.

Почему НЛП важно?

Большие объемы текстовых данных

Обработка естественного языка помогает компьютерам общаться с людьми на их родном языке и масштабировать другие задачи, связанные с языком. Например, NLP позволяет компьютерам читать текст, слышать речь, интерпретировать ее, измерять настроение и определять, какие части важны.

Сегодняшние машины могут анализировать больше языковых данных, чем люди, без усталости и последовательным, непредвзятым образом. Учитывая огромное количество неструктурированных данных, которые генерируются каждый день, от медицинских карт до социальных сетей, автоматизация будет иметь решающее значение для эффективного полного анализа текстовых и речевых данных.

Структурирование крайне неструктурированного источника данных

Человеческий язык поразительно сложен и разнообразен. Мы выражаем себя бесконечными способами, как устно, так и письменно. Мало того, что существуют сотни языков и диалектов, но в каждом языке есть уникальный набор грамматических и синтаксических правил, терминов и сленга. Когда мы пишем, мы часто допускаем ошибки или сокращаем слова или опускаем знаки препинания. Когда мы говорим, у нас есть местный акцент, мы бормочем, заикаемся и заимствуем термины из других языков.

Хотя контролируемое и неконтролируемое обучение, и особенно глубокое обучение, в настоящее время широко используются для моделирования человеческого языка, существует также потребность в синтаксическом и семантическом понимании и экспертных знаниях в предметной области, которые не обязательно присутствуют в этих подходах к машинному обучению. NLP важен, потому что он помогает устранять двусмысленность в языке и добавляет полезную числовую структуру к данным для многих последующих приложений, таких как распознавание речи или анализ текста.

Интеллектуальный анализ текста (также называемый текстовой аналитикой) – это технология искусственного интеллекта (ИИ), которая использует обработку естественного языка (NLP) для преобразования свободного (неструктурированного) текста в документах и ​​базах данных в нормализованный текст. , структурированные данные, подходящие для анализа или управления алгоритмами машинного обучения (ML).

В этом разделе нашего веб-сайта представлено введение в эти технологии и освещены некоторые функции, способствующие эффективному решению. Ниже также представлено краткое (90 секунд) видео об обработке естественного языка и интеллектуальном анализе текста.

Что такое интеллектуальный анализ текста?

Интеллектуальный анализ текста широко используется в организациях, ориентированных на знания, и представляет собой процесс изучения больших коллекций документов для обнаружения новой информации или помощи в ответах на конкретные исследовательские вопросы.

Интеллектуальный анализ текста выявляет факты, отношения и утверждения, которые в противном случае остались бы скрытыми в массе больших текстовых данных. После извлечения эта информация преобразуется в структурированную форму, которая может быть подвергнута дальнейшему анализу или представлена ​​непосредственно с использованием кластеризованных HTML-таблиц, карт памяти, диаграмм и т. д. Для обработки текста используется множество методологий, одна из наиболее важных это обработка естественного языка (NLP).

Структурированные данные, созданные с помощью анализа текста, можно интегрировать в базы данных, хранилища данных или информационные панели бизнес-аналитики и использовать для описательной, предписывающей или прогнозной аналитики.

Что такое обработка естественного языка (NLP)?

Понимание естественного языка помогает машинам «читать» текст (или другой ввод, например речь), имитируя способность человека понимать естественный язык, например английский, испанский или китайский. Обработка естественного языка включает в себя как понимание естественного языка, так и генерацию естественного языка, которые имитируют способность человека создавать текст на естественном языке, например. обобщить информацию или принять участие в диалоге.

Как технология обработка естественного языка достигла совершеннолетия за последние десять лет. Такие продукты, как Siri, Alexa и голосовой поиск Google, используют НЛП для понимания запросов пользователей и ответа на них. Сложные приложения для анализа текста также были разработаны в таких различных областях, как медицинские исследования, управление рисками, обслуживание клиентов, страхование (обнаружение мошенничества) и контекстная реклама.

Современные системы обработки естественного языка могут анализировать неограниченное количество текстовых данных без усталости и последовательным и непредвзятым образом. Они могут понимать концепции в сложных контекстах и ​​расшифровывать двусмысленность языка, чтобы извлекать ключевые факты и отношения или предоставлять резюме. Учитывая огромное количество неструктурированных данных, которые создаются каждый день, от электронных медицинских карт (EHR) до сообщений в социальных сетях, эта форма автоматизации стала критически важной для эффективного анализа текстовых данных.

Машинное обучение и обработка естественного языка

Машинное обучение – это технология искусственного интеллекта (ИИ), которая предоставляет системам возможность автоматически учиться на собственном опыте без необходимости явного программирования и помогает решать сложные задачи с точностью, не уступающей, а иногда даже превосходящей человека.

Однако для обучения машинному обучению требуются тщательно отобранные исходные данные, которые обычно недоступны из таких источников, как электронные медицинские карты (ЭМК) или научная литература, где большая часть данных представляет собой неструктурированный текст.

Применительно к электронным медицинским картам, записям клинических испытаний или полнотекстовой литературе обработка естественного языка может извлекать четкие, структурированные данные, необходимые для управления передовыми прогностическими моделями, используемыми в машинном обучении, тем самым уменьшая потребность в дорогостоящем ручном аннотировании обучающих данных. .

В этой 15-минутной презентации Дэвид Милворд, технический директор Linguamatics, обсуждает ИИ в целом, такие технологии ИИ, как обработка естественного языка и машинное обучение, а также то, как НЛП и машинное обучение могут быть объединены для создания различных систем обучения.

Большие данные и ограничения поиска по ключевым словам

Хотя традиционные поисковые системы, такие как Google, теперь предлагают уточнения, такие как синонимы, автозаполнение и семантический поиск (история и контекст), подавляющее большинство результатов поиска указывают только на местоположение документов, оставляя поисковиков, которым приходится часами вручную извлекать необходимые данные путем чтения отдельных документов.

Ограничения традиционного поиска усугубляются ростом объемов больших данных за последнее десятилетие, что помогло увеличить количество результатов, возвращаемых по одному запросу такой поисковой системой, как Google, с десятков тысяч до сотен миллионов.< /p>

Здравоохранение и биомедицинский сектор не являются исключением. Исследование, проведенное в декабре 2018 года Международной корпорацией данных (IDC), показало, что объем больших данных в здравоохранении, по прогнозам, будет расти быстрее, чем в производстве, финансовых услугах или СМИ в течение следующих семи лет: совокупный годовой темп роста (CAGR) составляет 36%.

С ростом текстовых больших данных использование технологий искусственного интеллекта, таких как обработка естественного языка и машинное обучение, становится еще более важным.

Онтологии, словари и пользовательские словари

Онтологии, словари и пользовательские словари — это мощные инструменты, помогающие в поиске, извлечении и интеграции данных. Они являются ключевым компонентом многих инструментов анализа текста и предоставляют списки ключевых понятий с именами и синонимами, часто расположенными в иерархическом порядке.

Поисковые системы, инструменты текстовой аналитики и решения для обработки естественного языка становятся еще более мощными при развертывании с онтологиями для предметной области. Онтологии позволяют понять реальное значение текста, даже если оно выражено по-разному (например, тайленол против ацетаминофена). Методы НЛП расширяют возможности онтологий, например, позволяя сопоставлять термины с разным написанием (эстроген или эстроген) и принимая во внимание контекст («SCT» может относиться к гену, «секретину» или к «тесту подъема по лестнице»). ”).

Спецификация онтологии включает словарь терминов и формальные ограничения на ее использование. Для корпоративной обработки естественного языка требуется ряд словарей, онтологий и связанных стратегий для определения понятий в их правильном контексте:

  • Тезаурусы, словари, таксономии и онтологии для понятий с известными терминами;
  • Подходы на основе шаблонов для таких категорий, как измерения, мутации и химические названия, которые могут включать новые (неизвестные) термины;
  • Идентификация, аннотация и преобразование понятий, зависящих от предметной области, на основе правил;
  • Интеграция клиентских словарей для создания индивидуальных аннотаций.
  • Расширенный поиск, позволяющий идентифицировать диапазоны данных по датам, числовым значениям, площади, концентрации, проценту, продолжительности, длине и весу.

Linguamatics предоставляет ряд стандартных терминологий, онтологий и словарей как часть своей платформы обработки естественного языка. Дополнительную информацию можно найти на нашей странице онтологий.

Обработка естественного языка корпоративного уровня

Использование расширенной аналитики представляет собой реальную возможность в фармацевтической и медицинской отраслях, где проблема заключается в выборе подходящего решения, а затем его эффективном внедрении на предприятии.

Для эффективной обработки естественного языка требуется ряд функций, которые должны быть включены в любое решение NLP корпоративного уровня, и некоторые из них описаны ниже.

Аналитические инструменты

Существует огромное разнообразие в составе документов и текстовом контексте, включая источники, формат, язык и грамматику. Чтобы справиться с этим разнообразием, требуется целый ряд методологий:

  • Преобразование внутренних и внешних форматов документов (например, HTML, Word, PowerPoint, Excel, текст PDF, изображение PDF) в стандартизированный формат с возможностью поиска;
  • Возможность идентифицировать, помечать тегами и выполнять поиск в определенных разделах (областях) документа, например: сосредоточить поиск на удалении шума из справочного раздела документа;
  • Лингвистическая обработка для определения значимых единиц в тексте, таких как предложения, группы существительных и глаголов, а также отношений между ними;
  • Семантические инструменты, которые идентифицируют понятия в тексте, такие как лекарства и болезни, и нормализуют понятия из стандартных онтологий. В дополнение к основным онтологиям медико-биологических наук и здравоохранения, таким как MedDRA и MeSH, возможность добавления собственных словарей является обязательным требованием для многих организаций.
  • Распознавание образов для обнаружения и идентификации категорий информации, которые нелегко определить с помощью словарного подхода. К ним относятся даты, числовая информация, биомедицинские термины (например, концентрация, объем, дозировка, энергия) и мутации генов/белков;
  • Возможность обработки встроенных таблиц в тексте, независимо от того, отформатированы ли они с помощью HTML или XML или как свободный текст.

Открытая архитектура

Открытая архитектура, позволяющая интегрировать различные компоненты, в настоящее время является важнейшим аспектом разработки корпоративных систем, и в этой области существует ряд ключевых стандартов:-

  • API веб-служб RESTful поддерживает интеграцию с рабочими процессами обработки документов;
  • Декларативный язык запросов, удобочитаемый и доступный для всех функций НЛП (например, запросы, условия поиска, настройки контекста и отображения);
  • Возможность преобразовывать и интегрировать извлеченные данные в общую инфраструктуру для управления основными данными (MDM) или распределенной обработки, например, с помощью Хадуп.

Технологические партнеры

Партнерские отношения — это важнейший инструмент, позволяющий новаторам в отрасли получить доступ к инструментам и технологиям, необходимым для преобразования данных в масштабах предприятия.

Linguamatics сотрудничает и сотрудничает с многочисленными компаниями, академическими и государственными организациями, чтобы предлагать клиентам технологии, соответствующие их потребностям, и разрабатывать решения нового поколения. Посетите нашу страницу "Партнеры и филиалы", чтобы узнать больше о наших партнерских отношениях в области технологий и контента.

Пользовательский интерфейс

Эффективный пользовательский интерфейс расширяет доступ к инструментам обработки естественного языка, не требуя специальных навыков для их использования (например, опыта программирования, доступа к командной строке, написания сценариев).

Продуктивное решение NLP предоставляет ряд способов доступа к платформе для удовлетворения потребностей бизнеса и набора навыков в организации, например:

  • Интуитивно понятный графический пользовательский интерфейс (GUI), который избавляет пользователей от необходимости писать сценарии; которые обеспечивают доступ нетехническим пользователям;
  • Интерфейс для поиска и просмотра онтологий;
  • Интерфейс администрирования для управления доступом к данным и позволяет обрабатывать индексы от имени многих пользователей;
  • Широкий набор готовых модулей запросов, которые позволяют экспертам в предметной области задавать вопросы без необходимости разбираться в базовой лингвистике.

Масштабируемость

  • Предоставьте возможность выполнять сложные запросы к десяткам миллионов документов, каждый из которых может состоять из тысяч страниц;
  • Обрабатывать словари и онтологии, содержащие миллионы терминов;
  • Работа на параллельных архитектурах, будь то стандартные многоядерные, кластерные или облачные;
  • Предоставьте коннектор для запуска обработки естественного языка в сервисно-ориентированных средах, таких как ETL (извлечение, преобразование, загрузка), семантическое обогащение и обнаружение сигналов, например: мониторинг клинических рисков в здравоохранении.

Дополнительная информация

Для получения дополнительной информации о выборе правильных инструментов для нужд вашего бизнеса ознакомьтесь с нашим руководством по выбору правильного решения НЛП для вашего бизнеса.

Чтобы узнать больше о платформе Linguamatics NLP, посетите раздел наших продуктов.

Благодаря достижениям в области искусственного интеллекта компьютеры могут выполнять некоторые функции, которые может выполнять человеческий мозг. Одним из таких достижений является обработка текста, которая также относится к обработке естественного языка. В этой статье подробно рассматривается, что такое обработка текста и как она может принести пользу предприятию.

Что такое обработка текста?

Термин "обработка текста" относится к автоматизации анализа электронного текста. Это позволяет моделям машинного обучения получать структурированную информацию о тексте для анализа, обработки текста или создания нового текста.

Обработка текста — одна из наиболее распространенных задач, используемых в приложениях машинного обучения, таких как языковой перевод, анализ настроений, фильтрация спама и многие другие.

В чем разница между обработкой текста и обработкой естественного языка?

Обработка текста относится только к анализу, обработке и генерации текста, тогда как обработка естественного языка относится к способности компьютера правильно понимать человеческий язык. По сути, обработка естественного языка — это следующий шаг после обработки текста.

Например, для простого анализа настроений потребуется, чтобы модель машинного обучения искала слова с положительным или отрицательным отношением, которые можно было бы предоставить модели заранее. Это будет обработка текста, так как модель не понимает слов, она просто ищет слова, на поиск которых она была запрограммирована.

Модель обработки естественного языка будет заключаться в переводе полных предложений на другой язык. Поскольку синтаксис варьируется от одного языка к другому, компьютер должен понимать смысл предложений, чтобы точно перевести их. Но хотя НЛП является более продвинутым, чем обработка текста, она всегда включает обработку текста в качестве шага в процессе.

Почему важна обработка текста?

Поскольку обработка текста – это одно из применений машинного обучения, о котором обычные потребители технологий даже не подозревают, большинство людей ежедневно пользуются приложениями, в которых обработка текста выполняется за кулисами.

Поскольку наше взаимодействие с брендами все чаще осуществляется через Интернет и с помощью текстовых сообщений, текстовые данные – один из наиболее важных способов, с помощью которых компании могут получать ценную информацию о бизнесе. Текстовые данные могут показать бизнесу, как их клиенты ищут, покупают и взаимодействуют с их брендом, продуктами и конкурентами в Интернете. Обработка текста с помощью машинного обучения позволяет предприятиям обрабатывать большие объемы текстовых данных.

Как используется обработка текста?

Тематический анализ. Этот метод интерпретирует и классифицирует большие наборы текста по темам или темам.

Анализ тональности. Эта функция автоматически определяет эмоциональный оттенок текста и классифицирует его как положительный, отрицательный или нейтральный.

Обнаружение намерения. Эта модель классификации определяет намерение, цель или цель текста. Например, он может определить, является ли целью получение информации, совершение покупки или отказ от подписки на компанию.

Языковая классификация — классифицирует текст в зависимости от того, на каком языке он написан.

Как обработка текста может принести пользу бизнесу?

Обработка текста позволяет компаниям автоматизировать процессы, которые позволяют получать ценную информацию и принимать более взвешенные решения. Клиентский опыт можно значительно улучшить с помощью автоматической обработки текста.

Опросы и обзоры

С помощью обработки текста компания может анализировать свои опросы клиентов или обзоры продуктов, чтобы классифицировать клиентов как сторонников, пассивных или недоброжелателей на основе их ответов на открытые вопросы о бренде. Это может помочь определить уровень удержания клиентов компании, а также определить, какие предложения или информацию они будут получать от бренда по электронной почте или из других источников.

Данные опроса можно анализировать с помощью средств извлечения ключевых слов для поиска определенного слова или слов в ответах клиентов, классификации тем, чтобы определить, какие темы являются общими для клиентов, и анализа настроений, чтобы понять, какая часть клиентов относится положительно, отрицательно или нейтрально. о бренде.

Запросы в службу поддержки

Компании часто позволяют клиентам отправлять запросы в службу поддержки через Интернет. Это характерно для крупных компаний, работающих по всему миру, и обработка текста может помочь упростить работу со службой поддержки клиентов. Обработка текста может определить тему заявки, срочность заявки и направить заявку представителю службы поддержки клиентов, который говорит на том же языке, что и клиент. Без машинного обучения на это вручную ушло бы много времени.

Данные и взаимодействие с клиентами – это источник жизненной силы компании, и они идут рука об руку с помощью обработки текста и других моделей машинного обучения. Автоматизация анализа с помощью машинного обучения повышает точность и объем ценных данных, которыми располагает компания, что имеет решающее значение при принятии важных решений. Нет оправдания принятию неосведомленных решений, когда вы можете получить точные данные практически обо всем.

Если в вашей организации используется машинное обучение, посмотрите наше демонстрационное видео, чтобы узнать, как быстро Algorithmia может развернуть ваши модели. С помощью Algorithmia вы можете перейти от анализа данных к ценности для бизнеса за несколько дней, а не месяцев.

Обработка естественного языка направлена ​​на создание машин, которые понимают и реагируют на текстовые или голосовые данные, а также реагируют собственным текстом или речью почти так же, как люди.

Что такое обработка естественного языка?

Обработка естественного языка (NLP) относится к области компьютерных наук, а точнее к области искусственного интеллекта или ИИ, связанной с предоставлением компьютерам возможности понимать текст и произносимые слова почти так же, как люди.

НЛП объединяет вычислительную лингвистику — моделирование человеческого языка на основе правил — со статистическими моделями, машинным обучением и моделями глубокого обучения. Вместе эти технологии позволяют компьютерам обрабатывать человеческий язык в виде текстовых или голосовых данных и «понимать» его полное значение, включая намерения и чувства говорящего или пишущего.

НЛП управляет компьютерными программами, которые переводят текст с одного языка на другой, реагируют на голосовые команды и быстро обобщают большие объемы текста — даже в режиме реального времени. Скорее всего, вы взаимодействовали с НЛП в виде голосовых систем GPS, цифровых помощников, программного обеспечения для диктовки речи в текст, чат-ботов для обслуживания клиентов и других потребительских удобств. Но NLP также играет все более важную роль в корпоративных решениях, помогающих упростить бизнес-операции, повысить производительность сотрудников и упростить критически важные бизнес-процессы.

Задания НЛП

Человеческий язык наполнен двусмысленностью, из-за чего невероятно сложно написать программное обеспечение, точно определяющее предполагаемое значение текстовых или голосовых данных. Омонимы, омофоны, сарказм, идиомы, метафоры, исключения из грамматики и использования, вариации в структуре предложений — это лишь некоторые из нарушений человеческого языка, на изучение которых у людей уходят годы, но программисты должны научить приложения, управляемые естественным языком, распознавать и с самого начала точно понять, будут ли эти приложения полезными.

Некоторые задачи НЛП разбивают человеческий текст и голосовые данные таким образом, чтобы помочь компьютеру разобраться в том, что он получает. Некоторые из этих задач включают следующее:

  • Распознавание речи, также называемое преобразованием речи в текст, представляет собой задачу надежного преобразования голосовых данных в текстовые данные. Распознавание речи требуется для любого приложения, которое следует голосовым командам или отвечает на голосовые вопросы. Что особенно затрудняет распознавание речи, так это то, как люди говорят: быстро, нечленораздельно, с разным ударением и интонацией, с разным акцентом и часто с неправильной грамматикой.
  • Тегирование части речи, также называемое грамматическим тегированием, представляет собой процесс определения части речи определенного слова или фрагмента текста на основе его использования и контекста. Часть речи определяет «сделать» как глагол в «Я могу сделать бумажный самолетик» и как существительное в «Какой марки автомобиля у тебя есть?»
  • Устранение многозначности слова — это выбор значения слова с несколькими значениями в процессе семантического анализа, который определяет слово, которое имеет наибольший смысл в данном контексте.Например, устранение неоднозначности смысла слова помогает различать значение глагола "сделать" в словах "сделать оценку" (достичь) и "сделать ставку" (место).
  • Распознавание именованных объектов, или NEM, идентифицирует слова или фразы как полезные объекты. NEM определяет «Кентукки» как местоположение или «Фред» как мужское имя.
  • Разрешение по взаимной ссылке — это задача определить, относятся ли два слова к одному и тому же объекту и когда. Наиболее распространенным примером является определение лица или объекта, к которому относится определенное местоимение (например, «она» = «Мэри»), но это также может включать в себя определение метафоры или идиомы в тексте (например, пример, в котором « медведь не животное, а большой волосатый человек).
  • Анализ настроений пытается извлечь из текста субъективные качества — отношение, эмоции, сарказм, замешательство, подозрительность.
  • Создание естественного языка иногда называют противоположностью распознаванию речи или преобразованию речи в текст. это задача перевода структурированной информации на человеческий язык.

Инструменты и подходы НЛП

Python и набор инструментов для работы с естественными языками (NLTK)

Язык программирования Python предоставляет широкий спектр инструментов и библиотек для решения конкретных задач НЛП. Многие из них можно найти в Natural Language Toolkit, или NLTK, коллекции библиотек, программ и образовательных ресурсов с открытым исходным кодом для создания программ НЛП.

NLTK включает библиотеки для многих из перечисленных выше задач НЛП, а также библиотеки для подзадач, таких как синтаксический анализ предложений, сегментация слов, формирование корней и лемматизация (методы обрезки слов до их корней) и токенизация (для разбиения фраз, предложения, абзацы и отрывки в токены, помогающие компьютеру лучше понять текст). Он также включает библиотеки для реализации таких возможностей, как семантическое мышление, возможность делать логические выводы на основе фактов, извлеченных из текста.

Статистическое НЛП, машинное обучение и глубокое обучение

Самые ранние приложения НЛП представляли собой написанные вручную системы, основанные на правилах, которые могли выполнять определенные задачи НЛП, но не могли легко масштабироваться, чтобы справиться с кажущимся бесконечным потоком исключений или растущими объемами текстовых и голосовых данных.

Войдите в статистический NLP, который сочетает компьютерные алгоритмы с машинным обучением и моделями глубокого обучения для автоматического извлечения, классификации и маркировки элементов текстовых и голосовых данных, а затем присваивает статистическую вероятность каждому возможному значению этих элементов. Сегодня модели глубокого обучения и методы обучения, основанные на сверточных нейронных сетях (CNN) и рекуррентных нейронных сетях (RNN), позволяют системам НЛП «обучаться» в процессе работы и извлекать все более точный смысл из огромных объемов необработанного, неструктурированного и неразмеченного текста. и наборы голосовых данных.

Для более глубокого изучения нюансов между этими технологиями и их подходами к обучению см. статью "Искусственный интеллект, машинное обучение, глубокое обучение и нейронные сети: в чем разница?"

Случаи использования НЛП

Обработка естественного языка является движущей силой искусственного интеллекта во многих современных реальных приложениях. Вот несколько примеров:

  • Обнаружение спама. Возможно, вы не считаете обнаружение спама решением NLP, но лучшие технологии обнаружения спама используют возможности классификации текста NLP для сканирования электронных писем на наличие языка, который часто указывает на спам или фишинг. Эти индикаторы могут включать чрезмерное использование финансовых терминов, характерную плохую грамматику, угрожающий язык, неуместную срочность, неправильно написанные названия компаний и многое другое. Обнаружение спама – одна из немногих проблем НЛП, которые эксперты считают "почти решенными" (хотя вы можете возразить, что это не соответствует вашему опыту работы с электронной почтой).
  • Машинный перевод. Google Translate — это пример общедоступной технологии НЛП в действии. По-настоящему полезный машинный перевод включает в себя нечто большее, чем замену слов одного языка словами другого. Эффективный перевод должен точно отражать смысл и тон исходного языка и переводить их в текст с тем же значением и желаемым воздействием на выходной язык. Инструменты машинного перевода делают успехи в плане точности. Отличный способ протестировать любой инструмент машинного перевода — перевести текст на один язык, а затем вернуться к оригиналу. Часто цитируемый классический пример: не так давно при переводе «Дух хочет, но плоть слаба» с английского на русский и обратно давался «Водка хорошая, а мясо гнилое». ». Сегодня результатом является «Дух желает, но плоть немощна», что не идеально, но в переводе с английского на русский внушает гораздо больше доверия.
  • Виртуальные агенты и чат-боты. Виртуальные агенты, такие как Siri от Apple и Alexa от Amazon, используют распознавание речи для распознавания шаблонов в голосовых командах и генерации естественного языка, чтобы реагировать соответствующим действием или полезными комментариями.Чат-боты выполняют ту же магию в ответ на введенный текст. Лучшие из них также учатся распознавать контекстуальные подсказки о человеческих запросах и использовать их для предоставления еще лучших ответов или вариантов с течением времени. Следующим улучшением для этих приложений является функция ответов на вопросы, возможность отвечать на наши вопросы — ожидаемые или нет — соответствующими и полезными ответами своими словами.
  • Анализ настроений в социальных сетях. НЛП стало важным бизнес-инструментом для выявления скрытых данных из каналов социальных сетей. Анализ настроений может анализировать язык, используемый в сообщениях, ответах, обзорах и т. д. в социальных сетях, чтобы определять отношение и эмоции, связанные с продуктами, рекламными акциями и событиями. Эту информацию компании могут использовать при разработке продуктов, рекламных кампаниях и т. д.
  • Обобщение текста. Обобщение текста использует методы НЛП для анализа огромных объемов цифрового текста и создания резюме и синопсисов для указателей, исследовательских баз данных или занятых читателей, у которых нет времени читать полный текст. Лучшие приложения для реферирования текста используют семантические рассуждения и генерацию естественного языка (NLG), чтобы добавить полезный контекст и выводы к рефератам.

Обработка естественного языка и IBM Watson

    IBM внедрила инновации в области искусственного интеллекта, разработав новаторские инструменты и услуги на основе NLP, которые позволяют организациям автоматизировать свои сложные бизнес-процессы, получая при этом важную бизнес-информацию. Эти инструменты включают:
      - Находите высококачественные ответы и богатые идеи из ваших сложных корпоративных документов — таблиц, PDF-файлов, больших данных и многого другого — с помощью поиска ИИ. Позвольте своим сотрудникам принимать более обоснованные решения и экономить время с помощью поисковой системы в реальном времени и возможностей анализа текста, которые выполняют извлечение текста и анализируют отношения и шаблоны, скрытые в неструктурированных данных. Watson Discovery использует настраиваемые модели NLP и методы машинного обучения, чтобы предоставить пользователям ИИ, который понимает уникальный язык их отрасли и бизнеса. Explore Watson Discovery (NLU) — анализируйте текст в форматах неструктурированных данных, включая HTML, веб-страницы, социальные сети и т. д. Улучшите свое понимание человеческого языка, используя этот набор инструментов естественного языка для определения понятий, ключевых слов, категорий, семантики и эмоций, а также для выполнения классификации текста, извлечения сущностей, распознавания именованных сущностей (NER), анализа тональности и суммирования. Изучите Watson Natural Language Understanding — улучшите качество обслуживания клиентов при одновременном снижении затрат. Watson Assistant — это чат-бот на основе искусственного интеллекта с простым в использовании визуальным конструктором, который позволяет развертывать виртуальных агентов по любому каналу за считанные минуты. Узнайте больше о Watson Assistant

    Разработанный специально для медицинских и медико-биологических областей, IBM Watson Annotator for Clinical Data извлекает ключевые клинические понятия из текстов на естественном языке, таких как состояния, лекарства, аллергии и процедуры. Глубокие контекстуальные идеи и значения для ключевых клинических атрибутов позволяют получить более значимые данные. Потенциальные источники данных включают в себя клинические записи, выписки из больницы, протоколы клинических испытаний и литературные данные.

    Несмотря на то, что были приложены все усилия для соблюдения правил стиля цитирования, могут быть некоторые расхождения. Если у вас есть какие-либо вопросы, обратитесь к соответствующему руководству по стилю или другим источникам.

    Наши редакторы рассмотрят то, что вы отправили, и решат, нужно ли пересматривать статью.

    обработка информации, получение, запись, организация, поиск, отображение и распространение информации. В последние годы этот термин часто применялся конкретно к компьютерным операциям.

    В популярном использовании термин информация относится к фактам и мнениям, предоставленным и полученным в ходе повседневной жизни: человек получает информацию непосредственно от других живых существ, из средств массовой информации, из электронных банков данных, и от всевозможных наблюдаемых явлений в окружающей среде. Человек, использующий такие факты и мнения, генерирует больше информации, часть которой сообщается другим в ходе дискурса, в инструкциях, в письмах и документах, а также через другие средства массовой информации. Информация, организованная в соответствии с некоторыми логическими отношениями, называется совокупностью знаний, которые должны быть получены путем систематического воздействия или изучения. Применение знаний (или навыков) дает опыт, а дополнительные аналитические или основанные на опыте идеи, как говорят, составляют примеры мудрости. Использование термина информация не ограничивается исключительно ее передачей посредством естественного языка. Информация также регистрируется и передается с помощью искусства, мимики и жестов или таких других физических реакций, как дрожь. Более того, каждое живое существо наделено информацией в виде генетического кода.Эти информационные явления пронизывают физический и ментальный мир, и их разнообразие таково, что до сих пор бросало вызов всем попыткам единого определения информации.

    Интерес к информационным явлениям резко возрос в 20 веке, и сегодня они являются объектами изучения в ряде дисциплин, включая философию, физику, биологию, лингвистику, информатику и информатику, электронную и коммуникационную инженерию, науку об управлении, и социальные науки. С коммерческой точки зрения индустрия информационных услуг стала одной из самых новых отраслей во всем мире. Почти все остальные отрасли — производство и обслуживание — все больше озабочены информацией и ее обработкой. Различные, хотя и часто пересекающиеся, точки зрения и явления в этих областях приводят к различным (а иногда и противоречивым) концепциям и «определениям» информации.

    В этой статье затрагиваются такие понятия, связанные с обработкой информации. Рассматривая основные элементы обработки информации, он различает информацию в аналоговой и цифровой форме и описывает ее получение, запись, организацию, поиск, отображение и методы распространения. Отдельная статья, информационная система, посвящена методам организационного контроля и распространения информации.

    Общие соображения

    Основные понятия

    Интерес к тому, как передается информация и как ее носители передают смысл, со времен досократических философов занимал область исследования, называемую семиотикой, изучением знаков и знаковых явлений. Знаки являются нередуцируемыми элементами коммуникации и носителями смысла. Американскому философу, математику и физику Чарльзу С. Пирсу приписывают указание на три измерения знаков, которые связаны соответственно с телом или средой знака, объектом, который знак обозначает, и интерпретантом или интерпретантом. толкование знака. Пирс признал, что фундаментальные отношения информации по существу триадны; напротив, все отношения физических наук сводятся к диадическим (бинарным) отношениям. Другой американский философ, Чарльз У. Моррис, назвал эти три знаковых измерения синтаксическим, семантическим и прагматическим — имена, под которыми они известны сегодня.

    Информационные процессы выполняются информационными процессорами. Для данного информационного процессора, физического или биологического, токен — это объект, лишенный смысла, который процессор распознает как полностью отличный от других токенов. Группа таких уникальных токенов, распознаваемых процессором, составляет его основной «алфавит»; например, точка, тире и пробел составляют основной алфавит символов процессора азбуки Морзе. Объекты, несущие значение, представлены наборами токенов, называемых символами. Последние объединяются, чтобы сформировать символические выражения, которые представляют собой входы или выходы из информационных процессов и хранятся в памяти процессора.

    Информационные процессоры — это компоненты информационной системы, представляющей собой класс конструкций. Абстрактная модель информационной системы включает четыре основных элемента: процессор, память, рецептор и эффектор (рис. 1). У процессора есть несколько функций: (1) выполнять элементарные информационные процессы над символьными выражениями, (2) временно хранить в кратковременной памяти процессора входные и выходные выражения, над которыми работают эти процессы и которые они генерируют, (3) планировать выполнение этих процессов и (4) изменять эту последовательность операций в соответствии с содержимым кратковременной памяти. В памяти хранятся символьные выражения, в том числе те, которые представляют составные информационные процессы, называемые программами. Два других компонента, рецептор и эффектор, представляют собой механизмы ввода и вывода, функции которых заключаются, соответственно, в получении символических выражений или стимулов из внешней среды для обработки процессором и в передаче обработанных структур обратно в окружающую среду.

    Мощность этой абстрактной модели системы обработки информации обеспечивается способностью составляющих ее процессоров выполнять небольшое количество элементарных информационных процессов: чтение; сравнение; создание, изменение и наименование; копирование; хранение; и писать. Модель, представляющая широкий спектр таких систем, оказалась полезной для объяснения искусственных информационных систем, реализованных на последовательных информационных процессорах.

    Поскольку было признано, что в природе информационные процессы не являются строго последовательными, с 1980 года все большее внимание уделяется изучению человеческого мозга как информационного процессора параллельного типа.Когнитивные науки, междисциплинарная область, занимающаяся изучением человеческого разума, внесли свой вклад в развитие нейрокомпьютеров, нового класса параллельных процессоров с распределенной информацией, которые имитируют функционирование человеческого мозга, включая его возможности самоконтроля. организация и обучение. Так называемые нейронные сети, представляющие собой математические модели, вдохновленные сетью нейронных цепей человеческого мозга, все чаще находят применение в таких областях, как распознавание образов, управление производственными процессами и финансами, а также во многих исследовательских дисциплинах.

    Информация как ресурс и товар

    В конце 20 века информация приобрела два основных утилитарных значения. С одной стороны, он считается экономическим ресурсом, наравне с другими ресурсами, такими как труд, материал и капитал. Эта точка зрения основана на доказательствах того, что обладание информацией, ее манипулирование и использование могут повысить рентабельность многих физических и когнитивных процессов. Рост активности обработки информации в промышленном производстве, а также в решении человеческих проблем был замечательным. Анализ одного из трех традиционных секторов экономики, сферы услуг, показывает резкий рост информационно-емкой деятельности с начала 20 века. К 1975 году на эти виды деятельности приходилось половина рабочей силы Соединенных Штатов.

    Как индивидуальный и общественный ресурс, информация имеет некоторые интересные характеристики, которые отличают ее от традиционных представлений об экономических ресурсах. В отличие от других ресурсов, информация обширна, и ее ограничения, по-видимому, накладываются только временем и когнитивными способностями человека. Его экспансивность объясняется следующим: (1) он естественно распространяется, (2) он воспроизводится, а не потребляется посредством использования, и (3) им можно только делиться, а не обмениваться в транзакциях. В то же время информация сжимаема как синтаксически, так и семантически. В сочетании с его способностью заменять другие экономические ресурсы, его транспортабельностью на очень высоких скоростях и его способностью давать преимущества обладателю информации, эти характеристики лежат в основе таких социальных отраслей, как исследования, образование, издательское дело, маркетинг, и даже политика. Забота общества об экономии информационных ресурсов вышла за пределы традиционной области библиотек и архивов и теперь охватывает организационную, институциональную и государственную информацию под эгидой управления информационными ресурсами.

    Второе восприятие информации заключается в том, что это экономический товар, который помогает стимулировать мировой рост нового сегмента национальной экономики — сектора информационных услуг. Используя свойства информации и опираясь на восприятие ее индивидуальной и общественной полезности и ценности, этот сектор предоставляет широкий спектр информационных продуктов и услуг. К 1992 году рыночная доля сектора информационных услуг США выросла примерно до 25 миллиардов долларов. Это было эквивалентно примерно одной седьмой компьютерного рынка страны, который, в свою очередь, составлял примерно 40 процентов мирового рынка компьютеров в том году. Однако возможная конвергенция компьютеров и телевидения (рыночная доля которых в 100 раз превышает долю компьютеров) и ее влияние на информационные услуги, развлечения и образование, скорее всего, изменят структуру соответствующих рыночных долей информационной индустрии.

    Читайте также: