Какие основные инструменты моделирования текста доступны в текстовом редакторе

Обновлено: 30.06.2024

Хранилище данных Apache Pinot OLAP с открытым исходным кодом стало проще в развертывании, управлении и эксплуатации в облаке благодаря улучшенному .

Snowflake продолжает расширять предложения своей отраслевой вертикальной платформы, помогая пользователям из разных сегментов рынка собирать деньги.

Платформа RKVST поддерживает несколько типов приложений для работы с данными на блокчейне, включая безопасный обмен данными SBOM для обеспечения кибербезопасности.

Считаете, что готовы к сертификационному экзамену AWS Certified Solutions Architect? Проверьте свои знания, ответив на эти 12 вопросов и.

Amazon заявила, что ее система мониторинга микроавтобусов предназначена исключительно для обеспечения безопасности водителей. Но многие отраслевые эксперты обеспокоены этим.

Amazon хотела бы укрепить свое глобальное присутствие, но гигант электронной коммерции сегодня сталкивается с препятствиями и проблемами, которых у него не было.

Генеральный директор Sitecore Стив Цикакис вступил во владение во время пандемии — на фоне стремительного роста — и переосмыслил компанию как цифровую.

Организации, планирующие миграцию контента, должны проверить целостность файлов и убедиться, что файлы не были повреждены при перемещении. Файл .

Успешное развертывание ECM требует планирования. Менеджеры контента должны учитывать жизненный цикл контента своей организации, безопасность .

Oracle планирует приобрести Cerner в рамках сделки на сумму около 30 млрд долларов. Второй по величине поставщик электронных медицинских карт в США может вдохнуть новую жизнь .

Верховный суд постановил 6-2, что API-интерфейсы Java, используемые в телефонах Android, не подпадают под действие американского закона об авторском праве.

В этом руководстве рассматриваются возможности Oracle Autonomous Database для пользователей Oracle и вопросы, которые следует учитывать организациям.

Многие компании могут извлечь выгоду из возможностей аналитики, а организации, использующие SAP ECC, по-прежнему могут создавать эффективные .

Внедрение S/4HANA сопряжено со значительным риском, но также предлагает реальную возможность цифровой трансформации. Вот .

Вот объяснение основных различий между SAP Greenfield и Brownfield, а также то, что третий, гибридный подход может сделать для S.

Хороший дизайн базы данных необходим для удовлетворения потребностей обработки в системах SQL Server. На вебинаре консультант Коэн Вербек предложил .

Базы данных SQL Server можно переместить в облако Azure несколькими способами. Вот что вы получите от каждого из вариантов .

В отрывке из этой книги вы познакомитесь с методами LEFT OUTER JOIN и RIGHT OUTER JOIN и найдете различные примеры создания SQL.

Получение информации из текста с помощью обработки естественного языка (NLP)

Извлекайте ценные сведения из неструктурированного текста с помощью НЛП (знания в области машинного обучения не требуются) с помощью текстовой аналитики – набора функций Cognitive Service for Language. Получите более глубокое понимание мнений клиентов с помощью анализа настроений. Определите ключевые фразы и объекты, такие как люди, места и организации, чтобы понять общие темы и тенденции. Классифицируйте медицинскую терминологию с помощью предметно-ориентированных предварительно обученных моделей. Оценивайте текст на самых разных языках.

Широкое распознавание объектов

Определите важные понятия в тексте, включая ключевые фразы и именованные объекты, такие как люди, события и организации.

Мощный анализ настроений

Изучите, что клиенты говорят о вашем бренде, и проанализируйте мнения по конкретным темам с помощью анализа мнений.

Обобщение документа

Извлеките предложения, которые в совокупности передают суть документа.

Обработка медицинского текста

Извлечение и обработка в режиме реального времени и пакетного анализа данных, хранящихся в неструктурированном медицинском тексте.

Определить и классифицировать важные понятия

Извлечение широкого спектра готовых объектов, таких как люди, места, организации, даты/время, числа и более 100 типов личной информации (PII), включая защищенную медицинскую информацию (PHI), в документах с использованием именованного объекта. признание.

Определите основные моменты в неструктурированном тексте

Быстро оценивайте и определяйте основные моменты в неструктурированном тексте. Получите список релевантных фраз, которые лучше всего описывают отрывок, используя извлечение ключевых фраз. Или определите предложения, которые лучше всего передают основную идею документа, с помощью экстрактивного обобщения (предварительный просмотр).

Лучше понять восприятие клиентов

Проанализируйте положительные и отрицательные настроения в социальных сетях, отзывах клиентов и других источниках, чтобы получить представление о своем бренде. Используйте интеллектуальный анализ мнений, чтобы изучить восприятие клиентами определенных характеристик продуктов или услуг в тексте.

Обработка неструктурированных медицинских данных

Извлекайте полезные сведения из неструктурированных клинических документов, таких как записи врачей, электронные медицинские карты и формы регистрации пациентов, с помощью текстовой аналитики для здравоохранения. Распознавать, классифицировать и определять отношения между медицинскими понятиями, такими как диагноз, симптомы, дозировка и частота приема лекарств.

Создайте диалоговый слой поверх ваших данных

Получите ответы на вопросы из полуструктурированного и неструктурированного контента, такого как URL-адреса, часто задаваемые вопросы, руководства по продуктам, блоги, документы поддержки и многое другое.

Автоматизируйте рабочий процесс

Автоматическая классификация неструктурированного текста и документов с пользовательской классификацией текста с использованием меток для конкретного домена для улучшения принятия решений.

Всеобъемлющая конфиденциальность и безопасность

  • Ваши данные остаются вашими. Microsoft не использует обучение вашего текста для улучшения моделей.
  • Выберите, где Cognitive Services будет обрабатывать ваши данные с помощью контейнеров.
  • Опираясь на инфраструктуру Azure, текстовая аналитика обеспечивает безопасность, доступность, соответствие требованиям и управляемость корпоративного уровня.

Получите необходимые вам мощность, контроль и настройку по гибкой цене

  • Оплата по факту использования в зависимости от количества транзакций без авансовых платежей.

Ресурсы и документация по текстовой аналитике

Начните с учебных ресурсов

Исследуйте популярные ресурсы для разработчиков

Нам доверяют компании всех размеров

KPMG оптимизирует анализ мошенничества

KPMG помогает финансовым учреждениям экономить миллионы на расходах на соблюдение требований с помощью своего решения Customer Risk Analytics, которое использует текстовую аналитику для обнаружения шаблонов и ключевых слов для обозначения рисков соответствия.

 КПМГ

Уилсон Аллен анализирует неструктурированные данные

Уилсон Аллен создал решение на основе ИИ, которое помогает юридическим и профессиональным фирмам по всему миру находить беспрецедентный уровень понимания ранее разрозненных и неструктурированных данных.


Фирма, предоставляющая медицинские услуги, улучшает уход за пациентами

Kepro улучшает процесс медицинского обслуживания благодаря быстрой и точной аналитике текстов для здоровья.

 Кепро

Ла Лига привлекает внимание болельщиков

Ла Лига привлекает миллионы болельщиков по всему миру с помощью персонального цифрового помощника, использующего Text Analytics для обработки входящих запросов и определения намерений пользователей на нескольких языках.

 Ла Лига

Улучшение качества обслуживания клиентов

Progressive Insurance расширяет возможности чат-бота и повышает качество обслуживания клиентов с помощью Azure AI.

 Прогресс

Текстовый запрос понимает настроения в масштабе

Поставщик программного обеспечения реагирует на настроения клиентов и создает положительный маркетинговый опыт.

 Текстовый запрос

Часто задаваемые вопросы о языковой службе

Аналитика текста обнаруживает широкий спектр языков, вариантов и диалектов. Дополнительные сведения см. в документации по языковой поддержке.

Да. Анализ тональности и извлечение ключевых фраз доступны для определенного количества языков, и вы можете запросить дополнительные языки на форуме Text Analytics.

Извлечение ключевых фраз исключает несущественные слова и отдельные прилагательные. Комбинации прилагательное-существительное, такие как «захватывающие виды» или «туманная погода», возвращаются вместе. Как правило, выходные данные состоят из существительных и объектов предложения и перечислены в порядке важности. Важность измеряется количеством упоминаний определенного понятия или отношением этого элемента к другим элементам в тексте.

Усовершенствования моделей и алгоритмов объявляются, если изменение существенное, и добавляются в сервис, если обновление незначительное. Со временем вы можете обнаружить, что один и тот же введенный текст приводит к другому показателю тональности или выводу ключевой фразы. Это нормальное и преднамеренное последствие использования управляемых ресурсов машинного обучения в облаке.

Да, вы можете использовать операцию анализа в предварительном просмотре, чтобы объединить несколько функций анализа текста в одном асинхронном вызове. Операция анализа в настоящее время доступна только в ценовой категории "Стандартный" и соответствует тем же критериям ценообразования.

При анализе текста у нас часто есть наборы документов, например сообщения в блогах или новостные статьи, которые мы хотели бы разделить на естественные группы, чтобы мы могли понимать их по отдельности. Тематическое моделирование – это метод неконтролируемой классификации таких документов, аналогичный кластеризации числовых данных, который находит естественные группы элементов, даже если мы не уверены, что ищем.

Скрытое распределение Дирихле (LDA) — особенно популярный метод подбора тематической модели. Он рассматривает каждый документ как смесь тем, а каждую тему — как смесь слов. Это позволяет документам «накладываться» друг на друга с точки зрения содержания, а не разделяться на отдельные группы, что отражает типичное использование естественного языка.

Блок-схема анализа текста, включающая тематическое моделирование. Document-Term Matrix в качестве входных данных и создает модель, которую можно настроить с помощью tidytext, чтобы ею можно было манипулировать и визуализировать с помощью dplyr и ggplot2». ширина=

Рисунок 6.1. Блок-схема анализа текста, включающего тематическое моделирование. Пакет topmodels принимает матрицу терминов документа в качестве входных данных и создает модель, которую можно настроить с помощью tidytext, чтобы ею можно было манипулировать и визуализировать с помощью dplyr и ggplot2.

Как показано на рис. 6.1, мы можем использовать принципы аккуратного текста для подхода к моделированию темы с помощью того же набора аккуратных инструментов, которые мы использовали в этой книге. В этой главе мы научимся работать с объектами LDA из пакета topmodels, особенно приводить в порядок такие модели, чтобы ими можно было манипулировать с помощью ggplot2 и dplyr. Мы также рассмотрим пример кластеризации глав из нескольких книг, где мы увидим, что тематическая модель «учится» определять разницу между четырьмя книгами на основе текстового содержания.

6.1 Скрытое распределение Дирихле

Скрытое распределение Дирихле — один из наиболее распространенных алгоритмов тематического моделирования. Не углубляясь в математику модели, мы можем понять, что она руководствуется двумя принципами.

  • Каждый документ представляет собой смесь тем. Мы представляем, что каждый документ может содержать слова из нескольких тем в определенных пропорциях. Например, в модели с двумя темами можно сказать: "Документ 1 на 90 % состоит из темы А и на 10 % из темы Б, а документ 2 – на 30 % из темы А и на 70 % из темы Б".
  • Каждая тема представляет собой набор слов. Например, мы могли бы представить модель американских новостей, состоящую из двух тем: одна тема — «политика», а другая — «развлечения». Наиболее распространенными словами в теме политики могут быть «президент», «конгресс» и «правительство», а тема развлечения может состоять из таких слов, как «кино», «телевидение» и «актер». Важно отметить, что слова могут быть общими между темами; слово "бюджет" может встречаться в обоих случаях одинаково.

LDA – это математический метод одновременной оценки обоих параметров: поиск сочетания слов, связанных с каждой темой, а также определение сочетания тем, описывающих каждый документ. Существует несколько реализаций этого алгоритма, и мы подробно рассмотрим одну из них.

В главе 5 мы кратко представили набор данных AssociatedPress, предоставляемый пакетом топиков, в качестве примера DocumentTermMatrix. Это сборник из 2246 новостных статей американского информационного агентства, в основном опубликованных примерно в 1988 году.

Мы можем использовать функцию LDA() из пакета TopicModels, установив k = 2 , чтобы создать модель LDA с двумя темами.

На практике практически любая тематическая модель будет использовать большее значение k , но вскоре мы увидим, что этот подход к анализу распространяется на большее количество тем.

Эта функция возвращает объект, содержащий полную информацию о соответствии модели, например, как слова связаны с темами и как темы связаны с документами.

Подгонка модели была «простой частью»: остальная часть анализа будет включать изучение и интерпретацию модели с использованием функций очистки из пакета tidytext.

6.1.1 Вероятность словесной темы

В главе 5 мы представили метод tidy() из пакета broom (Robinson 2017) для очистки объектов модели. Пакет tidytext предоставляет этот метод для извлечения вероятностей для каждой темы и слова, называемый \(\бета\) ("бета"), из модели.

Обратите внимание, что это превратило модель в формат "одна тема на термин на строку". Для каждой комбинации модель вычисляет вероятность того, что этот термин будет создан из этой темы. Например, термин «аарон» имеет вероятность \(1,686917\times 10^\) быть сгенерированным из темы 1, но \(3.8959408\times 10^\) вероятность создания из темы 2.

Мы могли бы использовать функцию slice_max() dplyr, чтобы найти 10 наиболее распространенных терминов в каждой теме. Как аккуратный фрейм данных, он хорошо подходит для визуализации ggplot2 (рис. 6.2).

Наиболее распространенные термины в каждой теме

Рисунок 6.2. Наиболее распространенные термины в каждой теме

Эта визуализация позволяет нам понять две темы, извлеченные из статей. Наиболее распространенные слова в теме 1 включают «процент», «миллион», «миллиард» и «компания», что предполагает, что это может представлять деловые или финансовые новости. Наиболее распространенными в теме 2 являются «президент», «правительство» и «совет», что позволяет предположить, что эта тема представляет собой политические новости. Одно важное наблюдение о словах в каждой теме состоит в том, что некоторые слова, такие как «новый» и «люди», являются общими в обеих темах. В этом заключается преимущество тематического моделирования по сравнению с методами «жесткой кластеризации»: темы, используемые на естественном языке, могут иметь некоторое совпадение слов.

В качестве альтернативы мы могли бы рассмотреть термины, которые имели наибольшую разницу в \(\beta\) между темами 1 и темами 2. Это можно оценить на основе логарифмического отношения двух : \(\log_2(\frac)\) (логарифмическое отношение полезно, потому что оно делает разницу симметричной: \(\beta_2\) вдвое больше приводит к логарифмическому отношению 1, в то время как \(\beta_1\) в два раза больше приводит к -1). Чтобы ограничить его набором особенно релевантных слов, мы можем отфильтровать относительно распространенные слова, такие как те, у которых \(\beta\) больше 1/1000 хотя бы в одной теме.

Слова с наибольшими различиями между двумя темами показаны на рис. 6.3.

Слова с наибольшей разницей в \(\beta\) между темой 2 и темой 1

Рисунок 6.3. Слова с наибольшей разницей в \(\beta\) между темами 2 и темами 1

Мы видим, что слова, более распространенные в теме 2, включают политические партии, такие как «демократическая» и «республиканская», а также имена политиков, такие как «дукакис» и «горбачев». Тема 1 больше характеризовалась такими валютами, как «иена» и «доллар», а также финансовыми терминами, такими как «индекс», «цены» и «курсы». Это помогает подтвердить, что две темы, определенные алгоритмом, были политическими и финансовыми новостями.

6.1.2 Вероятность темы документа

Помимо оценки каждой темы как набора слов, LDA также моделирует каждый документ как набор тем. Мы можем исследовать вероятности для каждого документа и темы, называемые \(\gamma\) («гамма»), с аргументом matrix = «gamma» для tidy() .

Каждое из этих значений представляет собой расчетную долю слов из этого документа, созданных из этой темы. Например, модель оценивает, что только около 25% слов в документе 1 были сгенерированы из темы 1.

Мы видим, что многие из этих документов были взяты из сочетания двух тем, но этот документ 6 был составлен почти полностью из темы 2, имея \(\gamma\) из темы 1, близкой к нулю. Чтобы проверить этот ответ, мы могли бы tidy() матрицы терминов документа (см. главу 5.1) и проверить, какие слова в этом документе встречаются чаще всего.

Судя по наиболее распространенным словам, это статья об отношениях между американским правительством и панамским диктатором Мануэлем Норьегой, что означает, что алгоритм был прав, поместив ее в тему 2 (как политические/национальные новости).< /p>

6.2 Пример: крупное ограбление библиотеки

При изучении статистического метода может быть полезно попробовать его на очень простом случае, когда вы знаете «правильный ответ». Например, мы могли бы собрать набор документов, которые определенно относятся к четырем отдельным темам, а затем выполнить тематическое моделирование, чтобы увидеть, может ли алгоритм правильно различать четыре группы. Это позволяет нам перепроверить полезность метода и понять, как и когда он может пойти не так. Мы попробуем это сделать с некоторыми данными из классической литературы.

Предположим, вандал ворвался в ваш кабинет и разорвал на части четыре книги:

  • Большие надежды Чарльза Диккенса
  • Война миров Герберта Уэллса
  • Двадцать тысяч лье под водой Жюля Верна
  • Гордость и предубеждение Джейн Остин

Этот вандал разорвал книги на отдельные главы и сложил их в одну большую кучу. Как мы можем восстановить эти неорганизованные главы в их первоначальных книгах? Это сложная задача, поскольку отдельные главы не имеют маркировки: мы не знаем, какие слова могли бы разделить их на группы.Таким образом, мы будем использовать тематическое моделирование, чтобы выяснить, как главы объединяются в отдельные темы, каждая из которых (предположительно) представляет одну из книг.

Мы получим текст этих четырех книг с помощью пакета gutenbergr, описанного в главе 3.

В качестве предварительной обработки мы разделяем их на главы, используем unnest_tokens() tidytext, чтобы разделить их на слова, а затем удаляем stop_words. Мы рассматриваем каждую главу как отдельный «документ», у каждого из которых есть название вроде «Большие надежды_1» или «Гордость и предубеждение_11». (В других приложениях каждый документ может быть одной газетной статьей или одним сообщением в блоге).

6.2.1 LDA по главам

Сейчас наш фрейм данных word_counts находится в аккуратной форме, с одним термином на документ в каждой строке, но для пакета TopicModels требуется DocumentTermMatrix . Как описано в главе 5.2, мы можем преобразовать таблицу с одним токеном на строку в DocumentTermMatrix с помощью cast_dtm() tidytext.

Затем мы можем использовать функцию LDA() для создания четырехтематической модели. В этом случае мы знаем, что ищем четыре темы, потому что есть четыре книги; в других задачах нам может понадобиться попробовать несколько разных значений k .

Подобно тому, как мы делали это с данными Associated Press, мы можем исследовать вероятности для каждой темы и слова.

Обратите внимание, что это превратило модель в формат "одна тема на термин на строку". Для каждой комбинации модель вычисляет вероятность того, что этот термин будет создан из этой темы. Например, вероятность того, что термин "джоу" будет сгенерирован из тем 1, 2 или 3, почти равна нулю, но составляет 1 % от темы 4.

Мы могли бы использовать функцию slice_max() dplyr, чтобы найти 5 самых популярных терминов в каждой теме.

Этот аккуратный вывод хорошо подходит для визуализации ggplot2 (рис. 6.4).

Наиболее распространенные термины в каждой теме

Рисунок 6.4. Наиболее распространенные термины в каждой теме

Эти темы явно связаны с четырьмя книгами! Нет никаких сомнений в том, что темы «капитан», «наутилус», «море» и «немо» относятся к Двадцати тысяч лье под водой, и что «джейн», «дарси» и «Элизабет» принадлежит Гордости и предубеждению. Мы видим «пип» и «джо» из Большие надежды и «марсиане», «черный» и «ночь» из Войны миров. Мы также заметили, что, поскольку LDA является методом «нечеткой кластеризации», в нескольких темах могут быть общие слова, например «мисс» в темах 1 и 4 и «время» в темах 3 и 4.

6.2.2 Классификация документов

Каждый документ в этом анализе представляет собой отдельную главу. Таким образом, мы можем захотеть узнать, какие темы связаны с каждым документом. Можем ли мы собрать главы вместе в правильных книгах? Мы можем найти это, изучив вероятности для каждого документа по теме, \(\gamma\) («гамма»).

Каждое из этих значений представляет собой расчетную долю слов из этого документа, созданных из этой темы. Например, модель оценивает, что каждое слово в документе «Большие надежды_57» с вероятностью 0 % относится к теме 1 (Гордость и предубеждение).

Теперь, когда у нас есть эти вероятности тем, мы можем увидеть, насколько хорошо наше обучение без учителя помогло различить четыре книги. Мы ожидаем, что главы в книге будут в основном (или полностью) созданы на основе соответствующей темы.

Сначала мы повторно разделяем название документа на заголовок и главу, после чего можем визуализировать вероятность каждого документа по каждой теме (рис. 6.5).

Гамма-вероятности для каждой главы в каждой книге

Рисунок 6.5: Вероятности гаммы для каждой главы в каждой книге

Мы заметили, что почти все главы из книг Гордость и предубеждение, Война миров и Двадцать тысяч лье под водой были однозначно идентифицируются как отдельная тема.

Похоже, что некоторые главы из книги "Большие надежды" (которая должна быть темой 4) были связаны с другими темами. Были ли случаи, когда тема, наиболее связанная с главой, относилась к другой книге? Сначала мы найдем тему, которая больше всего связана с каждой главой, используя slice_max() , которая фактически является «классификацией» этой главы.

Затем мы можем сравнить каждую тему с «консенсусной» темой для каждой книги (самой распространенной темой среди ее глав) и посмотреть, какие из них чаще всего неверно идентифицируются.

Мы видим, что только две главы из Больших надежд были неправильно классифицированы, так как LDA описала одну как относящуюся к теме «Гордость и предубеждение» (тема 1), а другую — к «Войне миров» (тема 3). Это неплохо для неконтролируемой кластеризации!

6.2.3 По назначению слов: увеличить

Одним из шагов алгоритма LDA является присвоение каждому слову в каждом документе темы. Как правило, чем больше слов в документе назначено этой теме, тем больший вес ( гамма ) будет присвоен этой классификации тем документа.

Возможно, мы возьмем пары исходный документ-слово и найдем, какие слова в каждом документе относятся к какой теме. Это работа функции augment(), которая также возникла в пакете broom как способ очистки вывода модели. В то время как tidy() извлекает статистические компоненты модели, augment() использует модель для добавления информации к каждому наблюдению в исходных данных.

Это возвращает аккуратный фрейм данных о количестве книжных терминов, но добавляет дополнительный столбец: .topic с темой, которой был назначен каждый термин в каждом документе. (Дополнительные столбцы, добавляемые дополнением, всегда начинаются с . , чтобы предотвратить перезапись существующих столбцов). Мы можем объединить эту таблицу назначений с согласованными названиями книг, чтобы определить, какие слова были неправильно классифицированы.

Эта комбинация настоящей книги (название) и книги, присвоенной ей (консенсус), полезна для дальнейшего изучения. Мы можем, например, визуализировать матрицу путаницы, показывающую, как часто слова из одной книги относились к другой, используя count() dplyr и geom_tile ggplot2 (рис. 6.6).

Матрица путаницы, показывающая, где назначен LDA слова из каждой книги. Каждая строка этой таблицы представляет настоящую книгу, из которой взято каждое слово, а каждый столбец представляет, к какой книге оно было отнесено». ширина=

Рисунок 6.6: Матрица путаницы, показывающая, где LDA присваивает слова из каждой книги. Каждая строка этой таблицы представляет настоящую книгу, из которой взято каждое слово, а каждый столбец представляет, к какой книге оно было отнесено.

Мы заметили, что почти все слова для Гордость и предубеждение, Двадцать тысяч лье под водой и Война миров были правильными. назначено, в то время как в Большие надежды было изрядное количество неправильно назначенных слов (что, как мы видели выше, привело к неправильной классификации двух глав).

С какими словами чаще всего ошибались?

Мы видим, что некоторые слова часто относились к кластеру «Гордость и предубеждение» или «Война миров», даже когда они появлялись в «Больших надеждах». Для некоторых из этих слов, таких как «любовь» и «леди», это потому, что они чаще встречаются в «Гордости и предубеждении» (мы можем подтвердить это, изучив подсчеты).

С другой стороны, есть несколько неправильно классифицированных слов, которые никогда не появлялись в романе, к которому они были отнесены по ошибке. Например, мы можем подтвердить, что слово «флопсон» появляется только в Большие надежды, несмотря на то, что оно относится к кластеру «Гордость и предубеждение».

Алгоритм LDA является стохастическим, и он может случайно найти тему, охватывающую несколько книг.

6.3 Альтернативные реализации LDA

Функция LDA() в пакете топиков — это только одна из реализаций скрытого алгоритма распределения Дирихле. Например, пакет mallet (Mimno 2013) реализует оболочку для Java-пакета MALLET для инструментов классификации текста, а пакет tidytext также предоставляет tidiers для вывода этой модели.

Пакет mallet использует несколько иной подход к формату ввода. Например, он берет немаркированные документы и сам выполняет токенизацию и требует отдельного файла стоп-слов. Это означает, что мы должны свернуть текст в одну строку для каждого документа перед выполнением LDA.

Однако после создания модели мы можем использовать функции tidy() и augment(), описанные в оставшейся части главы, практически идентичным образом. Это включает в себя извлечение вероятностей слов в каждой теме или темах в каждом документе.

Мы могли бы использовать ggplot2 для исследования и визуализации модели так же, как мы делали вывод LDA.

6.4 Резюме

В этой главе представлено тематическое моделирование для поиска кластеров слов, характеризующих набор документов, и показано, как глагол tidy() позволяет нам исследовать и понимать эти модели с помощью dplyr и ggplot2. Это одно из преимуществ аккуратного подхода к исследованию модели: проблемы различных форматов вывода решаются функциями очистки, и мы можем исследовать результаты модели, используя стандартный набор инструментов. В частности, мы увидели, что тематическое моделирование способно отделять и различать главы из четырех отдельных книг, и исследовали ограничения модели, находя слова и главы, которые были назначены неправильно.

Paint 3D – это встроенное приложение для творчества, бесплатно поставляемое с Windows 10*. Он разработан, чтобы быть простым, но мощным, позволяя вам создавать профессиональные или забавные творческие проекты, легко комбинируя инструменты 2D и 3D.Самое приятное то, что вам не нужен опыт проектирования — Paint 3D может использовать любой. Доступный интерфейс позволяет легко настраивать существующие 3D-модели из нашей встроенной 3D-библиотеки или создавать 3D-проекты с нуля.

Начало работы: основная навигация в Paint 3D

 Краска 3D

  • Кисти. Расширьте свои художественные возможности с помощью уникальных ручек и кистей, которые имитируют реальные материалы без беспорядка. Попробуйте прозрачную акварель, которая красиво омывает холст, или масляную живопись настолько реалистично, что вы можете видеть, как краска смазывается. Эти художественные кисти работают как на холсте, так и на 3D-моделях с профессиональными эффектами, такими как полированный металл и матовость, чтобы персонализировать ваши проекты.
  • 2D-фигуры. С нашей коллекцией 2D-фигур и инструментом "Линия и кривая" легко рисовать идеальные фигуры. Используйте контрольные круги, чтобы изменить кривизну на нужный угол. Вы также можете нажать «Создать 3D», чтобы превратить фигуру в слой с дополнительными параметрами поворота.
  • 3D-фигуры. Есть много способов начать работу в 3D. Используйте готовые формы, чтобы быстро приступить к созданию новой модели, или используйте инструмент 3D-рисунков, чтобы мгновенно превратить ваши 2D-наброски в 3D-модели. Просто обведите дизайн по фотографии или нарисуйте одну свободную руку и наблюдайте, как он мгновенно превращается в 3D-модель. 3D-каракули с острыми краями создают четкие линии, идеально подходящие для рисования звезды. Трехмерный рисунок с плавными краями создает мягкую кривую, идеально подходящую для рисования облака.
  • Наклейки. Это уникальный и простой способ добавить текстуру вашим творениям. Используйте этот инструмент, чтобы поэкспериментировать с такими материалами, как дерево или мрамор, или загрузите свою фотографию, чтобы создать наклейку с собственной текстурой. Он мгновенно оборачивает 3D-объекты — никаких предварительных знаний о 3D не требуется! Вы также можете настроить прозрачность стикера.
  • Текст: добавьте слова, используя наши параметры 2D- и 3D-текста. 2D-текст привяжет текст к холсту, а 3D-текст позволит вам перемещать его по холсту и вращать в разных направлениях.
  • Эффекты: создавайте уникальные настроения, такие как успокаивающий туман или загадочная ночь, изменяя окружающую среду и освещение в своих 3D-сценах. Вы даже можете вращать солнце вокруг светового колеса, чтобы изменить направление освещения.
  • Холст. Этот цифровой холст имитирует холст художника. Эта вкладка позволяет изменять размер и управлять размерами, включая отключение 2D-холста, чтобы вы могли свободно создавать свою 3D-модель.
  • Волшебный выбор. Простой в использовании инструмент, позволяющий выбрать часть изображения, которую нужно вырезать, и удалить ее с фона. Инструмент мгновенно и почти волшебным образом перенесет ваш выбор на другой слой и интеллектуально автоматически заполнит фон, чтобы скрыть любые пробелы.
  • 3D-библиотека**: просмотрите наш огромный каталог с тысячами бесплатных 3D-моделей, которые вы можете редактировать. Выберите из наших заранее подготовленных коллекций, чтобы быстро приступить к работе, или найдите нужную модель на панели инструментов поиска. Одним касанием вы можете мгновенно импортировать 3D-модель в свой проект и сразу же приступить к перекрашиванию и настройке.
  • Ползунок истории: вы можете отменить и перемотать все свои действия, это похоже на неограниченную кнопку отмены! Ползунок истории записывает каждое изменение в сцене и позволяет прокручивать время назад. Вы даже можете снять видео процесса проектирования и поделиться им с друзьями, нажав кнопку "Начать запись".
  • Режим 3D-просмотра: позволяет перемещаться и просматривать контент под любым углом. Есть также элементы управления, помогающие увеличивать и уменьшать масштаб холста с возможностью ввода точной величины масштаба.
  • Смешанная реальность. Эта функция берет вашу 3D-модель из Paint 3D и запускает ее в приложении Mixed Reality Viewer, чтобы вы могли визуализировать 3D-модель в контексте реального мира. Вы можете сфотографировать или записать короткое видео трехмерного объекта, взаимодействующего с вашим миром, и поделиться им с друзьями.

Paint 3D позволяет легко раскрыть свой творческий потенциал и воплотить свои идеи в жизнь. Чтобы проверить эти функции самостоятельно, вы можете начать работу, открыв приложение Paint 3D. Если вы новичок в Paint 3D, ознакомьтесь со всей серией руководств по Paint 3D здесь или ознакомьтесь с дополнительными руководствами по Paint 3D здесь.

*Чтобы получить доступ ко всем новейшим функциям Paint 3D, вам необходимо установить последнее обновление Windows 10 от апреля 2018 года. Чтобы узнать, как получить обновление Windows 10 за апрель 2018 г., ознакомьтесь с этой записью в блоге.

**3D-библиотека доступна на некоторых рынках. Ознакомьтесь с онлайн-библиотекой здесь.

Читайте также: