Этапы обработки текста программы, включая тексты из заголовочных файлов

Обновлено: 31.10.2025

Word для Microsoft 365 Word для Microsoft 365 для Mac Word для Интернета Word 2021 Word 2021 для Mac Word 2019 Word 2019 для Mac Word 2016 Word 2016 для Mac Word 2013 Word для iPad Word для iPhone Word для планшетов Android Word для Android телефоны Word Mobile Подробнее. Меньше

В этом разделе приведены пошаговые инструкции и рекомендации по тому, как сделать документы Word доступными и разблокировать содержимое для всех, включая людей с ограниченными возможностями.

В Word встроено множество функций, помогающих людям с разными способностями читать и создавать документы. В этом разделе вы узнаете, например, как работать со средством проверки читаемости для решения проблем с доступностью во время написания документа. Вы также узнаете, как добавлять замещающий текст к изображениям, чтобы люди, использующие программы чтения с экрана, могли понять, о чем идет речь на изображении. Вы также можете узнать, как использовать шрифты, цвета и стили, чтобы максимизировать инклюзивность ваших документов Word, прежде чем делиться ими с другими.

В этой теме

Проверка специальных возможностей во время работы в Word

Проверка читаемости – это инструмент, который проверяет ваш контент и отмечает проблемы с доступностью, с которыми он сталкивается. Это объясняет, почему каждая проблема может быть потенциальной проблемой для человека с инвалидностью. Средство проверки читаемости также предлагает способы решения возникающих проблем.

В Word средство проверки читаемости автоматически запускается в фоновом режиме при создании документа. Если средство проверки читаемости обнаружит проблемы со специальными возможностями, вы получите напоминание в строке состояния.

Чтобы запустить средство проверки читаемости вручную, выберите «Обзор» > «Проверить читаемость». Откроется панель «Специальные возможности», и теперь вы можете просматривать и устранять проблемы со специальными возможностями. Дополнительные сведения см. в статье Улучшение специальных возможностей с помощью средства проверки читаемости и видео: проверьте доступность вашего документа.

Совет. Используйте надстройку «Напоминание о специальных возможностях» для Office, чтобы уведомлять авторов и участников о проблемах с доступностью в их документах.С помощью надстройки вы можете быстро добавлять комментарии-напоминания, которые распространяют информацию о проблемах доступности и поощряют использование средства проверки читаемости. Дополнительную информацию см. в разделе Использование напоминания о специальных возможностях для уведомления авторов о проблемах со специальными возможностями.

Избегайте использования таблиц

Как правило, по возможности избегайте таблиц и представляйте данные в другом виде, например в виде абзацев с заголовками и баннерами. Таблицы с фиксированной шириной могут оказаться трудными для чтения пользователями экранной лупы, поскольку такие таблицы заставляют содержимое иметь определенный размер. Это делает шрифт очень маленьким, что заставляет пользователей экранной лупы прокручивать страницу по горизонтали, особенно на мобильных устройствах.

Если вам приходится использовать таблицы, воспользуйтесь следующими рекомендациями, чтобы сделать вашу таблицу максимально доступной:

Избегайте таблиц фиксированной ширины.

Убедитесь, что таблицы правильно отображаются на всех устройствах, включая телефоны и планшеты.

Если в таблице есть гиперссылки, отредактируйте тексты ссылок, чтобы они имели смысл и не прерывались на середине предложения.

Убедитесь, что документ легко читается с помощью лупы. Отправьте черновик документа себе и просмотрите его на мобильном устройстве, чтобы людям не приходилось, например, горизонтально прокручивать документ на телефоне.

Использовать заголовки таблицы

Программы чтения с экрана отслеживают свое местоположение в таблице, подсчитывая ячейки таблицы. Если таблица вложена в другую таблицу или если ячейка объединена или разделена, средство чтения с экрана теряет счет и не может предоставить полезную информацию о таблице после этого момента. Пустые ячейки в таблице также могут ввести в заблуждение пользователя программы чтения с экрана, заставив его думать, что в таблице больше ничего нет. Используйте простую структуру таблицы только для данных и укажите информацию заголовка столбца. Средства чтения с экрана также используют информацию заголовков для идентификации строк и столбцов.

Пошаговые инструкции по добавлению строки заголовка в таблицу см. в разделе Создание таблиц со специальными возможностями в Word.

Используйте встроенные заголовки и стили

Заголовки предназначены для сканирования как визуально, так и с помощью вспомогательных технологий. В идеале заголовки объясняют, о чем раздел документа. Используйте встроенные стили заголовков и создавайте описательные тексты заголовков, чтобы пользователям программы чтения с экрана было проще определять структуру документа и перемещаться по заголовкам.

Располагайте заголовки в установленном логическом порядке и не пропускайте уровни заголовков. Например, используйте «Заголовок 1», «Заголовок 2», а затем «Заголовок 3», а не «Заголовок 3», «Заголовок 1» и «Заголовок 2». Разбейте информацию в документе на небольшие фрагменты. В идеале каждый заголовок должен состоять всего из нескольких абзацев.

Пошаговые инструкции по использованию заголовков и стилей см. в разделе Повышение доступности с помощью стилей заголовков.

Создать баннеры абзаца

Помимо использования заголовков для организации содержимого в документе, вы также можете создавать баннеры абзацев. В баннере абзаца блок фонового цвета простирается по ширине документа и выделяет текст внутри баннера. Это отличная альтернатива таблицам для организации и разделения контента.

Инструкции по созданию баннеров абзацев см. в разделе Применение заливки к словам или абзацам.

Добавить замещающий текст к визуальным элементам

Замещающий текст помогает людям, которые не видят экран, понять, что важно в визуальном содержании. Визуальное содержимое включает изображения, графику SmartArt, фигуры, группы, диаграммы, встроенные объекты, рукописный ввод и видео. В замещающем тексте кратко опишите изображение и упомяните его назначение. Программы чтения с экрана читают текст, чтобы описать изображение пользователям, которые не могут его видеть.

Избегайте использования текста в изображениях в качестве единственного способа передачи важной информации. Если вы должны использовать изображение с текстом, повторите этот текст в документе. В замещающем тексте кратко опишите изображение и упомяните о существовании текста и его назначении.

Совет. Чтобы написать хороший замещающий текст, убедитесь, что содержание и цель изображения переданы лаконично и недвусмысленно. Альтернативный текст не должен быть длиннее одного-двух коротких предложений — в большинстве случаев достаточно будет нескольких тщательно подобранных слов. Не повторяйте окружающий текст как замещающий текст и не используйте фразы, относящиеся к изображениям, например «графика» или «изображение». Дополнительную информацию о том, как написать замещающий текст, см. в статье Все, что вам нужно знать, чтобы написать эффективный замещающий текст.

Чтобы найти отсутствующий замещающий текст, используйте средство проверки читаемости.

Для аудио- и видеоконтента, помимо замещающего текста, включите скрытые субтитры для глухих или слабослышащих.

Вместо того чтобы группировать объекты на диаграмме, сведите диаграмму в изображение и добавьте к изображению замещающий текст. Если вы группируете объекты, дочерние объекты по-прежнему находятся в порядке табуляции с группами.

Добавить доступный текст гиперссылки и всплывающие подсказки

Люди, использующие программы чтения с экрана, иногда просматривают список ссылок. Ссылки должны передавать четкую и точную информацию о месте назначения. Например, не используйте такие тексты ссылок, как "Нажмите здесь", "Посмотрите эту страницу", "Перейдите сюда" или "Подробнее". Вместо этого укажите полное название целевой страницы. Вы также можете добавить всплывающие подсказки, которые появляются при наведении курсора. наводит курсор на текст или изображения, содержащие гиперссылку.

Совет. Если заголовок на целевой странице гиперссылки дает точное представление о том, что находится на странице, используйте его для текста гиперссылки. Например, этот текст гиперссылки соответствует заголовку на целевой странице: Создавайте больше с помощью шаблонов Microsoft.

Пошаговые инструкции по созданию специальных гиперссылок и всплывающих подсказок см. в разделах Создание специальных ссылок в Word и Создание или изменение гиперссылки.

Используйте доступный формат и цвет шрифта

Шрифт со специальными возможностями не исключает и не замедляет скорость чтения любого человека, читающего документ, в том числе людей со слабым зрением или ограниченными возможностями чтения, а также слепых людей. Правильный шрифт улучшает разборчивость и читабельность документа.

Инструкции по изменению шрифта по умолчанию см. в статье Изменение шрифта по умолчанию в Word.

Используйте доступный формат шрифта

Вот несколько идей для размышления:

Чтобы уменьшить нагрузку при чтении, выберите знакомые шрифты без засечек, такие как Arial или Calibri. Избегайте использования заглавных букв и чрезмерного выделения курсивом или подчеркиванием.

Человек с нарушениями зрения может упустить смысл, передаваемый определенными цветами. Например, добавьте подчеркивание к тексту гиперссылки с цветовой кодировкой, чтобы люди с дальтонизмом знали, что текст является ссылкой, даже если они не видят цвет.

Для заголовков рассмотрите возможность выделения полужирным шрифтом или использования более крупного шрифта.

Добавьте фигуры, если для обозначения статуса используется цвет. Например, добавьте символ галочки, если зеленый используется для обозначения "пройдено", и X в верхнем регистре, если красный означает "не пройдено".

Используйте доступный цвет шрифта

Текст в документе должен быть читабельным в режиме высокой контрастности. Например, используйте яркие цвета или высококонтрастные цветовые схемы на противоположных концах цветового спектра. Белая и черная схемы помогают людям с дальтонизмом различать текст и фигуры.

Вот несколько идей для размышления:

Чтобы текст хорошо отображался в высококонтрастном режиме, используйте параметр "Автоматически" для цветов шрифта. Инструкции по изменению цвета шрифта в Word см. в разделе Изменение цвета шрифта.

Используйте средство проверки читаемости, чтобы проанализировать документ и найти недостаточный цветовой контраст. Инструмент теперь проверяет документы на соответствие цвета текста цвету страницы, фону ячеек таблицы, выделению, цвету заливки текстового поля, затенению абзаца, заливке фигур и SmartArt, верхним и нижним колонтитулам и ссылкам.

Используйте Color Contrast Analyser, бесплатное приложение, которое анализирует цвета и контрастность и практически сразу отображает результаты.

Создавайте доступные списки

Чтобы облегчить чтение документа программам чтения с экрана, разбейте информацию в нем на небольшие фрагменты, такие как маркированные или нумерованные списки.

Создавайте списки таким образом, чтобы вам не нужно было добавлять в середину списка простой абзац без маркера или номера. Если ваш список разбит простым абзацем, некоторые программы чтения с экрана могут неправильно объявить количество элементов списка. Кроме того, пользователь может услышать в середине списка, что он покидает список.

Пошаговые инструкции по созданию списков см. в разделе Создание маркированного или нумерованного списка.

Отрегулируйте расстояние между предложениями и абзацами

Люди, страдающие дислексией, описывают, что видят, как текст "плавает вместе" на странице (сжатие одной строки текста до строки ниже). Они часто видят, как текст сливается или искажается. Чтобы уменьшить нагрузку при чтении, вы можете увеличить пробелы между предложениями и абзацами.

Пошаговые инструкции по настройке интервалов см. в разделе Настройка отступов и интервалов в Word.

Проверить доступность с помощью иммерсивного средства чтения

Попробуйте прочитать документ с помощью иммерсивного средства чтения, чтобы проверить, как он звучит.

Обработка текстов обычно означает создание, редактирование, форматирование, хранение и вывод как печатных, так и онлайновых или электронных документов. Обработка текстов, несомненно, является наиболее часто используемым бизнес-приложением для персональных компьютеров, возможно, наряду с браузерами World Wide Web и приложениями для электронной почты.

Программное обеспечение для обработки текстов включает в себя базовые приложения, предназначенные для случайных деловых или домашних пользователей, а также мощные расширенные приложения, способные удовлетворить самые требовательные потребности бизнеса. Многие приложения для обработки текстов предназначены для использования в составе набора или интегрированной группы программ для обработки текстов, электронных таблиц и презентаций.Например, Microsoft Word, вероятно, наиболее широко используемое программное обеспечение для обработки текстов, является частью пакета Microsoft Office, который включает в себя программу для презентаций Microsoft PowerPoint и программу для работы с электронными таблицами Excel. Corel WordPerfect, менее распространенная, но очень популярная программа для обработки текстов, является частью пакета Corel WordPerfect Office, который включает программное обеспечение для работы с электронными таблицами Quattro Pro и программное обеспечение для создания мультимедийных слайд-шоу Presentations.

Большинство текстовых процессоров включают в себя одни и те же основные функции обработки текстов и ряд более продвинутых функций для создания и форматирования документов.

ОСНОВНЫЕ ФУНКЦИИ ДЛЯ ОБРАБОТКИ ТЕКСТА

Основные функции обработки текстов можно сгруппировать по категориям ввода, обработки, форматирования и вывода текста.

Ввод текста

Обычно текст вводится в текстовый процессор с клавиатуры; другие методы ввода включают:

Копирование текста из других приложений (например, из документов на языке гипертекстовой разметки [HTML], сообщений электронной почты или онлайн-энциклопедий) и вставка его в текстовый документ.
Сканирование печатных документов и использование программного обеспечения оптического распознавания символов (OCR) для преобразования отсканированных документов в текстовые символы.
Использование программного обеспечения для распознавания голоса для преобразования произносимых слов в текстовые символы.

Обработка текста

Операции с текстом относятся к "обрабатывающей" части обработки текста. Текстовые процессоры предоставляют простые методы удаления, вставки, копирования и перемещения отдельных символов, слов, фраз и абзацев — даже целых страниц информации — несколькими щелчками кнопки мыши или такими сочетаниями клавиш, как Ctrl-C для копирования, Ctrl-X, чтобы вырезать, и Ctrl-V, чтобы вставить или вставить текст. Текст может автоматически проверяться на орфографию и соответствие основным грамматическим принципам по мере ввода и редактирования текста.

Функция поиска и замены в текстовом процессоре позволяет пользователю искать каждое вхождение определенного символа, слова или фразы в документе и заменять его новым текстом. Большинство текстовых процессоров также включают автоматическое исправление и автоматическое форматирование распространенных ошибок и механических условных обозначений при вводе текста с клавиатуры. Например, слова с частыми ошибками могут быть автоматически исправлены сразу после ввода слов с ошибками; два пробела, введенные после конца предложения, могут автоматически заменяться одним пробелом; строчная буква, начинающаяся с нового предложения, может быть автоматически заглавной. Правильные типографские кавычки («элегантные» или «фигурные» кавычки — «и») и апострофы (') могут быть вставлены автоматически вместо прямых кавычек в стиле пишущей машинки, введенных с клавиатуры. Дроби и другие символы могут форматироваться автоматически при вводе их эквивалентов с клавиатуры. Например, когда дробь для половины вводится как 1/2, она заменяется символом ½ два дефиса (--) заменяются на длинное тире (-); и (c) изменено на © .

Форматирование текста

Программное обеспечение для обработки текстов обычно включает в себя функции "мастера" или "справки", обеспечивающие автоматическое форматирование стандартных деловых документов. Например, мастер письма может помочь пользователю правильно отформатировать деловое письмо, а мастер письма может помочь пользователю отформатировать профессионально выглядящее письмо. Шаблоны — еще одна функция автоматического форматирования. Шаблон — это тип предварительно отформатированного документа с заполнением пустого места, который полезен для сохранения определенного формата каждый раз при создании документа, особенно когда задействовано несколько операторов текстового процессора. Шаблон бюллетеня, например, позволяет пользователю вводить текст статей бюллетеня, заголовки и графику без необходимости заново создавать макет бюллетеня для каждого выпуска бюллетеня.

Наиболее распространенные задачи форматирования обычно выполняются пользователем при создании документа. Индивидуальное форматирование символов и слов включает выбор размера шрифта, стиля и гарнитуры шрифта. Размер измеряется в точках, единице измерения, в которой 72 точки составляют дюйм. Как правило, для основных деловых документов используется шрифт 11 или 12 пунктов. Информационные бюллетени, годовые отчеты и другие подобные «дизайнерские» документы могут использовать шрифт от 8 до 9 пунктов для основного текста и до 24, 36 или 48 пунктов (или более) для основных заголовков. Стили шрифта, такие как курсив, подчеркивание и жирный шрифт, легко выбираются с помощью сочетаний клавиш или путем их выбора в основном меню шрифтов. Гарнитуры (гарнитура означает внешний вид или дизайн шрифта) доступны в тысячах вариантов, включая такие широко известные шрифты, как Times Roman, Arial, Helvetica и Garamond.

Форматирование абзаца включает межстрочный интервал, то есть количество пустого пространства, оставленного между строками текста (например, одинарный или двойной интервал); интервал между абзацами (количество пустого пространства, которое предшествует или следует за каждым абзацем); выравнивание по ширине (все строки шрифта сделаны ровными на обоих полях или оставлены неровными или рваными на правом поле); и отступ (например, отступ первой строки в начале каждого абзаца).

Форматирование страницы и документа в целом включает в себя настройку полей (обычно 1-дюймовые поля используются сверху, снизу и с обеих сторон таких основных деловых документов, как письма, отчеты и заметки), создание столбцов, подобных тем, которые используются в газеты или информационного бюллетеня, а также создание верхних и нижних колонтитулов (информация, такая как номер страницы или название главы, которое повторяется вверху или внизу каждой страницы документа). Большинство текстовых процессоров также предоставляют специальные функции макета для форматирования планов, таблиц, конвертов и почтовых наклеек.

Вывод текста

После того как текст создан, отредактирован и отформатирован в готовый электронный документ, он должен быть помещен в какую-либо материальную форму или прочную электронную форму, чтобы приносить практическую пользу. Этот процесс вывода обычно начинается с сохранения документа на жестком диске компьютера, гибком диске, компакт-диске или запоминающем устройстве, таком как флэш-накопитель. На самом деле сохранение документа — это действие, которое должно часто выполняться в процессе создания и редактирования, чтобы защитить его от потери из-за таких проблем, как перебои в подаче электроэнергии, сбои в работе компьютера и ошибки оператора.

Печать документа на бумаге — наиболее распространенный способ вывода; другие методы вывода включают отправку документа по факсу непосредственно из текстового процессора с использованием компьютерного модема, отправку документа другому лицу по электронной почте и преобразование документа текстового процессора в различные другие электронные форматы для онлайн-просмотра или возможной печати из другие приложения. Например, текстовые документы часто преобразуются в HTML для использования в качестве веб-страниц, в файлы формата переносимых документов (PDF) и в файлы форматированного текста (RTF) для использования в других компьютерных программах (в частности, в других программах обработки текстов). .

РАСШИРЕННЫЕ ФУНКЦИИ ОБРАБОТКИ ТЕКСТА

Хотя большинство пользователей текстовых процессоров, как правило, изучают и используют в основном базовые функции текстового редактора, в большинстве текстовых процессоров доступно множество более продвинутых функций, которые значительно упрощают обработку текстов за меньшее время. Время, потраченное на изучение некоторых продвинутых возможностей и функций текстового редактора, обычно окупается с точки зрения продуктивности и профессионализма.

Некоторые из наиболее распространенных расширенных возможностей и функций текстового редактора кратко описаны ниже:

Стили

Стили – это создаваемые пользователем команды форматирования, которые обеспечивают полный контроль над повторяющимися структурами форматирования в документе. Например, использование «стиля» для каждого типа заголовка в отчете обеспечит согласованное форматирование заголовков и избавит пользователя от необходимости вручную форматировать каждый заголовок по мере его создания.

Макросы и объединение

Макросы — это сохраненные нажатия клавиш или наборы команд редактирования и форматирования, которые можно воспроизвести при необходимости. Макросы могут повысить производительность и облегчить выполнение повторяющихся задач по обработке текста. Слияние — это процесс использования списков такой информации, как имена, адреса, номера телефонов, описания продуктов или номера моделей и т. д., для заполнения определенных полей или пробелов в документах для создания массовых рассылок, адресных этикеток, справочников и каталогов.< /p>

Контроль версий

Функции контроля версий позволяют пользователю отслеживать различные этапы редактирования, через которые может пройти документ, включая версии, созданные несколькими пользователями, участвующими в создании и редактировании документа. Связанные функции, такие как возможность отслеживать изменения, внесенные в документ, позволяют нескольким пользователям просматривать предлагаемые изменения документа и принимать или отклонять предложенные изменения.

Автоматические ссылки и указатели

Документы, содержащие оглавления, перекрестные ссылки, индексы, сноски, концевые сноски и подписи, выиграют от возможности текстового процессора автоматически создавать и форматировать эти элементы.

Возможности публикации на рабочем столе

Профессионально выглядящие документы, такие как информационные бюллетени, рекламные объявления, годовые отчеты, брошюры и визитные карточки, можно создавать с помощью большинства современных текстовых редакторов.

Графические изображения из коллекций картинок, цифровые фотографии и отсканированные изображения, а также рисунки, созданные с помощью графических программ, можно легко интегрировать в текстовые документы. Страницы и абзацы могут быть заключены в декоративные рамки. На страницы документа можно добавлять фоновые изображения и цвета.Графические элементы, такие как линии, прямоугольники, стрелки и художественные текстовые заголовки, можно быстро и легко создать в большинстве текстовых редакторов.

Хотя текстовые процессоры, как правило, не так сложны, как программное обеспечение для настольных издательских систем или программы для верстки страниц, с точки зрения настройки шрифта и работы с графическими элементами, их можно использовать для создания привлекательных, профессионально выглядящих документов, выходящих за рамки стандартного. базовая компоновка и форматирование писем, заметок и отчетов. Однако использование программы обработки текстов для создания разработанных документов часто предпочтительнее, чем использование высокопроизводительной программы для настольных издательских систем, поскольку пользователям текстовых редакторов не требуется уметь пользоваться другой программой, а также потому, что документы внутри организации или отдела создается и поддерживается с помощью одного и того же приложения.

библиография

Буки, Лиза А. (2005). Изучение компьютерных приложений: проекты и упражнения (3-е изд.). Нью-Йорк: Пирсон Прентис Холл.

О'Лири, Тимоти Дж., и О'Лири, Линда И. (2006). Основы вычислительной техники (ред. ред.). Бостон: McGraw-Hill.

Шелли, Гэри Б., Кэшман, Томас Дж., и Вермаат, Мисти Э. (2003). Discovering computer 2004: A gateway to information. Boston: Course Technology.

Текстовые данные требуют специальной подготовки, прежде чем вы сможете начать использовать их для прогнозного моделирования.

Текст должен быть проанализирован для удаления слов, что называется токенизацией. Затем слова должны быть закодированы как целые числа или значения с плавающей запятой для использования в качестве входных данных для алгоритма машинного обучения, называемого извлечением признаков (или векторизацией).

Библиотека scikit-learn предлагает простые в использовании инструменты для выполнения токенизации и извлечения функций из ваших текстовых данных.

В этом руководстве вы узнаете, как именно подготовить текстовые данные для прогнозного моделирования в Python с помощью scikit-learn.

После завершения этого руководства вы будете знать:

Как преобразовать текст в векторы количества слов с помощью CountVectorizer.
Как преобразовать текст в векторы частоты слов с помощью TfidfVectorizer.
Как преобразовать текст в уникальные целые числа с помощью HashingVectorizer.

Начните свой проект с моей новой книги Deep Learning for Natural Language Processing, включающей пошаговые руководства и файлы исходного кода Python для всех примеров.

Приступим.

Как подготовить текстовые данные для машинного обучения с помощью scikit-learn
Фото Мартина Келли, некоторые права защищены.

Модель мешка слов

При использовании алгоритмов машинного обучения мы не можем работать с текстом напрямую.

Вместо этого нам нужно преобразовать текст в числа.

Возможно, нам потребуется выполнить классификацию документов, чтобы каждый документ был «входным», а метка класса — «выходным» для нашего алгоритма прогнозирования. Алгоритмы принимают на вход векторы чисел, поэтому нам нужно преобразовать документы в векторы чисел фиксированной длины.

Простая и эффективная модель для анализа текстовых документов в машинном обучении называется моделью мешка слов, или BoW.

Модель проста тем, что отбрасывает всю информацию о порядке слов и фокусируется на встречаемости слов в документе.

Это можно сделать, присвоив каждому слову уникальный номер. Тогда любой документ, который мы видим, может быть закодирован как вектор фиксированной длины с длиной словаря известных слов. Значение в каждой позиции в векторе может быть заполнено количеством или частотой каждого слова в закодированном документе.

Это модель мешка слов, в которой нас интересуют только схемы кодирования, которые представляют, какие слова присутствуют или в какой степени они присутствуют в закодированных документах, без какой-либо информации о порядке.

Подробнее о модели мешка слов см. в руководстве:

Существует много способов расширить этот простой метод, как путем лучшего разъяснения того, что такое "слово", так и путем определения того, что следует кодировать для каждого слова в векторе.

Библиотека scikit-learn предоставляет 3 различные схемы, которые мы можем использовать, и мы кратко рассмотрим каждую из них.

Нужна помощь с глубоким обучением для текстовых данных?

Пройдите мой бесплатный 7-дневный экспресс-курс по электронной почте прямо сейчас (с кодом).

Нажмите, чтобы зарегистрироваться, а также получить бесплатную электронную версию курса в формате PDF.

Начните БЕСПЛАТНЫЙ экспресс-курс прямо сейчас

Подсчет слов с помощью CountVectorizer

CountVectorizer предоставляет простой способ токенизации набора текстовых документов и создания словаря известных слов, а также кодирования новых документов с использованием этого словаря.

Вы можете использовать его следующим образом:

Создайте экземпляр класса CountVectorizer.
Вызовите функцию fit(), чтобы выучить словарь из одного или нескольких документов.
При необходимости вызовите функцию transform() для одного или нескольких документов, чтобы закодировать каждый из них как вектор.

Закодированный вектор возвращается с длиной всего словаря и целым числом, указывающим, сколько раз каждое слово появляется в документе.

Поскольку эти векторы будут содержать много нулей, мы называем их разреженными. Python предоставляет эффективный способ обработки разреженных векторов в пакете scipy.sparse.

Вектора, возвращаемые вызовом transform(), будут разреженными векторами, и вы можете преобразовать их обратно в пустые массивы, чтобы посмотреть и лучше понять, что происходит, вызвав функцию toarray().

Ниже приведен пример использования CountVectorizer для токенизации, создания словаря и последующего кодирования документа.

Microsoft Power BI Desktop – это бесплатное приложение, которое позволяет подключаться к данным, преобразовывать и визуализировать их. Извлечение ключевых фраз, одна из функций Azure Cognitive Service for Language, обеспечивает обработку естественного языка. Учитывая необработанный неструктурированный текст, он может извлекать наиболее важные фразы, анализировать настроения и идентифицировать известные объекты, такие как бренды. Вместе эти инструменты помогут вам быстро понять, о чем говорят ваши клиенты и что они думают об этом.

В этом руководстве вы узнаете, как:

Используйте Power BI Desktop для импорта и преобразования данных
Создание пользовательской функции в Power BI Desktop
Интеграция Power BI Desktop с функцией извлечения ключевой фразы Azure Cognitive Service for Language
Используйте извлечение ключевых фраз, чтобы получить наиболее важные фразы из отзывов клиентов.
Создайте облако слов на основе отзывов клиентов.

Предпосылки

Microsoft Power BI Desktop. Скачайте бесплатно.
Учетная запись Microsoft Azure. Создайте бесплатную учетную запись или войдите в систему.
Языковой ресурс. Если у вас его нет, вы можете создать его.
Ключ языкового ресурса, созданный для вас во время регистрации.
Комментарии клиентов. Вы можете использовать наши примеры данных или свои собственные данные. В этом руководстве предполагается, что вы используете данные из нашего примера.

Загрузить данные о клиентах

Чтобы приступить к работе, откройте Power BI Desktop и загрузите файл значений, разделенных запятыми (CSV), FabrikamComments.csv, который вы загрузили в разделе "Предварительные требования". В этом файле представлена гипотетическая активность за день на форуме поддержки вымышленной небольшой компании.

Power BI может использовать данные из самых разных веб-источников, таких как базы данных SQL. Дополнительные сведения см. в документации по Power Query.

В главном окне Power BI Desktop выберите ленту Главная. В группе ленты "Внешние данные" откройте раскрывающееся меню "Получить данные" и выберите "Текст/CSV".

Появится диалоговое окно "Открыть". Перейдите в папку «Загрузки» или в папку, в которую вы скачали файл FabrikamComments.csv. Щелкните файл FabrikamComments.csv , а затем кнопку «Открыть». Появится диалоговое окно импорта CSV.

Диалоговое окно импорта CSV позволяет убедиться, что Power BI Desktop правильно определил набор символов, разделитель, строки заголовков и типы столбцов. Вся эта информация верна, поэтому нажмите «Загрузить».

Чтобы просмотреть загруженные данные, нажмите кнопку просмотра данных на левом краю рабочей области Power BI. Откроется таблица, содержащая данные, как в Microsoft Excel.

Подготовить данные

Возможно, вам потребуется преобразовать данные в Power BI Desktop, прежде чем они будут готовы к обработке методом извлечения ключевых фраз.

Пример данных содержит столбец темы и столбец комментариев. С помощью функции «Объединить столбцы» в Power BI Desktop вы можете извлекать ключевые фразы из данных в обоих этих столбцах, а не только в столбце комментариев.

В Power BI Desktop выберите ленту Главная. В группе "Внешние данные" нажмите "Изменить запросы".

Выберите FabrikamComments в списке запросов в левой части окна, если он еще не выбран.

Теперь выберите столбцы темы и комментариев в таблице. Возможно, вам придется прокрутить страницу по горизонтали, чтобы увидеть эти столбцы.Сначала щелкните заголовок столбца темы, затем, удерживая нажатой клавишу Control, щелкните заголовок столбца комментариев.

Выберите ленту «Преобразование». В группе Текстовые столбцы на ленте щелкните Объединить столбцы. Появится диалоговое окно "Объединить столбцы".

В диалоговом окне "Объединить столбцы" выберите в качестве разделителя табуляцию, затем нажмите "ОК".

Вы также можете отфильтровать пустые сообщения с помощью фильтра «Удалить пустые» или удалить непечатаемые символы с помощью преобразования «Очистить». Если ваши данные содержат такой столбец, как столбец рейтинга спама в образце файла, вы можете пропустить спам-комментарии с помощью числового фильтра.

Понимание API

Поле	Описание
id	Уникальный идентификатор этого документа в запросе. Ответ также содержит это поле. Таким образом, если вы обрабатываете более одного документа, вы можете легко связать извлеченные ключевые фразы с документом, из которого они взяты. В этом руководстве, поскольку вы обрабатываете только один документ на запрос, вы можете жестко закодировать значение id, чтобы оно было одинаковым для каждого запроса.
text	Текст для обработки. Значение этого поля берется из столбца «Объединено», созданного в предыдущем разделе, который содержит объединенную строку темы и текст комментария. Key Phrases API требует, чтобы длина этих данных не превышала 5120 символов.
language	Код естественного языка, на котором написан документ. Все сообщения в образце данных на английском языке, поэтому вы можете жестко запрограммировать значение en для этого поля.

Создать пользовательскую функцию

В Power BI Desktop убедитесь, что вы все еще находитесь в окне редактора запросов. Если это не так, выберите ленту Главная и в группе Внешние данные щелкните Изменить запросы.

Теперь на ленте Главная в группе Новый запрос откройте раскрывающееся меню Новый источник и выберите Пустой запрос.

В списке Запросы появится новый запрос, первоначально названный Query1 . Дважды щелкните эту запись и назовите ее KeyPhrases .

Теперь на ленте Главная в группе Запрос нажмите Расширенный редактор, чтобы открыть окно Расширенный редактор. Удалите код, который уже находится в этом окне, и вставьте следующий код.

Замените приведенный ниже пример конечной точки (содержащей ) на конечную точку, созданную для вашего языкового ресурса. Вы можете найти эту конечную точку, войдя на портал Azure, перейдя к своему ресурсу и выбрав Ключ и конечную точку.

Замените YOUR_API_KEY_HERE своим ключом языкового ресурса. Вы также можете найти этот ключ, войдя на портал Azure, перейдя к своему языковому ресурсу и выбрав страницу "Ключ и конечная точка". Не забудьте оставить кавычки до и после ключа. Затем нажмите "Готово".

Использовать пользовательскую функцию

Теперь вы можете использовать пользовательскую функцию для извлечения ключевых фраз из каждого комментария клиента и сохранения их в новом столбце таблицы.

В Power BI Desktop в окне редактора запросов вернитесь к запросу FabrikamComments. Выберите ленту Добавить столбец. В группе «Общие» нажмите «Вызвать пользовательскую функцию».

Появится диалоговое окно «Вызов пользовательской функции». В поле Имя нового столбца введите ключевые фразы . В запросе функции выберите созданную вами пользовательскую функцию KeyPhrases .

В диалоговом окне появится новое поле, текст (необязательно). В этом поле задается вопрос, какой столбец мы хотим использовать для ввода значений текстового параметра Key Phrases API. (Помните, что вы уже жестко закодировали значения параметров языка и идентификатора.) В раскрывающемся меню выберите «Объединенный» (столбец, который вы создали ранее путем объединения полей темы и сообщения).

Наконец, нажмите OK.

Если все готово, Power BI вызывает пользовательскую функцию один раз для каждой строки в таблице. Он отправляет запросы в Key Phrases API и добавляет в таблицу новый столбец для хранения результатов. Но прежде чем это произойдет, вам может потребоваться указать параметры аутентификации и конфиденциальности.

Аутентификация и конфиденциальность

После закрытия диалогового окна "Вызов пользовательской функции" может появиться баннер с просьбой указать, как подключиться к API ключевых фраз.

Нажмите «Изменить учетные данные», убедитесь, что в диалоговом окне выбран параметр «Аноним», затем нажмите «Подключиться».

Если вы видите баннер «Изменить учетные данные» даже после выбора анонимного доступа, возможно, вы забыли вставить ключ своего языкового ресурса в код пользовательской функции KeyPhrases.

Далее может появиться баннер с просьбой предоставить информацию о конфиденциальности ваших источников данных.

Нажмите «Продолжить» и выберите «Общедоступный» для каждого из источников данных в диалоговом окне. Затем нажмите Сохранить.

Создайте облако слов

После того как вы разберетесь со всеми появляющимися баннерами, нажмите «Закрыть и применить» на ленте «Главная», чтобы закрыть редактор запросов.

Теперь вы будете использовать этот столбец для создания облака слов. Чтобы начать работу, нажмите кнопку "Отчет" в главном окне Power BI Desktop слева от рабочей области.

Зачем использовать извлеченные ключевые фразы для создания облака слов, а не полный текст каждого комментария? Ключевые фразы предоставляют нам важные слова из комментариев наших клиентов, а не только наиболее распространенные слова. Кроме того, размер слов в полученном облаке не искажается из-за частого использования слова в относительно небольшом количестве комментариев.

Если у вас еще не установлен пользовательский визуальный элемент Word Cloud, установите его. На панели «Визуализации» справа от рабочей области щелкните три точки (. ) и выберите «Импорт из Market». Если слова «облако» нет среди отображаемых инструментов визуализации в списке, вы можете выполнить поиск по слову «облако» и нажать кнопку «Добавить» рядом с визуальным элементом «Облако слов». Power BI установит визуальный элемент Word Cloud и сообщит вам об успешной установке.

Сначала нажмите значок Word Cloud на панели визуализаций.

В рабочей области появится новый отчет. Перетащите поле ключевых фраз с панели «Поля» в поле «Категория» на панели «Визуализации». Облако слов появится внутри отчета.

Теперь перейдите на страницу Формат панели Визуализации. В категории «Стоп-слова» включите «Стоп-слова по умолчанию», чтобы убрать из облака короткие распространенные слова, такие как «из». Однако, поскольку мы визуализируем ключевые фразы, они могут не содержать стоп-слова.

Чуть дальше на этой панели отключите параметр "Поворот текста и заголовка".

Нажмите инструмент "Режим фокусировки" в отчете, чтобы лучше рассмотреть наше облако слов. Инструмент расширяет облако слов, чтобы заполнить всю рабочую область, как показано ниже.

Использование других функций

Azure Cognitive Service for Language также обеспечивает анализ тональности и определение языка. Определение языка, в частности, полезно, если ваши отзывы клиентов не все на английском языке.

Оба этих других API аналогичны API Key Phrases. Это означает, что вы можете интегрировать их с Power BI Desktop, используя пользовательские функции, которые почти идентичны тем, которые вы создали в этом руководстве. Просто создайте пустой запрос и вставьте соответствующий код ниже в расширенный редактор, как вы делали ранее. (Не забудьте свой ключ доступа!) Затем, как и раньше, используйте функцию, чтобы добавить новый столбец в таблицу.

Приведенная ниже функция анализа тональности возвращает метку, указывающую, насколько позитивна тональность, выраженная в тексте.

Вот две версии функции определения языка. Первый возвращает код языка ISO (например, en для английского), а второй возвращает «понятное» имя (например, English ). Вы можете заметить, что между двумя версиями различается только последняя строка тела.

Наконец, вот уже представленный вариант функции Key Phrases, которая возвращает фразы в виде списка, а не в виде одной строки фраз, разделенных запятыми.

Возврат одной строки упростил наш пример с облаком слов. С другой стороны, список — это более гибкий формат для работы с возвращаемыми фразами в Power BI. Вы можете управлять объектами списка в Power BI Desktop, используя группу структурированных столбцов на ленте преобразования редактора запросов.

Дальнейшие шаги

Узнайте больше о Azure Cognitive Service for Language, языке формул Power Query M или Power BI.

Читайте также: