Какая группа файлов содержит только текстовые документы ivanov doc

Обновлено: 02.07.2024

Используя загрузочные файлы, Relativity может загружать следующие типы файлов:

В этих разделах подробно описаны требования к файлам загрузки для соответствующих типов файлов.

Эта страница содержит следующую информацию:

Метаданные, извлеченный текст и исходные файлы

Relativity использует простой файл загрузки на уровне документа для загрузки метаданных, извлеченного текста на уровне документа и собственных файлов. Каждая строка должна представлять один документ.

Кодирование

Клиент Relativity Desktop Client (RDC) по умолчанию пытается определить кодировку файла при первом выборе загружаемого файла. Для этого RDC проверяет метку порядка следования байтов в начале файла. Если нет метки порядка байтов, он не может определить тип кодировки. Типы меток порядка следования байтов включают:

  • Юникод (UTF16)
  • Юникод с прямым порядком байтов
  • UTF8

Все остальное RDC считает необнаруживаемым и использует кодировку по умолчанию, выбранную для загружаемого файла или отдельного извлеченного текстового файла.

Поддерживаются различные варианты кодирования загружаемых файлов, в том числе:

  • Западноевропейская (Windows)
  • Юникод
  • Юникод (с прямым порядком байтов)
  • Юникод (UTF-7)
  • Юникод (UTF-8)
  • Другие варианты в зависимости от вашего SQL-сервера

Заголовок

Relativity не требует загрузки строк заголовка файла. Тем не менее, они настоятельно рекомендуются для обеспечения точности.

Имена полей в заголовке не обязательно должны совпадать с именами полей в рабочей области.

Поля

Relativity не требует определенного порядка полей файла загрузки. Вы можете создать любое количество полей рабочей области для хранения метаданных или кода. В процессе загрузки вы можете сопоставить поля файла загрузки с полями в рабочей области.

Поле идентификатора обязательно для каждой загрузки.

При загрузке новых записей это идентификатор вашей рабочей области.

При выполнении наложения вы можете использовать идентификатор рабочей области или выбрать другое поле в качестве идентификатора. Это полезно при наложении производственных данных. Например, вы можете использовать поле номера Бейтса вместо идентификатора документа в рабочей области.

Все поля, кроме идентификатора, являются необязательными; однако некоторые из следующих системных полей могут оказаться полезными.

  1. Идентификатор – уникальный идентификатор записи.
  2. Идентификатор группы — идентификатор группы семейства документа
    • Идентификатор группы повторяется для всех записей в группе.
    • Обычно это идентификатор родительского документа группы. Например:
      • Если электронное письмо с идентификатором документа AS00001 имеет несколько вложений, электронное письмо и его вложения имеют групповой идентификатор AS00001.
    • Если идентификатор группы для записи не задан, идентификатор документа заполняет поле идентификатора группы в случае. Это эффективно создает «группу» одного документа.
  3. Хэш MD5 — повторяющееся хэш-значение записи
    • Вы можете ввести любой тип хеш-значения (и переименовать поле в вашем случае).
    • Если документы имеют одинаковое хеш-значение, Relativity идентифицирует документы как повторяющуюся группу.
    • Если хеш-поле для записи не задано, идентификатор документа заполняет хэш-поле в случае. Это эффективно создает «группу» одного документа.
  4. Извлеченный текст — текст документа. Либо OCR, либо полный текст.
    • Извлеченный текст отображается в средстве просмотра и добавляется в индексы поиска. Это поле может содержать:
      • Фактическое распознавание символов или полный текст.
      • Путь к текстовому файлу уровня документа, содержащему OCR или полный текст.
  5. Собственный путь к файлу – путь к любым собственным файлам, которые вы хотите загрузить.
    • Поддерживаются как относительные, так и абсолютные пути.
  6. Информация о папке — создает структуру обозревателя папок для документов.
    • Это поле разделяется обратной косой чертой "\".
    • Если не задано, документы загружаются в корень дела.
    • Каждая запись между обратными косыми чертами — это папка в браузере папок Relativity.
    • Каждая обратная косая черта указывает на новую подпапку в браузере.

  • Если значение в этом поле пустое или 0 для документа, дата и время в заголовке электронной почты отображаются по Гринвичу.
  • В это поле можно ввести целое число — положительное или отрицательное — для смещения времени от GMT к местному часовому поясу документа.
    • Например, если документ был получен по времени CDT США, введите в поле «-5», поскольку смещение CDT от GMT равно -5.

    Допустимые форматы даты

    Relativity принимает дату и время как одно поле. Например, «Дата отправки» и «Время отправки» должны быть одним полем.Если дата отправки и время отправки отправляются отдельно, необходимо создать новое поле для времени. Вы можете отформатировать поля даты, чтобы принять дату без времени, но не время без даты. Даты не могут иметь нулевое значение. Форматируйте даты в стандартном формате, например «30.06.2017, 13:23» или «30.06.2017, 13:23».

    Примечание. Когда вы импортируете данные, используя загрузочный файл с форматом даты, который отличается от формата, используемого на вашем локальном компьютере, Relativity следует языковым настройкам вашего локального компьютера, чтобы определить, как он интерпретирует то, что находится в загрузочном файле.< /p>

    В таблице ниже перечислены форматы даты, распознаваемые клиентом Relativity Desktop Client и API импорта. Он содержит как допустимые, так и недопустимые форматы даты:

    Кроме того, Relativity учитывает региональные настройки SQL Server, на котором находится база данных. Например, у вас может быть SQL Server, находящийся в Великобритании, который использует формат даты ДД/ММ/ГГГГ, например 9/04/2011. При доступе к рабочей области на ПК с региональными настройками для Великобритании отображается дата 09.04.2011. При доступе к тому же рабочему пространству на ПК с региональными настройками США дата отображается как 04.09.2011.

    Разделители

    Во время импорта вы можете указать, какие разделители будут использоваться в вашем файле загрузки. Вы можете выбрать каждый разделитель из символов ASCII, от 001 до 255.

    Символы-разделители выполняют следующие функции:

    • Столбец – разделяет столбцы файла загрузки.
    • Цитата — отмечает начало и конец каждого поля загружаемого файла (также известного как текстовый квалификатор).
    • Новая строка — отмечает конец строки в любом извлеченном или длинном текстовом поле.
    • Многозначный — отдельные значения разделяются в столбце. Этот разделитель используется только при импорте в поле множественного выбора Relativity.
    • Вложенные значения — обозначают иерархию выбора. Этот разделитель используется только при импорте в поле множественного выбора Relativity.

    Вложенные значения в Relativity

    Например, предположим, что файл загрузки содержит следующую запись и импортируется в поле с несколькими вариантами ответов: «Hot\Really Hot\Super Hot; Посмотрите позже»
    С многозначным разделителем, установленным как «;» и разделитель вложенных значений, установленный как «\», варианты будут отображаться в Relativity следующим образом:

    Все флажки автоматически устанавливаются под каждым вложенным значением. Требуется полный путь к каждому элементу с множественным выбором.
    Например:


    < /p>

    Чтобы выбрать "01. Да/a. Судебный процесс", добавьте его в запись после ";".

    Разделители по умолчанию

    Если вы создаете свои собственные файлы загрузки, вы можете использовать значения Relativity по умолчанию:

    • Столбец — Unicode 020 (ASCII 020 в приложении)
    • Цитата — Unicode 254 (ASCII 254 в приложении)
    • Новая строка — Unicode 174 (ASCII 174 в приложении)
    • Многозначный — Unicode 059 (ASCII 059 в приложении)
    • Вложенные значения — Unicode 092 (ASCII 092 в приложении)

    Изображения и извлеченные текстовые файлы

    Для импорта изображений Relativity требует загрузки файлов Opticon с кодировкой ANSI/западноевропейской. Этот текстовый файл .opt ссылается на идентификатор элемента управления на уровне страницы. Первая страница должна соответствовать любым данным, которые вы собираетесь загрузить. Этот же процесс можно использовать для импорта извлеченного текста на уровне страницы.

    Relativity не поддерживает файлы .opt Unicode для импорта изображений. Если у вас есть файл .opt в кодировке Unicode, вы должны повторно сохранить этот файл в кодировке ANSI/западноевропейской кодировки.

    Вы должны преобразовать изображения в неподдерживаемые форматы с помощью стороннего инструмента преобразования, прежде чем Relativity сможет их успешно загрузить.

    Форматы файлов изображений

    Relativity поддерживает только следующие типы файлов для загрузки изображений:

    • Одностраничные файлы TIF группы IV (1 бит, черно-белые)
    • Одностраничные файлы JPG

    Многостраничные файлы TIF и PDF можно импортировать в систему, но вы должны загружать их как исходные файлы.

    Загрузить формат файла

    Файл загрузки Opticon представляет собой файл загрузки на уровне страницы, где каждая строка представляет одно изображение.

    Ниже приведен пример:

    REL00001,REL01,D:\IMAGES\001\REL00001.TIF,Y. 3
    REL00002,REL01,D:\IMAGES\001\REL00002.TIF.
    REL00003,REL01,D:\IMAGES\001\REL00003.TIF.
    REL00004,REL01,D:\IMAGES\001\REL00004.TIF,Y. 2
    REL00005,REL01,D:\IMAGES\001\REL00005.TIF.

    Поля слева направо:

    • Field One — (REL00001) — идентификатор страницы
    • Второе поле — (REL01) — идентификатор тома не требуется.
    • Поле 3 — (D:\IMAGES\001\REL00001.TIF) — путь к загружаемому изображению
    • Четвертое поле — (Y) — маркер документа — буква «Y» указывает на начало уникального документа.
    • Пятое поле — (пустое) — может использоваться для обозначения папки
    • Поле шесть — (пустое) — может использоваться для обозначения поля
    • Седьмое поле — (3) — часто используется для хранения количества страниц, но не используется в Relativity.

    Импорт извлеченного текста во время загрузки изображения

    Вы также можете импортировать извлеченный текст во время процесса импорта изображения, задав соответствующий параметр в клиенте Relativity Desktop. Дополнительные сведения об импорте извлеченного текста во время загрузки изображения см. в разделе Импорт файла изображения.

    Никаких изменений в файле загрузки Opticon не требуется. Если вышеупомянутый параметр активен, Relativity ищет файлы txt уровня страницы, имена которых идентичны соответствующим файлам TIF. Например:

    Пример .TIF и файлы .txt

    Обработанные данные

    Некоторые данные поступают из клиентских файлов и требуют обработки для извлечения метаданных. В следующей таблице показаны разделители, которые ваше внутреннее программное обеспечение обработки должно использовать для представления данных в виде полей.

    < /tr>
    Значение Символ Число ASCII
    Колонка 020
    Цитата þ 254< /td>
    Новая строка ® 174
    Многозначный ; 059
    Вложенное значение \ 092

    Вы можете предоставить этот список своему поставщику, чтобы сообщить о необходимом формате доставки для файлов загрузки. Полевые данные должны быть доставлены в виде файлов с разделителями с именами столбцов или полей, расположенными в первой строке.

    Как создать текстовый файл

    На компьютере хранится множество файлов. Вы можете просматривать файлы DOC, RTF, EXE, GIF, JPG и многие другие. Каждый из этих файлов был создан приложением, которое знало, как прочитать файл и обработать его содержимое.

    Простейший тип файла называется "текстовый файл". Это может иметь или не иметь расширение «.txt». Текстовый файл — это файл, в котором хранится очень мало байтов, за исключением фактических кодов содержащихся в нем символов. Текстовый файл, созданный, скажем, Блокнотом и содержащий 4 слова, может иметь размер не более 25 или 30 байт (обратите внимание, НЕ мегабайты или килобайты, а только байты!). Сравните это с файлом Microsoft Word DOC с теми же четырьмя словами в нем — это будет не менее 20 килобайт. Почему разница? потому что Word хранит много дополнительной информации о документе — символы форматирования, имя автора, настройки полей, настройки шрифта и т. д.

    Программист должен знать, какой тип файла он создает. Все эти типы имеют свое применение и, как правило, НЕ взаимозаменяемы.

    В наших заданиях обычно говорится "создать текстовый файл". Это может быть файл входных данных, это может быть выходной файл захвата, это может быть дизайн программы, это может быть план тестирования.

    Совет: если вы используете Windows, настройте свойства папки так, чтобы вы могли видеть расширения файлов. Это значительно облегчает понимание!

    • Редактор в вашей среде IDE подойдет. Следует помнить, что вы хотите сохранить файл с расширением НЕ .py, если файл не содержит кода Python. Должно ли расширение быть .txt? не обязательно, но текстовые файлы очень часто имеют такое расширение.
    • Блокнот — это редактор, который создает текстовые файлы. Он находится в папке «Все программы» в разделе «Стандартные» на компьютере с Windows.
    • Есть и другие редакторы, которые также будут работать. Помните о формате файла, который вы сохраняете — обычно есть поле, которое дает вам выбор.
    • Microsoft Word МОЖЕТ создать текстовый файл, но вы ДОЛЖНЫ его правильно сохранить. Вы должны выбрать «Сохранить как тип» обычного текста (*.txt). Если вы используете тип по умолчанию, вы получаете файл DOC. В Word НЕ достаточно просто ввести имя файла «myfile.txt» в окне «Сохранить». Если ТИП файла установлен неправильно (например, "Обычный текст"), будет создан файл с именем "myfile.txt.doc", который по-прежнему является файлом doc!
    • WordPad сохранит текстовый файл, но опять же, тип по умолчанию — RTF (форматированный текст). Это НЕ текстовый файл! Попробуйте загрузить RTF-файл в Блокнот, и вы увидите там все остальные данные.
    • Как заставить редактор Mac OS TextEdit сохранять как обычный текст
    • Их проще и быстрее создавать
    • они меньше, поэтому ваши zip-файлы меньше и занимают меньше места в нашей системе
    • они более портативны: их может прочитать машина с любой операционной системой.
    • ассистенты могут оценивать задания в системах Unix, а не в системах Windows.
    • и их легче проверить на плагиат

    В заданиях по программированию будут перечислены файлы, которые вы должны сдать, и указаны их типы. Если вы не соответствуете этому, вам будет предложено повторить попытку, и ваше задание не будет считаться сданным до тех пор, пока вы не укажете запрошенные форматы.

    Интервью с министром иностранных дел России Игорем Ивановым, 15 февраля

    Вопрос: Президент США Буш недавно заявил о существовании оси зла, проходящей через Иран, Ирак и Северную Корею. Россия поддерживает тесные отношения с этими странами. Вы расцениваете заявление президента США как упрек в адрес России?

    Министр Иванов: Трудно сказать, чем руководствовался президент США, когда заявлял о существовании этой оси. Мы считаем, что навешивание ярлыков на страны — это пережиток холодной войны. Сейчас мы взаимодействуем в рамках широкой антитеррористической коалиции. Это показывает, что международное сообщество настроено на борьбу с терроризмом и другими угрозами и вызовами. Коалиция будет прочной, если ее действия будут основываться на законе. Итак, Россия решительно выступает за усиление роли ООН в международных антитеррористических усилиях. Мы считаем, что любые действия в рамках борьбы с терроризмом или другими угрозами должны основываться на международном праве и Уставе ООН. Односторонние действия, какая бы сторона к ним ни прибегала, могут нанести серьезный удар по международным усилиям.

    Вопрос: Видите ли вы ось зла в современном мире?

    Иванов: Мы видим наличие дуги нестабильности. Мы еще до 11 сентября подчеркивали, что международные экстремистские террористические организации, к сожалению, сотрудничают между собой гораздо активнее, чем мировое сообщество. У нас была информация, которую мы передали нашим партнерам. Он показал, что экстремистские террористические организации в Азии, на Ближнем Востоке, на Балканах и Кавказе взаимодействуют между собой, обучая боевиков и оказывая материальную помощь. Так возникла дуга нестабильности. Эти организации пользовались поддержкой различных государств, что подтвердилось после 11 сентября.

    Вопрос: Продолжая идею оси зла, американцы обвиняют Россию в том, что она помогла Ирану разработать ядерное оружие.

    Иванов: Да, такие заявления иногда делают даже американские официальные лица. Это прискорбно. Считаем, что нынешний уровень российско-американских отношений позволяет серьезно обсуждать этот процесс. Они не должны становиться предметом публичного обсуждения, тем более, что доказательств у американской стороны нет. Россия твердо выступает за укрепление режима нераспространения ядерного оружия и средств его доставки. Это наша принципиальная позиция, и она касается любого государства, в том числе и Ирана. Мы не просто говорим об этом, мы на деле ратифицировали соответствующие документы, в том числе и Договор о всеобъемлющем запрещении ядерных испытаний, который США, к сожалению, не ратифицировали. Россия ратифицировала все документы, связанные с химическим и бактериологическим оружием, и неукоснительно выполняет взятые на себя обязательства. Более того, Россия готова не только усилить свой режим экспортного контроля, но и взаимодействовать в этой сфере с другими странами, чтобы предотвратить возможные нарушения. Мы неоднократно говорили нашим американским партнерам, если у вас есть реальные факты, давайте их изучим. Если будет установлено, что кто-то нарушает правила экспортного контроля, эти каналы будут перерезаны, а виновные будут наказаны по всей строгости закона. Шесть или семь двусторонних комиссий, связанных с экспортным контролем, были созданы вместе с предыдущей администрацией США. Они касались ядерной и ракетной программ, а также технологий двойного назначения. Эти комиссии сыграли важную роль в решении возникших проблем. Их работа возобновляется через определенный интервал. Мы надеемся, что заявления американских официальных лиц будут сделаны не только в Конгрессе США, но и в рамках комиссии, что позволит профессионально изучить факты. Мы также включили проблему нераспространения оружия массового уничтожения в повестку нашего сотрудничества с НАТО. Так что Россия готова обсуждать это не только с США, но и в более широком формате.

    Вопрос: Говорят, что у Ирака была официальная программа мирного использования ядерной энергии и секретная программа разработки ядерного оружия. Американцы считают, что у Ирана тоже есть секретная программа и что помощь России в строительстве АЭС в Бушере поможет осуществить эту программу.

    Иванов: Все объекты подобного рода, существующие не только в Иране, но и в других странах, поставлены под контроль МАГАТЭ.Атомная станция, строящаяся в Бушере, также находится под контролем МАГАТЭ, и эксперты этой организации не обнаружили ни одного из упомянутых Вами нарушений. До кризиса 1998 года все вопросы по ядерной программе Ирака решались в рамках деятельности международных инспекторов. Это подтвердили эксперты МАГАТЭ. Мы не можем остановить прогресс науки и ядерной энергетики. Наша задача – не допустить его ненадлежащего использования. Важную роль в этом играют соответствующие международные механизмы.

    Вопрос: Вы сказали, что нет доказательств существования военной ядерной программы в Ираке?

    Игорь Иванов: Группа международных наблюдателей во главе с [Ричардом] Батлером работала над 4 файлами. Это были ядерные, ракетные, химические и бактериологические файлы. Комиссия практически закрыла ядерное и ракетное дело. Оставалось несколько вопросов по химическому делу, и основные вопросы относились к бактериологическому оружию. После того, как комиссия покинула Ирак, международных наблюдателей там не было. Поэтому считаем необходимым возобновить диалог между Багдадом и Генеральным секретарем ООН в целях выполнения всех резолюций СБ ООН, в том числе связанных с возвращением в Ирак международных инспекторов. В то же время у Ирака должна быть четкая перспектива снятия санкций. Деятельность наблюдателей не должна носить бессрочный характер.

    Вопрос: Что означает, что ядерный файл был закрыт? Означает ли это, что ядерного оружия не было или его никогда не было?

    Иванов: На момент проверки не было ни ядерного оружия, ни элементов для его производства. Перед комиссией стояло по две задачи по каждому направлению. Первая задача заключалась в определении наличия ядерного оружия, а вторая — возможности его производства. Если такие возможности существуют, они должны быть устранены. .

    Вопрос: 11 сентября стало поворотным моментом в российско-американских отношениях. Российский и американский президенты заявили на своем саммите, что они похоронили холодную войну, но остается устойчивое впечатление, что соперничество между США, которые сегодня являются сверхдержавой, и Россией, которая однажды вновь обретет статус сверхдержавы, продолжается.

    Иванов: Мы не стремимся вернуться к биполярному мироустройству. Такой миропорядок ушел в прошлое и больше не вернется. В то же время мы считаем, что нельзя допустить возникновения однополярного миропорядка. Против этого выступает подавляющее большинство государств. Выступая за многополярный миропорядок, мы исходим из того, что он отвечает интересам России, США и всех других государств. По многим принципиальным международным проблемам мы с США партнеры, а не противники. И 11 сентября продемонстрировало это на деле. В то же время это не означает, что у нас нет различий. Мы назвали ошибкой решение США о выходе из Договора по ПРО, но не использовали эту проблему как предлог для конфронтации и продолжаем конструктивный диалог для решения вопросов, связанных с укреплением стратегической стабильности. Ведутся переговоры по заключению обязательных соглашений о радикальном сокращении стратегических наступательных вооружений.

    Вопрос: Будет ли это компромисс между Договором по ПРО и сокращениями по СНВ?

    Иванов: Это не будет компромисс, это два разных вопроса, две составляющие стратегической стабильности - оборонительные и наступательные вооружения. Также продолжается диалог по вопросам ПРО для достижения возможных договоренностей. Несмотря на шаг Вашингтона, мы сохранили переговорный механизм. Можно двигаться вперед, учитывая взаимные интересы. Есть противоречия по отдельным вопросам, но это не должно стать поводом для скатывания к конфронтации. .

    Вопрос: США присутствуют в Центральной Азии, НАТО расширяется на Восток, США в одностороннем порядке вышли из Договора по ПРО. Нет ли ощущения, что жизненное пространство вокруг России сокращается?

    Иванов: Это факты, но все зависит от того, как их оформить. Если они расположены так, как вы их расположили, то в ваших выводах есть логика, и некоторые люди их разделяют. Но есть и другие факты, указывающие на другое. В Центральной Азии мы вместе боремся с международным терроризмом, ведем активные переговоры с США о сокращении стратегических вооружений и постараемся завершить их к моменту визита президента США в Россию в мае этого года. Мы активно ведем переговоры с НАТО о создании механизма НАТО-20, в котором будем принимать участие в решении общих задач, включая борьбу с терроризмом и нераспространение ОМУ. Это тоже реальный факт. Вы не можете покрасить все в белое или черное. Все зависит от того, какая тенденция преобладает. Мы хотим, чтобы преобладали тенденции, которые в том числе отвечают российским интересам.

    Вопрос: После 11 сентября многие говорили, что США нужны партнеры. Но сейчас складывается впечатление, что после победы в Афганистане она озабочена только своими интересами. Вы не разделяете этого впечатления?

    Иванов: . Что такое антитеррористическая коалиция? Это означает добровольное участие государств в борьбе с терроризмом. Мы не подписывали договоров или соглашений и не брали на себя никаких международных обязательств. Участие в борьбе со злом было естественным побуждением государств. В этом сила коалиции, но также и определенная слабость. Коалиция достаточно хрупкая, и если кто-то предпримет действия, не разделяемые другими ее членами, она может развалиться. Поэтому подчеркиваем, что при принятии решений необходимо прислушиваться к мнению партнеров и учитывать их.

    Вопрос: Значит, Америка не должна наносить односторонние удары по Ираку или Йемену?

    Иванов: Действия против того или иного государства должны опираться на прочную правовую основу, прежде всего, на соответствующую резолюцию Совета Безопасности ООН. Других способов нет. Афганистан не может быть прецедентом. .

    Эта заставка показывает, как импортировать различные текстовые файлы в R с помощью пакета readtext. В настоящее время readtext поддерживает простые текстовые файлы (.txt), данные в той или иной форме нотации объектов JavaScript (.json), значения, разделенные запятыми или символами табуляции (.csv, .tab, .tsv), XML-документы (.xml), а также файлы в формате PDF и Microsoft Word (.pdf, .doc, .docx).

    readtext также обрабатывает несколько файлов и типов файлов, используя, например, выражение «glob», файлы из URL-адреса или архивного файла (.zip, .tar, .tar.gz, .tar.bz). Обычно вам не нужно явно определять формат файлов — readtext берет эту информацию из окончания файла.

    Пакет readtext поставляется с каталогом данных extdata, который содержит примеры всех перечисленных выше файлов. В виньетке мы используем этот каталог данных.

    Каталог extdata содержит несколько подпапок, содержащих различные текстовые файлы. В следующих примерах мы загружаем один или несколько файлов, хранящихся в каждой из этих папок. Команда paste0 используется для объединения папки extdata из пакета readtext с подпапками. При чтении пользовательских текстовых файлов вам нужно будет определить собственный каталог данных (см. ?setwd() ).

    2.1 Обычные текстовые файлы (.txt)

    Папка «txt» содержит подпапку с именем UDHR с файлами .txt Всеобщей декларации прав человека на 13 языках.

    Мы можем указать метаданные уровня документа ( docvars ) на основе имен файлов или отдельного data.frame. Ниже мы берем docvars из имен файлов ( docvarsfrom = "filenames" ) и устанавливаем имена для каждой переменной ( docvarnames = c("unit", "context", "year", "language", "party")). Команда dvsep = "_" определяет разделитель (строку символов регулярного выражения), включенный в имена файлов для разграничения элементов docvar.

    readtext также может проклинать подкаталоги. В нашем примере папка txt/movie_reviews содержит две подпапки (называемые neg и pos). Мы можем загрузить все тексты, содержащиеся в обеих папках.

    2.2 Значения, разделенные запятыми или символами табуляции (.csv, .tab, .tsv)

    Чтение значений, разделенных запятыми (CSV-файлы), содержащих текстовые данные. Мы определяем переменную texts в нашем файле .csv как text_field. Это столбец, содержащий фактический текст. Остальные столбцы исходного CSV-файла ( Year , President , FirstName ) по умолчанию рассматриваются как переменные уровня документа.

    Та же процедура применяется к значениям, разделенным табуляцией.

    2.3 Данные JSON (.json)

    Вы также можете читать данные .json. Вам снова нужно указать text_field .

    2.4 PDF-файлы

    readtext также может считывать и преобразовывать файлы .pdf.

    В приведенном ниже примере мы загружаем все файлы .pdf, хранящиеся в папке UDHR, и определяем, что docvars должны быть взяты из имен файлов. Мы называем переменные уровня документа document и language и указываем разделитель ( dvsep ).

    2.5 Файлы Microsoft Word (.doc, .docx)

    Файлы в формате Microsoft Word преобразуются с помощью пакета antiword для старых файлов .doc и с использованием XML для новых файлов .docx.

    2.6 Текст из URL

    Вы также можете читать текст прямо с URL-адреса.

    2.7 Текст из архивных файлов (.zip, .tar, .tar.gz, .tar.bz)

    Наконец, можно включать текст из архивов.

    readtext изначально был разработан в ранних версиях пакета Quanteda для количественного анализа текстовых данных. Он был порожден функцией textfile() из этого пакета и теперь живет исключительно в читаемом тексте. Поскольку конструктор корпуса Quanteda распознает формат data.frame, возвращаемый функцией readtext() , он может создавать корпус непосредственно из объекта readtext, сохраняя все docvars и другие метаданные.

    Вы можете легко создать корпус из объекта читаемого текста.

    4.1 Удалить номера страниц с помощью регулярных выражений

    Если документ содержит номера страниц, они также импортируются. Если вы хотите удалить их, вы можете использовать регулярное выражение. Мы настоятельно рекомендуем использовать пакет stringi. Наиболее распространенные регулярные выражения вы можете найти в этой памятке.

    Сначала необходимо проверить в исходном файле, в каком формате встречаются номера страниц (например, «1», «-1-», «страница 1» и т. д.). Мы можем использовать тот факт, что номерам страниц почти всегда предшествует разрыв строки (\n). После загрузки текста с прочитанным текстом вы можете заменить номера страниц.

    В первом примере номера страниц имеют формат «страница X».

    Во втором примере мы удаляем номера страниц в формате «- X -».

    Такие строковые функции также можно применять к объектам чтения текста.

    4.2 Чтение файлов с разными кодировками

    Иногда файлы одного типа имеют разные кодировки. Если кодировка файла включена в имя файла, мы можем извлечь эту информацию и правильно импортировать тексты.

    Здесь мы получим кодировку из самих имен файлов.

    Если мы читаем текстовые файлы без указания кодировки, мы получаем ошибочно отформатированный текст. Чтобы избежать этого, мы определяем кодировку, используя созданную выше файловую кодировку символьного объекта.

    Мы также можем добавлять docvars на основе имен файлов.

    Из этого файла мы можем легко создать корпусный объект Quanteda.

    Читайте также: