К каким типам данных относятся текстовые файлы с определенными шаблонами для их обработки

Обновлено: 15.06.2026

На этой странице описаны общие задачи обработки файлов. Дополнительные сведения о вводе-выводе на основе файлов см. в разделах Конвейерный ввод-вывод и Данные ввода-вывода на основе файлов.

Обработка файлов по мере их поступления

В этом разделе показано, как обрабатывать файлы по мере их поступления в вашу файловую систему или хранилище объектов (например, Google Cloud Storage). Вы можете непрерывно читать файлы или запускать конвейеры потоков и обработки при поступлении файла.

Режим непрерывного чтения

Вы можете использовать FileIO или TextIO для непрерывного чтения источника для новых файлов.

Используйте класс FileIO для непрерывного просмотра шаблона одного файла. Следующий пример сопоставляет шаблон файла повторно каждые 30 секунд, постоянно возвращает новые совпавшие файлы в виде неограниченной коллекции PCollection и останавливается, если новые файлы не появляются в течение часа:

Свойство watchForNewFiles класса TextIO передает поток новых совпадений файлов.

Некоторые исполнители могут сохранять списки файлов во время обновлений, но списки файлов не сохраняются при перезапуске конвейера. Вы можете сохранить списки файлов:

Сохранение имен обработанных файлов во внешнем файле и дедупликация списков при следующем преобразовании
Добавление временных меток к именам файлов, запись шаблона универсальных объектов для извлечения только новых файлов и сопоставление шаблона при перезапуске конвейера.

Вариант непрерывного чтения недоступен для Python.

Потоковая обработка запущена из внешнего источника

Конвейер потоковой передачи может обрабатывать данные из неограниченного источника. Например, чтобы активировать потоковую обработку с помощью Google Cloud Pub/Sub:

Используйте внешний процесс для определения поступления новых файлов.
Отправить сообщение Google Cloud Pub/Sub с URI файла.
Доступ к URI из DoFn, следующего за источником Google Cloud Pub/Sub.
Обработать файл.

Пакетная обработка, запущенная из внешнего источника

Чтобы запустить или запланировать задание пакетного конвейера при поступлении файла, запишите инициирующее событие в самом исходном файле. Это имеет наибольшую задержку, поскольку конвейер должен инициализироваться перед обработкой. Он лучше всего подходит для нечастых, больших обновлений размером с файл.

Доступ к именам файлов

Используйте класс FileIO для чтения имен файлов в конвейерном задании. FileIO возвращает объект PCollection, а экземпляр ReadableFile содержит имя файла.

Типы файлов

Существует три основных типа файлов:

< TR VALIGN="TOP">

обычный	Хранит данные (текстовые, двоичные и исполняемые).
каталог	Содержит информацию, используемую для доступа к другим файлам.
специальный	Определяет файл канала FIFO (первым поступил, первым обслужен) или физическое устройство.

Все типы файлов, распознаваемые системой, попадают в одну из этих категорий. Однако операционная система использует множество вариаций этих основных типов.

Обычные файлы

Обычные файлы являются наиболее распространенными файлами. Другое название обычных файлов — обычные файлы. Обычные файлы содержат данные.

Текстовые файлы

Текстовые файлы — это обычные файлы, содержащие информацию, доступную для чтения пользователем. Эта информация хранится в ASCII. Вы можете просмотреть и распечатать эти файлы. Строки текстового файла не должны содержать символы NUL, и ни одна из них не может превышать длину в байтах, включая символ новой строки.

Термин текстовый файл не запрещает включение управляющих или других непечатаемых символов (кроме NUL ). Таким образом, стандартные утилиты, перечисляющие текстовые файлы в качестве входных или выходных данных, либо способны изящно обрабатывать специальные символы, либо явно описывают свои ограничения в своих отдельных разделах.

Двоичные файлы

Двоичные файлы — это обычные файлы, содержащие информацию, доступную для чтения компьютером. Двоичные файлы могут быть исполняемыми файлами, которые предписывают системе выполнить задание. Команды и программы хранятся в исполняемых двоичных файлах. Специальные программы-компиляторы переводят текст ASCII в двоичный код.

Единственная разница между текстовыми и двоичными файлами заключается в том, что в текстовых файлах строки меньше байтов, без символов NUL, каждая из которых заканчивается символом новой строки.

Файлы каталога

Файлы каталогов содержат информацию, необходимую системе для доступа ко всем типам файлов, но они не содержат фактических данных файла. В результате каталоги занимают меньше места, чем обычный файл, и придают структуре файловой системы гибкость и глубину. Каждая запись каталога представляет либо файл, либо подкаталог. Каждая запись содержит имя файла и индексный номер узла файла (i-узел). i-узел указывает на уникальный узел индекса, присвоенный файлу.i-узел описывает расположение данных, связанных с файлом. Каталоги создаются и управляются отдельным набором команд.

Дополнительную информацию см. в разделе Обзор каталога.

Специальные файлы

Специальные файлы определяют устройства для системы или временные файлы, созданные процессами. Существует три основных типа специальных файлов: FIFO (первым поступил – первым обслужен), блочный и символьный. Файлы FIFO также называются каналами. Каналы создаются одним процессом для временного обеспечения связи с другим процессом. Эти файлы перестают существовать после завершения первого процесса. Блочные и символьные файлы определяют устройства.

Каждый файл имеет набор разрешений (называемых режимами доступа), которые определяют, кто может читать, изменять или выполнять файл.

Подробнее о режимах доступа к файлам см. в разделе Режимы доступа к файлам и каталогам.

Соглашения об именах файлов

<УЛ>

Имя файла может иметь длину до 255 символов и может содержать буквы, цифры и знаки подчеркивания.

Операционная система чувствительна к регистру, т. е. различает прописные и строчные буквы в именах файлов. Следовательно, FILEA , FiLea и filea — это три разных имени файла, даже если они находятся в одном каталоге.

Имена файлов должны быть как можно более описательными и осмысленными.

Каталоги следуют тем же соглашениям об именах, что и файлы.

Некоторые символы имеют особое значение для операционной системы, и их следует избегать при именовании файлов. Эти символы включают следующее:

Имя файла скрыто от обычного списка каталогов, если оно начинается с расширения . (точка). Когда команда li или ls вводится с флагом -a, скрытые файлы отображаются вместе с обычными файлами и каталогами.

Имена путей к файлам

Имя пути для каждого файла и каталога в файловой системе состоит из имен всех каталогов, предшествующих ему в древовидной структуре.

Поскольку все пути в файловой системе исходят из каталога /(корневой), каждый файл в файловой системе имеет уникальную связь с корневым каталогом, известную как абсолютный путь. Абсолютные пути начинаются с символа / (косая черта). Абсолютный путь к файлу h в файловой системе примера — /B/C/h . Обратите внимание, что есть два файла с именем g. Поскольку абсолютные пути к этим файлам разные, /B/g и /B/C/g, каждый файл с именем g имеет уникальное имя в системе. Каждый компонент имени пути является каталогом, кроме последнего компонента. Последним компонентом пути может быть имя файла.

Сопоставление шаблонов с использованием подстановочных знаков и метасимволов

Подстановочные знаки обеспечивают удобный способ указания нескольких имен файлов или каталогов с помощью одного символа. Два подстановочных знака: * (звездочка) и ? (вопросительный знак). Метасимволы: [ ] (открывающие и закрывающие квадратные скобки), - (тире) и ! (восклицательный знак).

* Подстановочный знак

Используйте * для соответствия любой последовательности или строке символов. * означает любые символы, включая отсутствие символов. Например, если в вашем каталоге есть следующие файлы:

и вы хотите ссылаться только на те файлы, которые начинаются с file , вы должны использовать:

Выбранные файлы будут следующими: файл файл1 файл10 файл2 файл3

Чтобы указать только те файлы, которые содержат слово файл , используйте:

Выбранные файлы будут следующими: afile1 afile2 bfile1 file file1 file10 file2 file3

<Н4>? Подстановочный знак

Используйте ? чтобы соответствовать любому символу. ? означает любой одиночный символ.

Чтобы ссылаться только на те файлы, которые начинаются с файла и заканчиваются одним символом, используйте:

Выбранные файлы будут следующими: файл1 файл2 файл3

Чтобы ссылаться только на те файлы, которые начинаются с файла и заканчиваются любыми двумя символами, используйте:

Выбранный файл будет: file10

[ ] Метасимволы оболочки

Метасимволы предлагают другой тип обозначения подстановочных знаков, заключая нужные символы в [ ]. Это похоже на использование ?, но позволяет вам выбирать определенные символы для сопоставления. [ ] также позволяет указать диапазон значений с помощью - (дефис). Чтобы указать все буквы алфавита, используйте [[:alpha:]]. Чтобы указать все строчные буквы алфавита, используйте [[:lower:]].

Чтобы ссылаться только на файлы, оканчивающиеся на 1 или 2 , используйте:

Выбранные файлы будут следующими: afile1 afile2 file1 file2

Чтобы ссылаться только на файлы, начинающиеся с любой цифры, используйте:

Выбранные файлы будут следующими: 1test 2test

Чтобы ссылаться только на файлы, которые не начинаются с a , используйте:

Выбранными файлами будут: 1test 2test bfile1 file file1 file10 file2 file3

Сопоставление с образцом и регулярные выражения

Регулярные выражения позволяют выбирать определенные строки из набора строк символов. Использование регулярных выражений обычно связано с обработкой текста.

Регулярные выражения могут представлять множество возможных строк.Хотя многие регулярные выражения могут интерпретироваться по-разному в зависимости от текущего языкового стандарта, функции интернационализации обеспечивают контекстуальную инвариантность в разных языковых стандартах.

См. примеры в следующем сравнении шаблонов сопоставления файлов и регулярных выражений:

Точный синтаксис см. в описании команды awk в Справочнике по командам AIX версии 4.3.

Python предоставляет встроенные функции и модули для поддержки этих операций.

Открытие/закрытие файла

Чтение/запись текстовых файлов

Объект fileObj, возвращаемый после открытия файла, содержит указатель файла. Первоначально он располагается в начале файла и перемещается вперед всякий раз, когда выполняются операции чтения/записи.

Чтение строки/строк из текстового файла

fileObj.readline() -> str : (наиболее часто используемый) Читает следующую строку (до и включая новую строку) и возвращает строку (включая новую строку). Он возвращает пустую строку после конца файла (EOF).
fileObj.readlines() -> [str] : чтение всех строк в список строк.
fileObj.read() -> str : чтение всего файла в строку.

Запись строки в текстовый файл

fileObj.write(str) -> int : Записать заданную строку в файл и вернуть количество записанных символов. Вам нужно явно завершить str с помощью '\n' , если это необходимо. '\n' будет преобразован в новую строку в зависимости от платформы ("\r\n" для Windows или '\n' для Unix/Mac OS).

Примеры

Построчная обработка текстового файла

Мы можем использовать оператор with для открытия файла, который будет автоматически закрыт при выходе, и цикл for для построчного чтения следующим образом:

Выражение with эквивалентно выражению try-finally следующим образом:

Пример: построчное копирование файла

Следующий скрипт копирует один файл в другой построчно, добавляя перед каждой строкой номер строки.

Операции с двоичными файлами

fileObj.tell() -> int : возвращает текущую позицию в потоке. Текущая позиция потока — это количество байтов от начала файла в двоичном режиме и непрозрачное число в текстовом режиме.
fileObj.seek(смещение): устанавливает текущую позицию в потоке на смещение байт от начала файла.

Например, [ЗАДАЧ]

Каталог и управление файлами

В Python управление каталогами и файлами поддерживается модулями os , os.path , Shutil , .

Операции с путями с использованием модуля os.path

В Python путь может означать:

файл,
каталог или
символическая ссылка (символическая ссылка).

Путь может быть абсолютным (начиная с корня) или относительным относительно текущего рабочего каталога (CWD).

Разделитель пути зависит от платформы (Windows использует '\' , а Unix/Mac OS использует ' /' ). Модуль os.path поддерживает независимые от платформы операции над путями, разумно обрабатывая разделитель путей.

Проверка существования и типа пути

os.path.exists(path) -> bool : проверить, существует ли указанный путь.
os.path.isfile(путь_к_файлу) , os.path.isdir(путь_к_каталогу) , os.path.islink(путь_ссылки) -> bool : проверить, является ли указанный путь файлом, каталогом или символической ссылкой.

Формирование нового пути

Разделитель пути зависит от платформы (Windows использует '\' , а Unix/Mac OS использует '/' ). Для переносимости важно НЕ жестко кодировать разделитель пути. Модуль os.path поддерживает независимые от платформы операции над путями, разумно обрабатывая разделитель путей.

os.path.sep : разделитель путей текущей системы.
os.path.join(path, *paths) : формирование и возврат пути путем объединения одного или нескольких компонентов пути путем вставки зависящего от платформы разделителя пути ( '/' или '\' ). Чтобы сформировать абсолютный путь, вам нужно начать с os.path.sep от имени пользователя root.

Управление именем каталога и именем файла

os.path.dirname(путь) : возвращает имя каталога для заданного пути (файл, каталог или символическая ссылка). Возвращаемое имя каталога может быть абсолютным или относительным, в зависимости от заданного пути.
os.path.abspath(path) : возвращает абсолютный путь (начиная с корня) заданного path . Это может быть абсолютное имя файла, абсолютное имя каталога или абсолютная символическая ссылка.

Например, чтобы сформировать абсолютный путь к файлу с именем out.txt в том же каталоге, что и in.txt , вы можете извлечь абсолютное имя каталога из in.txt , а затем присоединиться к out.txt следующим образом:

Когда модуль загружается в Python, __file__ устанавливается на имя модуля. Попробуйте запустить этот скрипт с различными ссылками на __file__ и изучите их вывод:

Обработка символической ссылки (Unixes/Mac OS)

os.path.realpath(path) : (для символических ссылок) Аналогично abspath() , но возвращает канонический путь, исключая любые встречающиеся символические ссылки.

Управление каталогами и файлами с помощью модулей os и Shutil

Модули os и Shutil обеспечивают интерфейс к операционной системе и системной оболочке.

Если вы хотите просто прочитать или записать файл, используйте встроенную функцию open() .
Если вы просто хотите управлять путями (файлами, каталогами и символическими ссылками), используйте модуль os.path.
Если вы хотите прочитать все строки во всех файлах в командной строке, используйте модуль ввода файлов.
Для создания временных файлов/каталогов используйте модуль tempfile.

Управление каталогом

Управление файлами

os.rename(src_file, dest_file) : переименовать файл.
os.remove(файл) или os.unlink(файл): удалить файл. Вы можете использовать os.path.isfile(file), чтобы проверить, существует ли file.

Например [TODO],

Список каталогов

os.listdir(path='.') -> [path] : список всех записей в данном каталоге (исключая '.' и '..' ), по умолчанию текущий каталог.

Рекурсивное отображение каталога с помощью os.walk()

os.walk(top, topdown=True, onerror=None, followlinks=False): рекурсивно перечислить все записи, начиная с top .

Рекурсивное отображение каталога с помощью модуля glob (Python 3.5)

Копирование файла

Команда оболочки [TODO]

os.system(command_str) : запустить команду оболочки. (В Python 3 вместо этого используйте subprocess.call().)

Переменные среды [TODO]

os.getenv(varname, value=None) : возвращает переменную среды, если она существует, или value, если ее нет. , по умолчанию нет .
os.putenv(имя_переменной, значение) : установите для переменной среды значение значение.
os.unsetenv(имя_переменной): удалить (сбросить) переменную среды.

модуль ввода файла

Модуль fileinput обеспечивает поддержку обработки строк ввода из одного или нескольких файлов, указанных в аргументах командной строки ( sys.argv ). Например, создайте следующий скрипт с именем " test_fileinput.py ":

Обработка текста

Для простых операций с текстовыми строками, таких как поиск и замена строк, можно использовать встроенные строковые функции (например, str.replace(old, new)) ) . Для поиска и замены сложных шаблонов вам необходимо освоить регулярное выражение (регулярное выражение).

Операции со строками

Встроенный класс str предоставляет множество функций-членов для работы с текстовыми строками. Предположим, что s — это объект str.

Удалить пробелы (пробел, табуляция и новая строка)

s.strip()-> str : возвращает копию строки s с удаленными начальными и конечными пробелами. Пробелы включают пробел, табуляцию и новую строку.
s.strip([chars]) -> str : удаляет заданные начальные/конечные символы вместо пробелов.
s.rstrip() , s.lstrip() -> str : удаляет правые (конечные) пробелы и левые (начальные) пробелы соответственно.< /li>

s.rstrip() чаще всего используется для удаления завершающих пробелов/перевода строки. Ведущие пробелы обычно имеют значение.

Верхний/нижний регистр

s.upper() , s.lower() -> str : возвращает копию строки s, преобразованную в верхний и нижний регистр. соответственно.
s.isupper() , s.islower() -> bool : проверьте, является ли строка прописной или строчной, соответственно.

s.find(key_str, [начало], [конец]) -> int|- 1 : вернуть самый низкий индекс в срезе s [начало:конец] (по умолчанию вся строка); или -1, если не найдено.
s.index(key_str, [начало], [конец]) -> int|ValueError : аналогично find() , но вызывает ValueError, если не найдено.
s.startswith(key_str, [начало], [конец]) , s .endsswith(key_str, [начало], [конец]) -> bool : проверить, начинается или заканчивается строка с key_str .

Найти и заменить

s.replace(old, new, [count]) -> str : вернуть копию при этом все вхождения old заменены на new . Необязательный параметр count ограничивает количество заменяемых вхождений, по умолчанию все вхождения.

str.replace() идеально подходит для простой замены текстовой строки без необходимости сопоставления с образцом.

Разделить на токены и объединить

с.split([sep], [maxsplit=-1]) -> [str] : вернуть список слов, используя sep в качестве строки-разделителя. . Разделителем по умолчанию являются пробелы (пробел, табуляция и новая строка). maxSplit ограничивает максимальное количество операций разделения, по умолчанию -1 означает отсутствие ограничений.
sep.join([str]) -> str : обратный метод split() . Присоединяйтесь к списку строк с помощью sep в качестве разделителя.

Регулярное выражение в модуле re

Я предполагаю, что вы знакомы с регулярными выражениями, иначе вы могли бы прочитать:

"Регулярное выражение на примерах" для обзора синтаксиса регулярных выражений и примеров.
"Регулярные выражения" для полного охвата.

Модуль re обеспечивает поддержку регулярных выражений (regex).

Обратная косая черта ( \ ), исходная строка Python r'. ' против обычной строки

В синтаксисе регулярного выражения используется обратная косая черта ( \ ):

для метасимволов, таких как \d (цифра), \D (не цифра), \s (пробел), \S (не пробел), \w (слово), \W (не слово)
для экранирования специальных символов регулярных выражений, например, \. для . , \+ для + , \* для * , \? для ? . Вам также нужно написать \\ для соответствия \ .

С другой стороны, обычные строки Python также используют обратную косую черту для управляющих последовательностей, например, \n для новой строки, \t для табуляции. Опять же, вам нужно написать \\ вместо \ .

Чтобы записать шаблон регулярного выражения \d+ (одна или несколько цифр) в обычную строку Python, вам нужно написать '\\d+' . Это громоздко и чревато ошибками.

Решение Python использует необработанную строку с префиксом r в форме r'. ' . Он игнорирует интерпретацию управляющей последовательности строки Python. Например, r'\n' — это '\'+'n' (два символа) вместо новой строки (один символ). Используя необработанную строку, вы можете написать r'\d+' для шаблона регулярного выражения \d+ (вместо обычной строки '\\d+' ).

Кроме того, Python обозначает обратные ссылки в скобках (или группы захвата) как \1 , \2 , \3 , . которые могут быть записаны как необработанные строки r'\1' , r'\2' вместо обычных строк '\\1' и '\\2' . Обратите внимание, что в некоторых языках используются $1, $2, . для обратных ссылок.

Я предлагаю вам использовать необработанные строки для строк шаблонов регулярных выражений и строк замены.

Компиляция (создание) объекта шаблона регулярных выражений

Вызов операций регулярных выражений

Вы можете вызывать большинство функций регулярных выражений двумя способами:

regexObj.func(str): применить скомпилированное регулярное выражение object к str , через функцию-член SRE_Pattern func() .
re.func(regexObj|regexStr, str) : применить объект регулярного выражения (скомпилированный) или < em>regexStr (не скомпилировано) в str через функцию уровня модуля re func() . Эти функции уровня модуля представляют собой ярлыки для описанных выше, которые не требуют предварительной компиляции объекта регулярного выражения, но пропускают модификаторы, если используется regexStr.

Найти с помощью finalAll()

regexObj.findall(str) -> [str] : возвращает список всех совпадающих подстрок.
re.findall(regexObj|regexStr, str) -> [str] : то же, что и выше.

Заменить с помощью sub() и subn()

regexObj.sub(replaceStr, inStr, [count=0]) -> outStr: заменить (заменить) совпавшие подстроки в заданном inStr на replaceStr , до количества вхождений, по умолчанию все.
regexObj.subn(replaceStr, inStr, [count=0]) -> (outStr, count) : аналогично sub() , но возвращает новую строку вместе с количеством замен в двух кортежах.
re.sub(regexObj|regexStr, replaceStr, inStr, [count=0]) ->outStr: то же, что и выше.

re.subn(regexObj|regexStr, replaceStr, inStr, [count=0]) -> (outStr, count) : то же, что и выше.

Примечания. Для простой замены строки используйте str.replace(old, new, [max= -1]) -> str, что более эффективно. См. раздел выше.

Использование обратных ссылок в скобках \1 , \2 , . в замене и шаблоне

В Python обратные ссылки в круглых скобках регулярных выражений (группы захвата) обозначаются как \1 , \2 , . Вы можете использовать необработанную строку (например, r'\1' ), чтобы избежать экранирования обратной косой черты в обычной строке (например, '\\1' ).

Найти с помощью search() и Match Object

Поиск() возвращает специальный объект Match, инкапсулирующий первое совпадение (или None, если совпадений нет). Затем вы можете использовать следующие методы для обработки результирующего объекта Match:

matchObj.group() : возвращает совпадающую подстроку.

matchObj. start() : возвращает начальную совпадающую позицию (включительно).

matchObj. end() : возвращает конечную совпавшую позицию (эксклюзивно).

matchObj.span() : возвращает кортеж совпадающей позиции (начало, конец).

Чтобы получить обратные ссылки (или группы захвата) внутри объекта Match:

matchObj. groups() : возвращает кортеж захваченных групп (или обратных ссылок)

matchObj .group(n) : возвращает группу захвата n , где n начинается с 1 .

matchObj.lastindex : последний индекс захватываемой группы

Поиск с использованием match() и fullmatch()

Search() соответствует любому заданному элементу inStr[begin:end] . С другой стороны, match() соответствует с начала inStr[начало:конец] (аналогично в шаблон регулярного выражения ^. ); в то время как fullmatch() соответствует всему inStr[begin:end] (аналогично шаблону регулярного выражения ^. $ ).

Найти с помощью finditer()

Функция finditer() аналогична функции findall(). findall() возвращает список совпадающих подстрок. Finditer() возвращает итератор для объектов Match. Например,

Разделение строки на токены

Функция split() разбивает заданный inStr на список, используя шаблон регулярного выражения в качестве разделителя (разделителя). Например,

Примечания. Для простого разделителя используйте str.split([sep]) , что более эффективно. См. раздел выше.

Парсинг веб-страниц

Ссылки:

Скрапинг веб-страниц (или сбор веб-страниц или извлечение веб-данных) означает чтение необработанной HTML-страницы для извлечения нужных данных. Излишне говорить, что вам необходимо освоить HTML, CSS и JavaScript.

Python поддерживает просмотр веб-страниц с помощью запросов пакетов и BeautifulSoup (bs4).

Установить пакеты

Вы можете установить соответствующие пакеты с помощью pip следующим образом:

Шаг 0. Проверка целевой веб-страницы

Нажмите F12 на целевой веб-странице, чтобы включить отладчик F12.

Выберите «Инспектор».

Нажмите кнопку "Выбрать" (крайний левый значок со стрелкой) и наведите указатель мыши на нужную часть HTML-страницы. Изучите коды.

Шаг 2. Преобразование HTML-текста в древовидную структуру с помощью BeautifulSoup и поиск нужных данных

Вы можете записать выбранные данные в файл:

Вы также можете использовать модуль csv для записи строк данных с заголовком:

Шаг 3. Загрузите выбранный документ с помощью urllib.request

Возможно, вы захотите загрузить такие документы, как текстовые файлы или изображения.

Шаг 4. Задержка

Чтобы избежать рассылки спама на веб-сайт с запросами на загрузку (и пометки как спамера), вам необходимо на некоторое время приостановить работу кода.

Это занятие посвящено извлечению/изменению данных из текстовых файлов с использованием встроенных инструментов Unix.

Поиск по шаблону и регулярные выражения¶

команду grep можно использовать для эффективного сопоставления, а также для извлечения шаблона в текстовых файлах.

Но что, если мы хотим сопоставить переменный шаблон, например. разная длина или содержание? Регулярные выражения — это именно тот инструмент, который нам нужен.

grep -E — полезный инструмент для поиска шаблонов с использованием мини-языка, называемого регулярными выражениями. Вы можете использовать сокращение egrep, что означает то же самое.

Количество слов и строк¶

Состояния команды wc для количества слов предоставляют краткую сводную статистику по содержимому обычного текстового файла. Байты, слова и строки могут быть подсчитаны в определенных файлах.

Чтобы подсчитать количество строк в каждом указанном файле:

Подсчитайте количество вариантов, соответствующих или не отвечающих порогу качества.

Подсчитайте количество вариантов на хромосоме Z, превышающих порог качества.

Получение и подсчет уникальных записей¶

Часто мы сталкиваемся с проблемой количества уникальных записей в файле или количества экземпляров каждого уникального элемента.

Unix предоставляет эффективный способ вырезания ( вырезания ) нужных столбцов и извлечения уникальных записей для выбранного столбца ( sort -u ). Кроме того, мы можем подсчитать экземпляры ( uniq -c ).

Типичным примером использования в биоинформатике является подсчет количества генов или SNP на контиг или хромосому.

Для выбора указанных столбцов можно использовать команду вырезания. По умолчанию cut использует пробел в качестве разделителя. Когда необходимо различать стандартные пробелы и файлы TAB (т. е. файлы, разделенные TAB), то разделитель -d $'\t' должен быть установлен явно. Когда предполагается, что все столбцы, кроме определенного столбца (столбцов), должны быть выбраны -- можно использовать флаг дополнения.

Содержимое файла можно сортировать по указанному столбцу (-k1,1) или диапазону столбцов (-k1,3). Когда данные необходимо отсортировать в числовом виде (-n) или в обратном порядке (-r), необходимо добавить соответствующие флаги. Подобно команде cut, sort распознает в качестве разделителя любые пробелы. Когда TAB используется в качестве разделителя, для обеспечения отличия от возможных пробелов, используемых в файле, необходимо явно использовать флаг -d $'\t'.
Команду
sort также можно использовать для извлечения уникальных записей с помощью флага -u .Когда предполагается, что количество экземпляров для каждого уникального элемента должно быть предоставлено, команду uniq -c следует использовать в сочетании с сортировкой, поскольку записи перед отправкой в uniq должны быть отсортированы.

Упражнение. Какая хромосома имеет наибольшее и наименьшее количество вариантов?

Упражнение: получайте первые шесть пар оснований из каждого чтения

Извлечение и замена строк¶

Еще одна распространенная задача в биоинформатике – извлечение и/или замена строк. Часто нам нужно извлечь определенную часть информации из сложных данных.

Типичным примером является извлечение определенного значения в соответствии с TAG в файле gff3 или VCF. Поскольку позиции TAGS могут различаться от строки к строке, использование команды вырезания просто невозможно. Единственной возможностью является сопоставление с использованием sed на основе TAG. регулярное выражение можно использовать для сопоставления с соответствующим шаблоном с помощью sed .

Еще одна типичная задача — замена разделителей. Команда tr очень хорошо подходит для этой задачи. Флаг -d может использоваться для удаления определенных символов из файла. Целые классы могут быть заменены, что может быть использовано, например, для изменения верхнего регистра на нижний или наоборот.

Для извлечения повторяющихся строк grep -o является наиболее эффективным инструментом. В биоинформатике его можно легко использовать, например, для сопоставления и извлечения микросателлитов из последовательности.

Разница между sed и tr :

tr (из TRansliterate) заменяет (или удаляет) отдельные символы: идеально подходит для удаления концов строк ( tr -d "\n" ) или замены некоторых разделителей на TAB ( tr ";" "\t" ).

sed заменяет (или удаляет) сложные шаблоны.

Обычно tr используется следующим образом:

Упражнение. Сколько образцов в файле VCF?

Для сопоставления определенной строки в файле sed может использовать регулярное выражение, аналогичное команде grep. Однако для использования всех функций регулярных выражений и упрощения синтаксиса регулярных выражений необходимо использовать расширенный флаг регулярного выражения r (-E для Mac OSX).

Сравнение использования стандартного sed и использования sed с расширенными регулярными выражениями sed -r :

sed -r (редактор текстового потока) может делать многое, однако лучше всего его использовать для замены и извлечения шаблонов. «Язык sed» состоит из односимвольных команд, и кодировать его неинтересно, и еще менее интересно читать (что делает sed 'h;G;s/\n//'?;). Используйте awk для более сложной обработки (см. следующий сеанс).

grep -o извлекает только совпадающие части строки. Эту команду можно использовать для извлечения повторяющихся шаблонов (т. е. очень полезно для извлечения микросателлитных последовательностей).

Упражнение. Каково количество SNP на хромосому в файле VCF??

Не используйте команду cut!

Упражнение: Статистика микроспутников

Извлеките все динуклеотиды AT, повторяющиеся не менее двух раз, и рассчитайте их частотное распределение во всем наборе данных.

Присоединить и вставить данные¶

Заключительная часть этого сеанса — объединение и вставка данных. Здесь мы стремимся объединить несколько файлов в один. команда join соответствует стандартной команде JOIN, известной из языка SQL. Он объединяет два файла на основе определенного ключевого столбца. Предполагается, что оба файла содержат столбец, представляющий ключи, которые находятся в обоих файлах. Оба файла должны быть отсортированы по ключу перед любой задачей объединения. Команда join имеет ту же функциональность, что и стандартное JOIN, то есть поддерживает INNER JOIN , LEFT JOIN , RIGHT JOIN и FULL OUTER JOIN (типы соединений).

По умолчанию столбец, считающийся ключевым, является первым столбцом в обоих входных файлах. Как уже упоминалось, ключевой столбец должен быть отсортирован одинаково в обоих файлах.

Если ключевой столбец находится в другой позиции, его необходимо указать на входе с помощью флагов -1 и -2:

Чтобы указать, что соединение должно печатать непарные строки, соответствующие левому, правому и полному внешнему соединению, необходимо указать файл, из которого нужно печатать непарные строки, используя флаг -a. Кроме того, флаг -e устанавливает значение для отсутствующих значений

Еще одна команда, которую можно использовать для объединения двух или более файлов, — это paste . вставить, а не присоединиться, просто выровнять файлы по столбцу (соответствует cbind в R). Ключевой столбец не нужен, так как он предполагает однозначное соответствие между двумя файлами.

Команду вставки также можно использовать для смарт-перестановки файлов. paste по умолчанию ожидает ввода нескольких файлов в одну строку. Однако, когда только один файл предоставлен с другими возможными файловыми позициями, заполненными с помощью -, команда paste берет следующие столбцы из следующих строк единственного предоставленного файла. Эта функция позволяет транспонировать несколько строк в одну.

Эту функцию можно использовать в биоинформатике для преобразования файлов ``.fastq`` в файлы с разделением типа ``.tab`` с одним чтением в строке. Мы будем использовать эту функцию в следующем сеансе.

Упражнение. Преобразование файла FASTQ в файл, разделенный TAB, с чтением каждой строки в одной строке

Упражнение¶

Сколько оснований было секвенировано?¶

wc также может считать символы (например, базы).Но чтобы получить разумное число, мы должны избавиться от других строк, которые не являются основаниями.

Один из способов сделать это — выбрать только строки, состоящие из букв A, C, G, T и N. Существует вездесущий мини-язык, называемый регулярными выражениями, который можно использовать для определения текстовых шаблонов. Строка, состоящая только из нескольких возможных букв, является текстовым шаблоном. grep — это основной инструмент для использования регулярных выражений:

Проверьте, выглядит ли результат так, как ожидалось. Это очень распространенный способ работы — построить часть пайплайна, проверить результат с помощью less или head и исправить его или добавить больше команд.

Теперь краткое объяснение шаблона ^[ACGTN]*$ ( grep работает по одной строке за раз):

^ отмечает начало строки — иначе grep будет искать в любом месте строки

квадратные скобки ( [] ) – это класс символов, означающий один символ из списка, [Gg]rep соответствует Grep и grep

* – это суффикс для квадратных скобок, означающий, что таких символов должно быть ноль или более

Знак $ отмечает конец строки. Это означает, что вся строка должна соответствовать шаблону.

Для подсчета прочитанных баз мы расширим наш конвейер:

Дело в том, что этот подсчет неверен. wc -c считает каждый символ, а конец каждой строки отмечается специальным символом, записываемым как \n (n для новой строки). Чтобы избавиться от этого символа, мы можем использовать другой инструмент, tr (транслитерация). tr может заменить одну букву на другую (представьте, что вам нужно перевести все ваши данные в нижний регистр или замаскировать строчные буквы в файле Fasta). Кроме того, tr -d (delete) может удалить символы:

Читайте также:


Как сделать текст полукругом в coreldraw

Как загрузить резервную копию icloud на компьютер

Правильная укладка кабелей в компьютере

Как сделать таймлапс в Sony Vegas

Приложения для развития памяти