Определить, какие из заданных имен файлов удовлетворяют маске f tb d

Обновлено: 21.11.2024

Получите полный доступ к Learning the UNIX Operating System, Fourth Edition и более чем 60 тысячам других книг с бесплатной 10-дневной пробной версией O'Reilly.

Есть также прямые онлайн-мероприятия, интерактивный контент, материалы для подготовки к сертификации и многое другое.

Если у вас есть несколько файлов с последовательными именами (например, от chap1 до chap12 ) или имена файлов с общими символами (например, aegis , aeon и aerie ), вы можете использовать подстановочные знаки (также называемые метасимволами ) для одновременного указания множества файлов. . Этими специальными символами являются * (звездочка), ? (вопросительный знак) и [ ] (квадратные скобки). При использовании в имени файла, указанном в качестве аргумента команды:

Звездочка заменяется любым количеством символов в имени файла. Например, ae* будет соответствовать aegis , aerie , aeon и т. д., если эти файлы находятся в одном и том же каталог. Вы можете использовать это, чтобы сохранить ввод имени одного файла (например, al* для alphabet.txt ) или назвать несколько файлов одновременно (как в ae * ).

Вопросительный знак заменяется любым отдельным символом (поэтому h?p соответствует hop и hip , но не help< /em> ).

Квадратные скобки могут заключать символы, которые вы хотите сопоставить. Будет совпадать любой из символов в скобках. Например, [ Cc ] hapter будет соответствовать либо Chapter, либо chapter , но [ ch ] apter будет соответствовать либо capter, либо hapter . Используйте дефис (-) для разделения ряда последовательных символов. Например, chap [ 13 ] будет соответствовать chap1 , chap2 или chap3. .

Примеры ниже демонстрируют использование подстановочных знаков. Первая команда выводит список всех записей в каталоге, а остальные используют подстановочные знаки для отображения только некоторых записей. Последнее немного сложно; он соответствует файлам, имена которых содержат два (или более) символа a.

Подстановочные знаки полезны не только для перечисления файлов. Большинство команд UNIX принимают более одного имени файла, и вы можете использовать подстановочные знаки, чтобы поместить несколько файлов в командную строку. Например, команда more используется для отображения файла на экране. Допустим, вы хотите отобразить файлы chap3.old и chap1a.old . Вместо того, чтобы указывать эти файлы по отдельности, вы можете ввести команду как:

Это эквивалентно " more chap1a.old chap3.old ".

Подстановочные знаки также соответствуют именам каталогов. Например, предположим, что у вас есть подкаталоги с именами Jan , Feb , Mar и т. д. У каждого есть файл с именем summary . Вы можете прочитать все сводные файлы, набрав « more */summary ». Это почти эквивалентно « more Jan/summary Feb/summary . ", но есть одно важное отличие: имена будут расположены в алфавитном порядке, поэтому Apr/summary будет первым в списке.

Получите Изучение операционной системы UNIX, четвертое издание прямо сейчас с онлайн-обучением O’Reilly.

Члены O’Reilly проходят онлайн-обучение в режиме реального времени, а также получают книги, видео и цифровой контент от более чем 200 издателей.

Я пытаюсь получить список файлов в каталоге с помощью Python, но мне не нужен список ВСЕХ файлов.

Что мне действительно нужно, так это возможность сделать что-то вроде следующего, но с использованием Python и без выполнения ls.

Если для этого нет встроенного метода, в настоящее время я думаю о написании цикла for для перебора результатов os.listdir() и добавления всех соответствующих файлов в новый список.

Однако в этом каталоге много файлов, и поэтому я надеюсь, что есть более эффективный метод (или встроенный метод).

13 ответов 13

См. glob в документации по python

О, я только что заметил, что в документации Python говорится, что glob() "выполняется с помощью функций os.listdir() и fnmatch.fnmatch() совместно, а не путем фактического вызова подоболочки". Другими словами, glob() не дает ожидаемых улучшений эффективности.

Есть одно основное отличие: glob.glob('145592*.jpg') выводит полный абсолютный путь к файлам, а ls 145592*.jpg выводит только список файлов.

@PauloNeves: правда, мой комментарий выше не имеет смысла и для меня спустя 7 лет. :-) Я предполагаю, что имел в виду тот факт, что glob() просто использует listdir+fnmatch, а не специальные вызовы операционной системы для фильтрации подстановочных знаков. Например, в Windows API FindFirstFile позволяет указывать подстановочные знаки, чтобы ОС выполняла фильтрацию напрямую и, предположительно, более эффективно (я не думаю, что в Linux есть эквивалент).

glob.glob() определенно подходит для этого (согласно Игнасио). Однако, если вам нужно более сложное сопоставление, вы можете сделать это с помощью понимания списка и re.match() , что-то вроде этого:

Более гибкий, но, как вы заметили, менее эффективный.

Да, определенно более мощный, однако fnmatch поддерживает последовательности [0123456789] (см. документацию), а также имеет функцию fnmatch.filter(), которая делает этот цикл немного более эффективным.

Я предпочитаю эту форму понимания списков, потому что она хорошо читается на английском языке.

Четвертую строку я прочитал так: Для каждой fn в os.listdir для моего пути дайте мне только те, которые соответствуют любому из моих включенных расширений.

Начинающим программистам на python может быть трудно привыкнуть к использованию генераторов списков для фильтрации, и это может привести к некоторым накладным расходам памяти для очень больших наборов данных, но для вывода списка каталогов и других простых задач фильтрации строк к более чистому документируемому коду.

Единственная особенность этого дизайна заключается в том, что он не защищает вас от ошибки передачи строки вместо списка. Например, если вы случайно преобразуете строку в список и в конечном итоге проверите все символы строки, вы можете получить множество ложных срабатываний.

Но лучше иметь проблему, которую легко решить, чем решение, которое трудно понять.

Python предоставляет встроенные функции и модули для поддержки этих операций.

Открытие/закрытие файла

Чтение/запись текстовых файлов

Объект fileObj, возвращаемый после открытия файла, содержит указатель файла. Первоначально он располагается в начале файла и перемещается вперед всякий раз, когда выполняются операции чтения/записи.

Чтение строки/строк из текстового файла
  • fileObj.readline() -> str : (наиболее часто используемый) Читает следующую строку (до и включая новую строку) и возвращает строку (включая новую строку). Он возвращает пустую строку после конца файла (EOF).
  • fileObj.readlines() -> [str] : чтение всех строк в список строк.
  • fileObj.read() -> str : чтение всего файла в строку.
Запись строки в текстовый файл
  • fileObj.write(str) -> int : Записать заданную строку в файл и вернуть количество записанных символов. Вам нужно явно завершить str с помощью '\n' , если это необходимо. '\n' будет преобразован в новую строку в зависимости от платформы ("\r\n" для Windows или '\n' для Unix/Mac OS).
Примеры

Построчная обработка текстового файла

Мы можем использовать оператор with для открытия файла, который будет автоматически закрыт при выходе, и цикл for для построчного чтения следующим образом:

Выражение with эквивалентно выражению try-finally следующим образом:

Пример: построчное копирование файла

Следующий скрипт копирует один файл в другой построчно, добавляя перед каждой строкой номер строки.

Операции с двоичными файлами

  • fileObj.tell() -> int : возвращает текущую позицию в потоке. Текущая позиция потока — это количество байтов от начала файла в двоичном режиме и непрозрачное число в текстовом режиме.
  • fileObj.seek(смещение): устанавливает текущую позицию в потоке на смещение байт от начала файла.

Например, [ЗАДАЧ]

Каталог и управление файлами

В Python управление каталогами и файлами поддерживается модулями os , os.path , Shutil , .

Операции с путями с использованием модуля os.path

В Python путь может означать:

  1. файл,
  2. каталог или
  3. символическая ссылка (символическая ссылка).

Путь может быть абсолютным (начиная с корня) или относительным относительно текущего рабочего каталога (CWD).

Разделитель пути зависит от платформы (Windows использует '\' , а Unix/Mac OS использует ' /' ). Модуль os.path поддерживает независимые от платформы операции над путями, разумно обрабатывая разделитель путей.

Проверка существования и типа пути
  • os.path.exists(path) -> bool : проверить, существует ли указанный путь.
  • os.path.isfile(путь_к_файлу) , os.path.isdir(путь_к_каталогу) , os.path.islink(путь_ссылки) -> bool : проверить, является ли указанный путь файлом, каталогом или символической ссылкой.
Формирование нового пути

Разделитель пути зависит от платформы (Windows использует '\' , а Unix/Mac OS использует '/' ). Для переносимости важно НЕ жестко кодировать разделитель пути. Модуль os.path поддерживает независимые от платформы операции над путями, разумно обрабатывая разделитель путей.

  • os.path.sep : разделитель путей текущей системы.
  • os.path.join(path, *paths) : формирование и возврат пути путем объединения одного или нескольких компонентов пути путем вставки зависящего от платформы разделителя пути ( '/' или '\' ). Чтобы сформировать абсолютный путь, вам нужно начать с os.path.sep от имени пользователя root.
Управление именем каталога и именем файла
  • os.path.dirname(path) : возвращает имя каталога для заданного пути (файл, каталог или символическая ссылка). Возвращаемое имя каталога может быть абсолютным или относительным, в зависимости от заданного пути.
  • os.path.abspath(path) : возвращает абсолютный путь (начиная с корня) заданного path . Это может быть абсолютное имя файла, абсолютное имя каталога или абсолютная символическая ссылка.

Например, чтобы сформировать абсолютный путь к файлу с именем out.txt в том же каталоге, что и in.txt , вы можете извлечь абсолютное имя каталога из in.txt , а затем присоединиться к out.txt следующим образом:

Когда модуль загружается в Python, __file__ устанавливается на имя модуля. Попробуйте запустить этот скрипт с различными ссылками на __file__ и изучите их вывод:

Обработка символической ссылки (Unixes/Mac OS)
  • os.path.realpath(path) : (для символических ссылок) Аналогично abspath() , но возвращает канонический путь, исключая любые встречающиеся символические ссылки.

Управление каталогами и файлами с помощью модулей os и Shutil

Модули os и Shutil обеспечивают интерфейс к операционной системе и системной оболочке.

  • Если вы хотите просто прочитать или записать файл, используйте встроенную функцию open() .
  • Если вы просто хотите управлять путями (файлами, каталогами и символическими ссылками), используйте модуль os.path.
  • Если вы хотите прочитать все строки во всех файлах в командной строке, используйте модуль ввода файлов.
  • Для создания временных файлов/каталогов используйте модуль tempfile.
Управление каталогом
Управление файлами
  • os.rename(src_file, dest_file) : переименовать файл.
  • os.remove(файл) или os.unlink(файл): удалить файл. Вы можете использовать os.path.isfile(file), чтобы проверить, существует ли file.

Например [TODO],

Список каталогов
  • os.listdir(path='.') -> [path] : список всех записей в данном каталоге (исключая '.' и '..' ), по умолчанию текущий каталог.
Рекурсивное отображение каталога с помощью os.walk()
  • os.walk(top, topdown=True, onerror=None, followlinks=False): рекурсивно перечислить все записи, начиная с top .
Рекурсивное отображение каталога с помощью модуля glob (Python 3.5)
Копирование файла
Команда оболочки [TODO]
  • os.system(command_str) : запустить команду оболочки. (В Python 3 вместо этого используйте subprocess.call().)
Переменные среды [TODO]
  • os.getenv(varname, value=None) : возвращает переменную среды, если она существует, или value, если ее нет. , по умолчанию нет .
  • os.putenv(имя_переменной, значение) : установите для переменной среды значение значение.
  • os.unsetenv(имя_переменной): удалить (сбросить) переменную среды.

модуль ввода файла

Модуль fileinput обеспечивает поддержку обработки строк ввода из одного или нескольких файлов, указанных в аргументах командной строки ( sys.argv ). Например, создайте следующий скрипт с именем " test_fileinput.py ":

Обработка текста

Для простых операций с текстовыми строками, таких как поиск и замена строк, можно использовать встроенные строковые функции (например, str.replace(old, new)) ) . Для поиска и замены сложных шаблонов вам необходимо освоить регулярное выражение (регулярное выражение).

Операции со строками

Встроенный класс str предоставляет множество функций-членов для работы с текстовыми строками. Предположим, что s — это объект str.

Удалить пробелы (пробел, табуляция и новая строка)
  • s.strip()-> str : возвращает копию строки s с удаленными начальными и конечными пробелами. Пробелы включают пробел, табуляцию и новую строку.
  • s.strip([chars]) -> str : удаляет заданные начальные/конечные символы вместо пробелов.
  • s.rstrip() , s.lstrip() -> str : удалить правые (конечные) пробелы и левые (начальные) пробелы соответственно.< /li>

s.rstrip() чаще всего используется для удаления завершающих пробелов/перевода строки. Ведущие пробелы обычно имеют значение.

Верхний/нижний регистр
  • s.upper() , s.lower() -> str : возвращает копию строки s, преобразованную в верхний и нижний регистр. соответственно.
  • s.isupper() , s.islower() -> bool : проверьте, является ли строка прописной или строчной, соответственно.
  • s.find(key_str, [начало], [конец]) -> int|- 1 : вернуть самый низкий индекс в срезе s [начало:конец] (по умолчанию вся строка); или -1, если не найдено.
  • с.index(key_str, [начало], [конец]) -> int|ValueError : Аналогично find() , но в противном случае вызывает ValueError найдено.
  • s.startswith(key_str, [начало], [конец]) , s .endsswith(key_str, [начало], [конец]) -> bool : проверить, начинается или заканчивается строка с key_str .
Найти и заменить
  • s.replace(old, new, [count]) -> str : вернуть копию при этом все вхождения old заменены на new . Необязательный параметр count ограничивает количество заменяемых вхождений, по умолчанию все вхождения.

str.replace() идеально подходит для простой замены текстовой строки без необходимости сопоставления с образцом.

Разделить на токены и объединить
  • s.split([sep], [maxsplit=-1]) -> [str] : возвращает список слов. используя sep в качестве строки-разделителя. Разделителем по умолчанию являются пробелы (пробел, табуляция и новая строка). maxSplit ограничивает максимальное количество операций разделения, по умолчанию -1 означает отсутствие ограничений.
  • sep.join([str]) -> str : обратный метод split() . Присоединяйтесь к списку строк с помощью sep в качестве разделителя.

Регулярное выражение в модуле re

Я предполагаю, что вы знакомы с регулярными выражениями, иначе вы могли бы прочитать:

  • "Регулярное выражение на примерах" для обзора синтаксиса регулярных выражений и примеров.
  • "Регулярные выражения" для полного охвата.

Модуль re обеспечивает поддержку регулярных выражений (regex).

Обратная косая черта ( \ ), исходная строка Python r'. ' против обычной строки

В синтаксисе регулярного выражения используется обратная косая черта ( \ ):

  1. для метасимволов, таких как \d (цифра), \D (не цифра), \s (пробел), \S (не пробел), \w (слово), \W (не слово)
  2. для экранирования специальных символов регулярных выражений, например, \. для . , \+ для + , \* для * , \? для ? . Вам также нужно написать \\ для соответствия \ .

С другой стороны, обычные строки Python также используют обратную косую черту для управляющих последовательностей, например, \n для новой строки, \t для табуляции. Опять же, вам нужно написать \\ вместо \ .

Чтобы записать шаблон регулярного выражения \d+ (одна или несколько цифр) в обычную строку Python, вам нужно написать '\\d+' . Это громоздко и чревато ошибками.

Решение Python использует необработанную строку с префиксом r в форме r'. ' . Он игнорирует интерпретацию управляющей последовательности строки Python. Например, r'\n' — это '\'+'n' (два символа) вместо новой строки (один символ). Используя необработанную строку, вы можете написать r'\d+' для шаблона регулярного выражения \d+ (вместо обычной строки '\\d+' ).

Кроме того, Python обозначает обратные ссылки в скобках (или группы захвата) как \1 , \2 , \3 , . которые могут быть записаны как необработанные строки r'\1' , r'\2' вместо обычных строк '\\1' и '\\2' . Обратите внимание, что в некоторых языках используются $1, $2, . для обратных ссылок.

Я предлагаю вам использовать необработанные строки для строк шаблонов регулярных выражений и строк замены.

Компиляция (создание) объекта шаблона регулярных выражений
Вызов операций регулярных выражений

Вы можете вызывать большинство функций регулярных выражений двумя способами:

  1. regexObj.func(str): применить скомпилированное регулярное выражение object к str , через функцию-член SRE_Pattern func() .
  2. re.func(regexObj|regexStr, str) : применить объект регулярного выражения (скомпилированный) или < em>regexStr (не скомпилировано) в str через функцию уровня модуля re func() . Эти функции уровня модуля представляют собой ярлыки для описанных выше, которые не требуют предварительной компиляции объекта регулярного выражения, но пропускают модификаторы, если используется regexStr.
Найти с помощью finalAll()
  • regexObj.findall(str) -> [str] : возвращает список всех совпадающих подстрок.
  • re.findall(regexObj|regexStr, str) -> [str] : то же, что и выше.
Заменить с помощью sub() и subn()
  • regexObj.sub(replaceStr, inStr, [count=0]) -> outStr: заменить (заменить) совпавшие подстроки в заданном inStr на replaceStr , до количества вхождений, по умолчанию все.
  • regexObj.subn(replaceStr, inStr, [count=0]) -> (outStr, count) : аналогично sub() , но возвращает новую строку вместе с количеством замен в двух кортежах.
  • re.sub(regexObj|regexStr, replaceStr, inStr, [count=0]) ->outStr: то же, что и выше.
  • re.subn(regexObj|regexStr, replaceStr, inStr, [count=0]) -> (outStr, count) : то же, что и выше.

Примечания. Для простой замены строки используйте str.replace(old, new, [max=-1]) -> str, что более эффективно. См. раздел выше.

Использование обратных ссылок в скобках \1 , \2 , . в замене и шаблоне

В Python обратные ссылки в круглых скобках регулярных выражений (группы захвата) обозначаются как \1 , \2 , . Вы можете использовать необработанную строку (например, r'\1' ), чтобы избежать экранирования обратной косой черты в обычной строке (например, '\\1' ).

Найти с помощью search() и Match Object

Поиск() возвращает специальный объект Match, инкапсулирующий первое совпадение (или None, если совпадений нет). Затем вы можете использовать следующие методы для обработки результирующего объекта Match:

  • matchObj.group() : возвращает совпадающую подстроку.
  • matchObj. start() : возвращает начальную совпадающую позицию (включительно).
  • matchObj. end() : возвращает конечную совпавшую позицию (эксклюзивно).
  • matchObj. span() : возвращает кортеж совпадающей позиции (начало, конец).

Чтобы получить обратные ссылки (или группы захвата) внутри объекта Match:

  • matchObj. groups() : возвращает кортеж захваченных групп (или обратных ссылок)
  • matchObj .group(n) : возвращает группу захвата n , где n начинается с 1 .
  • matchObj.lastindex : последний индекс захватываемой группы
Поиск с использованием match() и fullmatch()

Search() соответствует любому заданному элементу inStr[begin:end] . С другой стороны, match() соответствует с начала inStr[начало:конец] (аналогично в шаблон регулярного выражения ^. ); в то время как fullmatch() соответствует всему inStr[begin:end] (аналогично шаблону регулярного выражения ^. $ ).

Найти с помощью finditer()

Функция finditer() аналогична функции findall(). findall() возвращает список совпадающих подстрок. Finditer() возвращает итератор для объектов Match. Например,

Разделение строки на токены

Функция split() разбивает заданный inStr на список, используя шаблон регулярного выражения в качестве разделителя (разделителя). Например,

Примечания. Для простого разделителя используйте str.split([sep]) , что более эффективно. См. раздел выше.

Парсинг веб-страниц

Ссылки:

Скрапинг веб-страниц (или сбор веб-страниц или извлечение веб-данных) означает чтение необработанной HTML-страницы для извлечения нужных данных. Излишне говорить, что вам необходимо освоить HTML, CSS и JavaScript.

Python поддерживает просмотр веб-страниц с помощью запросов пакетов и BeautifulSoup (bs4).

Установить пакеты

Вы можете установить соответствующие пакеты с помощью pip следующим образом:

Шаг 0. Проверка целевой веб-страницы
  1. Нажмите F12 на целевой веб-странице, чтобы включить отладчик F12.
  2. Выберите «Инспектор».
  3. Нажмите кнопку "Выбрать" (крайний левый значок со стрелкой) и наведите указатель мыши на нужную часть HTML-страницы. Изучите коды.
Шаг 2. Преобразование HTML-текста в древовидную структуру с помощью BeautifulSoup и поиск нужных данных

Вы можете записать выбранные данные в файл:

Вы также можете использовать модуль csv для записи строк данных с заголовком:

Шаг 3. Загрузите выбранный документ с помощью urllib.request

Возможно, вы захотите загрузить такие документы, как текстовые файлы или изображения.

Шаг 4. Задержка

Чтобы избежать рассылки спама на веб-сайт с запросами на загрузку (и пометки как спамера), вам необходимо на некоторое время приостановить работу кода.

bcftools — утилиты для вызова вариантов и управления VCF и BCF.

ОБЗОР

bcftools [--версия|--только версия] [--help] [КОМАНДА] [ОПЦИИ]

ОПИСАНИЕ

BCFtools – это набор утилит, управляющих вариантными вызовами в формате Variant Call Format (VCF) и его двоичном аналоге BCF. Все команды прозрачно работают как с VCF, так и с BCF, как без сжатия, так и со сжатием BGZF.

BCFtools предназначен для работы с потоком. Он рассматривает входной файл "-" как стандартный ввод (stdin) и выводит на стандартный вывод (stdout). Таким образом, несколько команд можно комбинировать с конвейерами Unix.

ВЕРСИЯ

Эта справочная страница последний раз обновлялась 21 февраля 2022 г. и относится к bcftools git версии 1.15.

ВАРИАНТ ВЫЗОВА

См. раздел Вызов bcftools, чтобы узнать о вариантах вызова из выходных данных команды samtools mpileup. В версиях samtools вид bcftools. Теперь пользователям необходимо выбирать между старой моделью вызовов samtools (-c/--consensus-caller) и новой моделью мультиаллельных вызовов (-m/--multiallelic-caller). Для большинства задач рекомендуется мультиаллельная модель вызова.

СПИСОК КОМАНД

Для получения полного списка доступных команд запустите bcftools без аргументов. Чтобы просмотреть полный список доступных параметров, запустите bcftools COMMAND без аргументов.

аннотировать .. редактировать файлы VCF, добавлять или удалять аннотации

звоните..Вызов SNP/indel (ранее "представление")

cnv .. Копировать вариант номера вызывающего абонента

concat .. объединение файлов VCF/BCF из одного и того же набора образцов

консенсус .. создать согласованную последовательность, применяя варианты VCF

конвертировать .. конвертировать VCF/BCF в другие форматы и обратно

csq .. вызывающая функция с учетом гаплотипа

фильтровать .. фильтровать файлы VCF/BCF, используя фиксированные пороги

gtcheck .. проверка соответствия образцов, обнаружение подмен образцов и загрязнение

head .. просмотреть заголовки файлов VCF/BCF

индекс .. индекс VCF/BCF

isec .. пересечения файлов VCF/BCF

объединить .. объединить файлы файлов VCF/BCF из непересекающихся наборов образцов

mpileup .. многостороннее наложение, производящее вероятность генотипа

норма .. нормализовать отступы

плагин .. запустить пользовательский плагин

полисомия .. обнаружение контаминации и полнохромосомных аберраций

запрос .. преобразование VCF/BCF в пользовательские форматы

reheader .. изменить заголовок VCF/BCF, изменить имена образцов

roh .. определение серий гомо/аутозиготности

сортировать .. сортировать файлы VCF/BCF

stats .. производит статистику VCF/BCF (ранее vcfcheck)

просматривать .. подмножества, фильтровать и конвертировать файлы VCF и BCF

СПИСОК СКРИПТОВ

Некоторые вспомогательные скрипты связаны с кодом bcftools.

plot-vcfstats .. отображает выходные данные статистики

КОМАНДЫ И ОПЦИИ

Общие параметры

Следующие параметры являются общими для многих команд bcftools. См. использование конкретных команд, чтобы узнать, применимы ли они.

Файлы могут быть как VCF, так и BCF, несжатыми или сжатыми BGZF. Файл "-" интерпретируется как стандартный ввод. Для некоторых инструментов могут потребоваться файлы с индексом tabix или CSI.

Управляет обработкой записей с повторяющимися позициями и определяет совместимые записи в нескольких входных файлах. Здесь под «совместимыми» мы подразумеваем записи, которые должны рассматриваться инструментами как идентичные. Например, при пересечении линий может потребоваться считать идентичными все сайты с совпадающими позициями (bcftools isec -c all) или только сайты с совпадающим типом варианта (bcftools isec -c snps -c indels) или только сайты со всеми идентичными аллелями (bcftools isec -c none).

совместимы только записи с идентичными аллелями REF и ALT

совместимы только записи, в которых совпало некоторое подмножество аллелей ALT

все записи совместимы, независимо от того, совпадают аллели ALT или нет. В случае записей с одинаковой позицией будет учитываться и отображаться только первая запись.

любые записи SNP совместимы, независимо от того, совпадают аллели ALT или нет. Для повторяющихся позиций будет учитываться и отображаться только первая запись SNP.

все записи indel совместимы, независимо от того, совпадают аллели REF и ALT или нет. Для повторяющихся позиций будет учитываться и отображаться только первая запись с делением.

сокращение от "-c инделы -c snps"

совместимы только записи с идентичным столбцом ID. Поддерживается только слиянием bcftools.

Пропускать сайты, столбец FILTER которых не содержит строк, перечисленных в LIST. Например, чтобы включить только сайты, для которых не установлены фильтры, используйте -f .,PASS.

--нет версии

Не добавляйте информацию о версии и командной строке в выходной заголовок VCF.

-o, --output ФАЙЛ

Если вывод состоит из одного потока, записывайте его в ФАЙЛ, а не в стандартный вывод, куда он записывается по умолчанию. Тип файла определяется автоматически по суффиксу имени файла, и в случае указания конфликтующей опции -O приоритет имеет суффикс имени файла.

Вывод сжатого BCF (b), несжатого BCF (u), сжатого VCF (z), несжатого VCF (v ). Используйте параметр -Ou при передаче по конвейеру между подкомандами bcftools, чтобы повысить производительность за счет удаления ненужного сжатия/распаковки и преобразования VCF ←→BCF. Уровень сжатия сжатых форматов (b и z) можно установить, добавив число от 0 до 9.

Список регионов, разделенных запятыми, см. также -R, --regions-file. Перекрывающиеся записи сопоставляются, даже если начальная координата находится за пределами области, в отличие от опций -t/-T, где проверяется только координата POS. Обратите внимание, что -r нельзя использовать в сочетании с -R.

-R, --regions-file ФАЙЛ

Области можно указать либо в командной строке, либо в файле VCF, BED или файле с разделителями табуляцией (по умолчанию). Столбцы файла с разделителями табуляцией могут содержать либо позиции (формат из двух столбцов), либо интервалы (формат из трех столбцов): CHROM, POS и, необязательно, END, где позиции отсчитываются от 1 и включительно. Столбцы файла BED с разделителями табуляцией также являются CHROM, POS и END (конечные столбцы игнорируются), но координаты отсчитываются от 0 и полуоткрыты.Чтобы указать, что файл обрабатывается как BED, а не как файл с разделителями табуляции на основе 1, файл должен иметь суффикс «.bed» или «.bed.gz» (без учета регистра). Несжатые файлы хранятся в памяти, а файлы регионов, сжатые с помощью bgzip и индексированные tabix, передаются в потоковом режиме. Обратите внимание, что имена последовательностей должны точно совпадать, «chr20» — это не то же самое, что «20». Также обратите внимание, что порядок хромосом в ФАЙЛЕ будет соблюдаться, VCF будет обрабатываться в том порядке, в котором хромосомы впервые появляются в ФАЙЛЕ. Однако внутри хромосом VCF всегда будет обрабатываться в порядке возрастания геномных координат, независимо от того, в каком порядке они появляются в FILE. Обратите внимание, что перекрывающиеся области в FILE могут привести к дублированию неупорядоченных позиций в выходных данных. Для этой опции требуются индексированные файлы VCF/BCF. Обратите внимание, что -R нельзя использовать в сочетании с -r.

Эта опция управляет тем, как определяются перекрывающиеся записи: установите значение pos или 0, если запись VCF должна иметь POS внутри региона (это соответствует поведению -t/-T по умолчанию); установите на запись или 1, если также должны быть включены перекрывающиеся записи с POS за пределами региона (это поведение по умолчанию -r/-R и включает вставки с POS в конце региона, которые технически находятся за пределами региона); или установите значение variant или 2, чтобы включить только истинное перекрывающееся изменение (сравните полное представление VCF "TA>T-" и истинное изменение последовательности "A>-").

-s, --samples [^]СПИСОК

Список образцов, разделенных запятыми, которые следует включить или исключить, если перед ними стоит "^". (Обратите внимание, что при исключении нескольких образцов префикс «^» по-прежнему присутствует только один раз, например, «^ОБРАЗЕЦ1,ОБРАЗЕЦ2».) Порядок образцов обновляется, чтобы отразить указанный в командной строке. Обратите внимание, что в целом теги, такие как INFO/AC, INFO/AN и т. д., не обновляются, чтобы соответствовать образцам подмножества. Представление bcftools является исключением, когда некоторые теги будут обновлены (если не используется параметр -I, --no-update; см. документацию представления bcftools). Чтобы использовать обновленные теги для подмножества в другой команде, можно передать из представления в эту команду. Например:

Файл с именами образцов для включения или исключения, если он имеет префикс "^". Один образец на строку. См. также примечание выше для опции -s, --samples. Порядок выборки обновляется, чтобы отразить указанный во входном файле. Вызов команды bcftools принимает необязательный второй столбец, указывающий плоидность (0, 1 или 2) или пол (как определено параметром --ploidy, например, "F" или "M"), например:

Дэйв Маккей

Дэйв Маккей
Писатель

Фатмавати Ахмад Заэнури/Shutterstock

Мы используем команду Linux ls каждый день, даже не задумываясь об этом. Какая жалость. Обратите на это внимание, и вы найдете много полезных опций, в том числе некоторые, которые вы должны добавить в свой арсенал командной строки.

ls выводит список файлов и каталогов

Команда ls, вероятно, первая команда, с которой сталкивается большинство пользователей Linux. Те из нас, кто пользуется командной строкой, используют ее изо дня в день, даже не задумываясь об этом. Это может объяснить, почему в этой команде есть нечто большее, чем думает большинство пользователей. Мы перечисляем файлы с его помощью, чтобы увидеть, что находится в каталоге. Мы перечисляем файлы в длинном формате, когда хотим посмотреть права доступа к файлу. Кроме того, на него мало внимания обращают.

Команда ls — одна из тех команд с множеством параметров. Возможно, это часть проблемы. Есть так много вариантов, как вы просеиваете их, чтобы найти полезные? А найдя их, как вы их запомните?

Полезные перестановки команды ls с их строками опций и параметров являются идеальными кандидатами на псевдонимы. Фактически, в большинстве дистрибутивов то, что вы считаете «голой» командой ls, на самом деле является псевдонимом. Помимо прочего, команду type можно использовать для отображения основного определения псевдонимов. Давайте посмотрим на определение ls :

Параметры --color=auto включаются автоматически каждый раз, когда вы используете команду ls. Это то, что обеспечивает разные цвета для разных типов файлов в списках.

Простые списки ls

Каждый, кто хоть раз работал с терминалом Linux, знает, что по умолчанию ls выводит список файлов и каталогов в текущем каталоге.

Если вы хотите, чтобы список отображался в одном столбце, используйте параметр -1 (один файл в строке):

Мы обсудим это странное имя файла в верхней части списка через минуту.

Использование ls в разных каталогах

Чтобы ls перечисляла файлы в каталоге, отличном от текущего каталога, передайте путь к каталогу в ls в командной строке. Вы также можете передать более одного каталога в ls и перечислить их один за другим. Здесь мы просим ls вывести список файлов в двух каталогах, один из которых называется «Справка», а другой — «gc_help».

Когда ls перечисляет содержимое первого каталога, он отображает содержимое второго. Он печатает имя каждого каталога по мере их обработки:

Использование шаблонов файлов

Чтобы выборочно перечислить набор файлов, используйте сопоставление с образцом. Знак вопроса «? ” будет представлять любой одиночный символ, а звездочка “*” будет представлять любую строку символов. Чтобы перечислить любые файлы или каталоги, имена которых начинаются с «ip_», используйте следующий формат:

Чтобы перечислить файлы с расширениями «.c», используйте следующий формат:

Вы также можете использовать ls с grep и использовать возможности сопоставления с образцом grep. Давайте найдем все файлы, в имени которых есть строка «_pin_»:

Это почти то же самое, что использовать только ls с двумя подстановочными знаками:

Почему почти одинаковые? Обратите внимание на разные макеты. grep принудительно выводит в формате одно имя файла на строку.

Непечатаемые символы

Возможно найти себя с именем файла, в имени которого есть непечатаемый или управляющий символ. Как правило, это может произойти, когда вы расширяете архив, который вы загрузили из Интернета или извлекли из репозитория git, а первоначальный автор сделал ошибку при создании файла, но не заметил ее.

Наш странный файл — один из следующих:

Если мы посмотрим на него в браузере файлов и нажмем «F2», чтобы переименовать его, непечатаемые символы будут представлены странным символом.

Вы можете использовать параметр -b (escape), чтобы увидеть, что на самом деле содержит имя файла. Этот параметр заставляет ls использовать escape-последовательности языка программирования C для представления управляющих символов.

Таинственный символ оказывается символом новой строки, представленным в C как «\n».

Игнорирование файлов

Чтобы исключить определенные файлы из списка, используйте параметр --hide. Предположим, вы не хотите видеть файлы резервных копий «.bak» в списке. Вы можете использовать эту команду:

Файлы «.bak» не включены во второй список.

Длинный формат

Опция -l (длинный список) заставляет ls предоставлять подробную информацию о каждом файле.

Здесь много информации, так что давайте пройдемся по ней.

Первое, что отображает ls, — это общий размер всех файлов в списке. Затем каждый файл или каталог отображается отдельной строкой.

Первый набор из десяти букв и дефисов – это тип файла, владелец, группа и другие права доступа к файлу.

Самый первый символ обозначает тип файла. Это будет один из:

Следующие девять символов представляют собой три группы по три символа, отображаемые последовательно. Каждая группа из трех представляет права на чтение, запись и выполнение в указанном порядке. Если разрешение предоставлено, будут присутствовать r , w или x . Если разрешение не предоставлено, отображается дефис -.

Первый набор из трех символов — это права доступа для владельца файла. Второй набор из трех разрешений предназначен для участников группы, а последний набор из трех разрешений — для остальных.

Иногда разрешение на выполнение для владельца обозначается буквой s . Это бит setuid. Если он присутствует, это означает, что файл выполняется с привилегиями владельца файла, а не пользователя, выполняющего файл.

Разрешение на выполнение для группы также может быть s . Это бит setgid. Когда это применяется к файлу, это означает, что файл будет выполняться с привилегиями группы владельца. При использовании с каталогом любые файлы, созданные в нем, получат свои групповые разрешения от каталога, в котором они создаются, а не от пользователя, который создает файл.

Разрешение на выполнение для других иногда может быть представлено t . Это липкий бит. Обычно применяется к каталогам. Если это установлено, независимо от прав на запись и выполнение, установленных для файлов в каталоге, только владелец файла, владелец каталога или пользователь root могут переименовывать или удалять файлы в каталоге.

Обычно бит sticky используется в таких папках, как «/tmp». Это доступно для записи всем пользователям компьютера. Прикрепленный бит в каталоге гарантирует, что пользователи и запущенные ими процессы могут только переименовывать или удалять свои собственные временные файлы.

Мы видим залипший бит в каталоге «/tmp». Обратите внимание на использование параметра -d (каталог). Это заставляет ls сообщать о деталях каталога. Без этой опции ls будет сообщать о файлах внутри каталога.

Число, следующее за разрешениями, — это количество жестких ссылок на файл или каталог. Для файла это обычно одна, но если создаются другие жесткие ссылки, это число будет увеличиваться. Каталог обычно имеет как минимум две жесткие ссылки. Один из них является ссылкой на себя, а другой является его записью в его родительском каталоге.

Далее отображаются имя владельца и группы. За ними следует размер файла и дата последней модификации файла. Наконец, дается имя файла.

Размеры файлов, удобные для чтения

Размеры файлов в байтах не всегда удобны. Чтобы увидеть размеры файлов в наиболее подходящих единицах (килобайты, мегабайты и т. д.), используйте параметр -h (удобочитаемый):

Отображение скрытых файлов

Чтобы увидеть скрытые файлы, используйте параметр -a (все):

Две записи «.» и «..» представляют текущий каталог и родительский каталог соответственно. Файл с именем «.base_settings» теперь виден впервые.

Опущение . и .. из списков

Если вы не хотите, чтобы ваше объявление было загромождено "." и «..», но вы хотите видеть скрытые файлы, используйте опцию -A (почти все):

Скрытый файл по-прежнему отображается в списке, но «.» и «..» подавляются.

Рекурсивный список каталогов

Чтобы ls отображал файлы во всех подкаталогах, используйте параметр -R (рекурсивный)

ls просматривает все дерево каталогов ниже начального каталога и выводит список файлов в каждом подкаталоге.

Отображение UID и GID

Чтобы отображались идентификатор пользователя и идентификатор группы вместо имени пользователя и имени группы, используйте параметр -n (числовой uid и gid).

Сортировка списков

Вы можете отсортировать список по расширению, размеру файла или времени модификации. Эти параметры не обязательно использовать с форматом длинного списка, но обычно это имеет смысл. Если вы сортируете файлы по размеру, имеет смысл посмотреть размеры файлов в списке. При сортировке по типу расширения формат длинного списка не так важен.

Для сортировки по расширению используйте параметр -X (сортировка по расширению).

Каталоги перечислены первыми (без расширений вообще), затем остальные следуют в алфавитном порядке в соответствии с расширениями.

Для сортировки по размеру файла используйте параметр -S (сортировка по размеру файла).

Порядок сортировки от большего к меньшему.

Чтобы отсортировать список по времени модификации, используйте параметр -t (сортировка по времени модификации).

Список отсортирован по времени модификации.

Если время изменения файла относится к текущему году, отображается информация о месяце, дне и времени. Если дата изменения не относится к текущему году, отображается информация о месяце, дне и годе.

Быстрый способ получить самые новые и самые старые файлы в каталоге — использовать ls с командами head и tail.

Чтобы получить самый новый файл или каталог, используйте эту команду:

Чтобы получить самый старый файл или каталог, используйте эту команду:

Обратный порядок сортировки

Чтобы изменить любой из порядков сортировки, используйте параметр -r (обратный).

Список теперь упорядочен от самого маленького файла к самому большому файлу.

И многое другое

Посмотрите справочную страницу для ls , там есть много других вариантов. Некоторые из них подходят для несколько неясных вариантов использования, но время от времени вы будете рады, что узнали о них.

Нужно ли вам видеть временные метки файлов с максимальной точностью, которую может обеспечить Linux? Используйте полный рабочий день:

Возможно, вы хотите увидеть номер инода файлов? Используйте параметр inode:

Вы работаете с монохромным дисплеем и хотите исключить риск путаницы файлов с каталогами и ссылками? Используйте параметр classify, и ls добавит один из них к каждой записи списка:

Покопайтесь. Вы обнаружите, что это богатая жила, и вы будете продолжать находить драгоценные камни.

< /tbody>
Команды Linux
Файлы tar · pv · cat · tac · chmod · grep · diff · sed · ar · man · pushd · popd · fsck · testdisk · seq · fd · pandoc · cd · $PATH · awk · join · jq · fold · uniq · journalctl · tail · stat · ls · fstab · echo · less · chgrp · chown · rev · look · strings · type · rename · zip · unzip · mount · umount · install · fdisk · mkfs · rm · rmdir · rsync · df · gpg · vi · nano · mkdir · du · ln · patch · convert · rclone · shred · srm
Процессы alias · screen · top · nice · renice · прогресс · strace · systemd · tmux · chsh · история · at · пакетное · бесплатное · которое · dmesg · chfn · usermod · ps · chroot · xargs · tty · pinky · lsof · vmstat · timeout · стена · yes · kill · спать · sudo · su · время · groupadd · usermod · группы · lshw · выключение · перезагрузка · halt · poweroff · passwd · lscpu · crontab · date · bg · fg
Сеть netstat · ping · traceroute · ip · ss · whois · fail2ban · bmon · копать · finger · nmap · ftp · curl · wget · who · whoami · w · iptables · ssh-keygen · ufw
  • › Как использовать операторы case в сценариях Bash
  • › Как получить размер файла или каталога в Linux
  • › Как использовать команду stat в Linux
  • › Как использовать команду which в Linux
  • › Как использовать getopts для анализа параметров сценария оболочки Linux
  • › Как использовать условные тесты с двойными скобками в Linux
  • › Как копировать файлы и каталоги в терминале Linux
  • › Что означает ИК и как вы его используете?

Читайте также: