Генерировать файл, чем открывать

Обновлено: 21.11.2024

Эта зарисовка документирует функции пакета BinaryDosage, которые преобразуют файлы GEN в двоичные файлы дозировок.

Примечание. В приведенных ниже примерах используются функции для доступа к информации в двоичных файлах дозировок. Информацию об этих функциях можно найти в виньетке Использование двоичных файлов дозировки. Данные, возвращаемые функцией getbdinfo, содержат информацию о двоичном файле дозы. Информацию о данных, возвращаемых getbdinfo, можно найти в виньетке Информация о генетическом файле.

Файлы GEN — удобный способ хранения генетических данных. Это текстовые файлы, которые легко анализируются. Выходные файлы, возвращаемые программой импутации Impute2, возвращаются в этом формате.

Несжатые файлы GEN могут быть очень большими, до сотен ГБ. Из-за этого они довольно часто сжимаются. Это делает файлы намного меньше, но значительно увеличивает время чтения. Пакет BinaryDosage поддерживает чтение файлов GEN, сжатых gzip.

Похоже, что за прошедшие годы в файл GEN вносились изменения, а также кажется, что люди создали форматы файлов, подобные GEN. Пакет BinaryDosage может поддерживать многие форматы файлов, подобные GEN.

В пакете BinaryDosage есть процедура для преобразования файлов GEN в двоичный формат, сохраняющий дозировку, генетику и вероятности. Это приводит к тому, что размер файла составляет примерно 10-15% от размера несжатого файла VCF с гораздо более быстрым, в 200-300 раз, временем чтения. Для сравнения, использование gzip для сжатия файла GEN уменьшает размер файла примерно до 5 % от исходного размера, но замедляет время выполнения.

Подпрограммы были написаны для облегчения отладки процедуры преобразования. Было обнаружено, что эти подпрограммы весьма полезны для доступа к данным в файле GEN и теперь включены в пакет. Этот документ содержит инструкции по использованию этих подпрограмм.

Файл GEN может иметь заголовок. Если у него есть заголовок, формат первых N записей должен быть именами столбцов для информационных переменных SNP. Следующие значения определяют темы и могут иметь любой из следующих форматов, упорядоченных по теме

  • Идентификатор семьи, за которым следует идентификатор субъекта.
  • Только идентификатор субъекта

Если файл GEN не имеет заголовка, информация о теме должна быть в образце файла, который можно прочитать с помощью read.table . Если имеется только один столбец, для идентификатора субъекта устанавливается это значение, а для идентификатора семьи устанавливается значение "“. В противном случае значение идентификатора семьи устанавливается на значение первого столбца, а значение идентификатора субъекта устанавливается на значение второго столбца. . Если первое значение идентификатора субъекта и идентификатора семьи равно "0", они удаляются. Если идентификатор семьи и идентификатор субъекта одинаковы для всех субъектов, значение идентификатора семьи устанавливается на "".

Примечание. Если предоставляется образец файла, заголовок игнорируется.

Файл тела GEN должен иметь следующий формат. Первые N столбцов должны содержать информацию о SNP. Эти столбцы должны содержать следующие значения

  • Идентификатор SNP
  • Местоположение
  • Альтернативный аллель
  • Референсный аллель

Номер хромосомы также может быть указан в первых N столбцах.

Примечание. Первые три столбца файла GEN раньше были snp_id, rs_id и position. Во многих случаях эти значения изменились на хромосому, snp_id и позицию.

Остальные столбцы должны содержать вероятности генотипов, отсортированные по субъектам. Вероятности генотипа могут быть представлены в любом из следующих форматов.

  • Только значение дозировки
  • Субъект вероятности не имеет альтернативных аллелей, субъект вероятности имеет один альтернативный аллель.
  • Субъект вероятности не имеет альтернативных аллелей, субъект вероятности имеет один альтернативный аллель, субъект вероятности имеет два альтернативных аллеля.

Примечание. Количество вероятностей генотипа должно соответствовать количеству субъектов, указанному в заголовке или файле образца.

В пакет BinaryDosage включено несколько примеров файлов. Имена файлов будут найдены с помощью команды system.file в примерах. Это будет использоваться много раз в примерах.

Созданные бинарные файлы дозировки будут временными файлами. Они будут созданы с помощью команды tempfile. Это также будет использоваться много раз в примерах. Все выходные файлы будут использовать формат по умолчанию 4. Информацию о других форматах см. в виньетке «Двоичные форматы дозировки».

Подпрограмма gentobd преобразует файлы GEN в двоичный формат дозировки. Множество различных форматов файлов GEN в пакете BinaryDosage. В следующих разделах показано, как преобразовать файлы GEN в различных форматах в двоичный формат дозировки.

Gentobd принимает следующие параметры

  • genfiles — имя файла GEN и необязательный образец файла.
  • snpcolumns — столбцы, содержащие значения хромосомы, идентификатора SNP, местоположения, эталонного аллеля и альтернативного аллеля.
  • startcolumn – столбец, с которого начинается вероятность генотипа.
  • impformat — количество вероятностей генотипа для каждого субъекта.
  • хромосома — необязательная хромосома, при условии, что хромосома не включена в файл GEN.
  • header — вектор из одного или двух логических значений, указывающих, есть ли заголовки у файлов GEN и файлов образцов соответственно.
  • gz — логическое значение, указывающее, сжат ли файл GEN.
  • sep — разделитель, используемый в файле GEN.
  • bdfiles — вектор значений символов, задающий имена бинарных файлов с дозировками. Если двоичный формат дозировки равен 3 или меньше, есть три имени файла, двоичный файл дозировки, файл семейства и имена файлов карты. Для формата 4 есть только двоичное имя файла дозы.
  • format — формат двоичного файла дозировки.
  • subformat — подформат бинарного файла дозы.
  • snpidformat — формат для хранения идентификатора SNP.
  • bdoptions — параметры для расчета дополнительных данных SNP.

Параметры по умолчанию

Значения по умолчанию для gentobd требуют файла образца, что означает, что в файле GEN нет заголовка, а первые пять столбцов содержат хромосому, идентификатор SNP, местоположение, эталонный аллель и альтернативный аллель соответственно. Данные генотипа должны иметь три значения генотипа, и файл не должен быть сжат.

снип-столбцы

Параметр snpcolumns перечисляет номера столбцов для хромосомы, идентификатора SNP, местоположения, эталонного аллеля и альтернативного аллеля соответственно.

Следующий код читается в set1b.imp. Этот файл содержит данные SNP в следующем порядке: хромосома, местоположение, идентификатор SNP, эталонный аллель, альтернативный аллель. У файла также есть заголовок, поэтому файла-образца нет.

Довольно часто хромосома не является частью файла GEN, и первый столбец имеет значение «--». В этом случае идентификатор SNP часто имеет формат: . В этом случае номер столбца хромосомы (первое значение в snpcolumns) можно установить равным 0L, и процедура gentobd извлечет хромосому из значения идентификатора SNP.

начальный столбец

Иногда файл GEN содержит больше информации об SNP, чем пять значений, упомянутых ранее. В этом случае вероятности генотипа начинаются с номера столбца, отличного от 6. Значением startcolumn является номер столбца, с которого начинаются вероятности генотипа

Следующий код читается в set4b.imp. У него есть дополнительный столбец в данных SNP в столбце 2. snpcolumns и startcolumn были настроены для обработки этого. Также установлено значение impformat, так как в файле всего 2 вероятности генотипа.

импортировать

Параметр impformat представляет собой целое число от 1 до 3, указывающее, сколько вероятностей генотипов содержится в файле для каждого человека. Значение 1 указывает, что значение является значением дозы для субъекта.

Следующие коды читаются в файле set2b.imp. Этот файл содержит только значения дозировок для испытуемых. Информация SNP не находится в порядке по умолчанию, поэтому необходимо указать значения snpcolumns (см. выше).

хромосома

Параметр хромосомы — это символьное значение, которое используется, когда значение столбца хромосомы в snpcolumns установлено на -1L.

Следующий код читается в set3b.imp, устанавливая значение хромосомы равным 1.

параметр заголовка

Параметр заголовка представляет собой вектор символов длины 1 или 2. Они указывают, есть ли заголовки у файла GEN или файла примера соответственно. Если первое значение TRUE , второе значение игнорируется, поскольку идентификаторы субъектов находятся в заголовке файла GEN.

Следующий код считывает set3b.imp с помощью примера файла set3bnh.sample без заголовка.

Параметр gz — это логическое значение, указывающее, сжат ли файл GEN с помощью gzip. Образец файла всегда считается несжатым.

Следующий код считывает файл set4b.imp.gz, используя образец файла set4b.sample.

разделитель

Параметр-разделитель — это символьная переменная. Этот символ разделяет столбцы в файле GEN. Несколько копий разделителя считаются разделителем.

bd-файлы

Параметр bdfiles представляет собой вектор символов длиной 1 или 3. Это имена двоичных файлов дозировки, семейства и карты. Если формат двоичного файла дозировки равен 4, единственное необходимое значение — это имя двоичного файла дозировки.

формат

Параметр формата определяет формат двоичных файлов дозировки. Форматы 1, 2 и 3 состоят из трех файлов, бинарной дозы, семейства и карты. Формат 4 объединяет все это в один файл.

подформат

Параметр подформата определяет, какая информация содержится в двоичных файлах дозировки. Все форматы могут иметь подформаты 1 и 2. Значение подформата 1 указывает, что в двоичный файл дозировки записываются только значения дозировки, а значение 2 указывает, что дозировка и вероятности генотипа записываются в двоичный файл дозировки. Форматы 3 и 4 также могут иметь значения подформата 3 и 4.Эти значения имеют то же значение, что и 1 и 2 соответственно, но имеют слегка измененный порядок заголовков в двоичном файле дозы для повышения скорости чтения.

snpidформат

Параметры snpidformat определяют способ записи идентификатора SNP в двоичный файл дозы. Значение по умолчанию — 0. Это указывает коду использовать идентификаторы SNP, которые находятся в файле GEN. Другие значения, которые могут быть переданы функции, создают идентификатор SNP из значений хромосомы, местоположения, ссылки и альтернативного аллеля.

Если для snpidformat установлено значение 1, идентификатор SNP записывается в формате

Если для snpidformat установлено значение 2, идентификатор SNP записывается в формате

Хромосома:Расположение:Эталонный аллель:Альтернативный аллель

Если для параметра snpidformat установлено значение 3, идентификатор SNP записывается в формате

Хромосома:Location_Reference Allele_Alternate Allele

Если для параметра snpidformat задано значение -1, идентификатор SNP не записывается в двоичный файл дозы. При чтении двоичного файла дозировки создается идентификатор SNP с использованием формата snpidformat, равного 2. Это уменьшает размер двоичного файла дозировки.

параметры

При использовании бинарного формата дозировки 4.x в файле можно хранить дополнительную информацию об SNP. Эта информация состоит из следующих значений

  • Частота альтернативного аллеля
  • Частота минорного аллеля
  • Вменение r-квадрата

Можно рассчитать частоту альтернативных и минорных аллелей без файла информации об импутации. Также можно оценить вменение r-квадрата. Дополнительную информацию об оценке r-квадратов см. в виньетке «Оценка вмененных R-квадратов».

Значение для bdoptions представляет собой вектор значений символов, которые могут быть «aaf», «maf», «rsq» или комбинацией этих значений. Значения указывают на необходимость расчета частоты альтернативного аллеля, частоты минорного аллеля и импутации r-квадрата соответственно.

Следующие процедуры доступны для доступа к информации, содержащейся в файлах VCF

получить информацию

Подпрограмма getgeninfo возвращает информацию о файле GEN. Дополнительные сведения о возвращаемых данных см. в разделе Информация о генетическом файле. Эту информацию необходимо передать программе genapply, чтобы она могла эффективно читать файл GEN.

Параметры, передаваемые в getgeninfo

  • genfiles — имя файла GEN и необязательный образец файла.
  • snpcolumns — столбцы, содержащие значения хромосомы, идентификатора SNP, местоположения, эталонного аллеля и альтернативного аллеля.
  • startcolumn – столбец, с которого начинается вероятность генотипа.
  • impformat — количество вероятностей генотипа для каждого субъекта.
  • хромосома — необязательная хромосома, при условии, что хромосома не включена в файл GEN.
  • header — вектор из одного или двух логических значений, указывающих, есть ли заголовки у файлов GEN и файлов образцов соответственно.
  • gz — логическое значение, указывающее, сжат ли файл GEN.
  • index — логическое значение, указывающее, следует ли индексировать файл GEN.
  • snpidformat — формат для создания идентификатора SNP.
  • sep — разделитель, используемый в файле GEN.

Все эти параметры имеют то же значение, что и в подпрограмме gentobd выше. Есть по дополнительному параметру index . Это логическое значение, указывающее, следует ли индексировать файл GEN для более быстрого чтения. Это полезно при использовании genapply. Однако параметр index не может быть TRUE, если файл сжат.

подать заявку

Подпрограмма genapply применяет функцию ко всем SNP в файле GEN. Подпрограмма возвращает список, длина которого равна количеству SNP в файле GEN. Каждый элемент в списке является значением, возвращаемым предоставленной пользователем функцией. Процедура принимает следующие параметры.

  • geninfo — список с информацией о файле GEN, возвращаемой функцией getgeninfo.
  • func — заданная пользователем функция, которая будет применяться к каждому SNP в файле VCF.
  • … – дополнительные параметры, необходимые пользовательской функции.

Пользовательская функция должна иметь следующие параметры.

  • geninfo — числовой вектор со значениями доз для каждого субъекта.
  • p0 – числовой вектор с вероятностью того, что у субъекта нет альтернативных аллелей для каждого субъекта.
  • p1 — числовой вектор с вероятностью наличия у субъекта одного альтернативного аллеля для каждого субъекта.
  • p2 — числовой вектор с вероятностью наличия у субъекта двух альтернативных аллелей для каждого субъекта.

Пользовательская функция может иметь другие параметры. Эти параметры необходимо передать процедуре genapply.

У вас возникли проблемы с открытием файла GEN или вам просто интересно, что он содержит? Мы объясним, для чего используются эти файлы, и покажем вам программное обеспечение, которое, как мы знаем, может открывать или иным образом обрабатывать ваши файлы.

Что такое файл GEN?

Расширение файла GEN указывает вашему устройству, какое приложение может открыть файл.Однако разные программы могут использовать тип файла GEN для разных типов данных.

Хотя мы еще не описываем формат файла GEN и его обычное использование, мы знаем, какие программы, как известно, открывают эти файлы, поскольку мы получаем десятки предложений от пользователей, таких как вы, каждый день о конкретных типах файлов и программах, которые они используют. используйте, чтобы открыть их.

Мы постоянно работаем над добавлением на сайт дополнительных описаний типов файлов, поэтому, если у вас есть информация о файлах GEN, которая, по вашему мнению, поможет другим, воспользуйтесь приведенной ниже ссылкой "Обновить информацию", чтобы отправить ее нам. Мы будем рады услышать от вас!

Как открыть файлы GEN

Важно: разные программы могут использовать файлы с расширением GEN для разных целей, поэтому, если вы не уверены, какой формат у вашего файла GEN, вам может потребоваться попробовать несколько разных программ.

Хотя мы сами еще не проверяли приложения, наши пользователи предложили 20 различных открывателей GEN, которые вы найдете в списке ниже.

Различные приложения, использующие файлы с этим расширением

Известно, что эти приложения открывают определенные типы файлов GEN. Помните, что разные программы могут использовать файлы GEN для разных целей, поэтому вам может потребоваться попробовать несколько из них, чтобы открыть конкретный файл.

td> < td >SnapGene
BioEdit Отправлено пользователем
SnapGene Viewer Отправлено пользователем
Приложения для Windows PRO Отправлено пользователем
IBM SPSS Modeler Отправлено пользователем
Отправлено пользователем
< tr>
GenStat Discovery Edition Отправлено пользователем
Unipro UGENE Отправлено пользователем
Клементина Отправлено пользователем
Четырнадцатое издание GenStat Отправлено пользователем
Моделировщик PASW Отправлено пользователем
< table data-page="3"> MKEditor Отправлено пользователем GenStat Пятнадцатое издание Отправлено пользователем Kega Fusion Отправлено пользователем <т r> Cadwin Отправлено пользователем Простой учет < td >Отправлено пользователем
Тринадцатое издание GenStat Пользователь отправлено
gens Отправлено пользователем
Nestopia Отправлено пользователем
GenStat Teaching Edition Отправлено пользователем
GenStat, десятое издание отправлено пользователем

Попробуйте универсальный просмотрщик файлов

Попробуйте универсальное средство просмотра файлов, например Free File Viewer. Он может открывать более 200 различных типов файлов — и, скорее всего, ваши тоже. Загрузите бесплатную программу просмотра файлов здесь.

Не уверены, какой тип файла вы пытаетесь открыть? Попробуйте наш новый анализатор файлов. Это бесплатный инструмент, который может идентифицировать более 11 000 различных типов файлов — скорее всего, и ваши! Это поможет вам найти программное обеспечение, которое может обрабатывать файлы определенного типа. Загрузите анализатор файлов здесь.

GEN в iMOD — это файл в двоичном формате (см. раздел 9.11), который содержит координаты с двойной точностью, а также информацию о метках. Он заменяет старый формат ASCII GEN в сочетании с файлом DAT. iMOD может читать старый файл ASCII GEN, однако функциональность файлов GEN и DAT устарела. Существует возможность импортировать старый файл ASCII GEN и DAT и преобразовать его в новый ДВОИЧНЫЙ формат через Файл, параметр Импорт, а затем параметр Импорт ESRI. GEN-файл.

Выберите основной параметр Изменить, затем выберите параметр Создать объекты, а затем параметр GENs, чтобы отобразить Создать GENs< /я> окно. Окно Создать GENs.


Нарисовать многоугольник
Нажмите эту кнопку, чтобы начать рисовать многоугольник на холсте. Подробнее о рисовании многоугольников см. в разделе 4.3. Сначала вам нужно выбрать тип фигуры, которую вы хотите нарисовать, в окне Select:


Точка
Выберите этот параметр, чтобы определить начальные точки для одной точки


Прямоугольник
Выберите этот параметр, чтобы определить прямоугольник.


Многоугольник
Выберите этот параметр, чтобы определить многоугольник.


Окружность
Выберите этот параметр, чтобы определить начальные точки окружности


Линия
Нажмите этот параметр, чтобы определить линию.






Переименовать фигуру
Нажмите эту кнопку, чтобы переименовать выбранную фигуру. Появится окно Ввод:

Пример окна ввода



Информация
Нажмите эту кнопку, чтобы открыть окно Значения атрибутов:

Пример окна значений атрибутов


Явставить атрибут
Добавить атрибут к фигурам.

Доступны следующие параметры

Укажите имя атрибута
Введите имя текущего атрибута. Для указания этого ярлыка можно использовать не более 11 символов

Ширина атрибута
Введите ширину атрибута в символах, числа также будут сохранены как символы. С помощью параметра Переименовать атрибут можно изменить ширину атрибута, однако имейте в виду, что последующее уменьшение ширины также может привести к удалению данных.


Удалить атрибут
Удалить выбранный атрибут.


Переименовать атрибут
Измените имя выбранного атрибута, см. описание в разделе Вставить атрибут.

Используйте следующий
столбец для сетки/интерполяции:

Установите флажок и выберите имя атрибута из раскрывающегося списка, если интерполяция должна выполняться для атрибута, отличного от SHAPEID.

Внесите изменения в фигуры.


Примечание. Упомянутые выше функции появляются в iMOD в разных окнах. Поведение для каждого из них аналогично объясненному выше.

Читайте также: