Если при создании CSV-файла для какого-то типа данных нет значения, то

Обновлено: 06.07.2024

Не все файлы данных так же легко импортировать, как данные Chile.csv. Например, в файле данных могут быть дополнительные строки, не содержащие данных или имен столбцов, а также могут быть некоторые отсутствующие значения. В этом разделе рассматриваются методы решения таких проблем с файлами данных.

2.3.1 Концепции данных

2.3.1.1 Метаданные в файлах данных

Файлы данных могут иметь строки в начале, а иногда и в конце, которые не являются данными или именами столбцов. Этот текст часто является метаданными, информацией о данных в файле. Хотя эта информация может представлять интерес для аналитика данных, она не является частью информации о строках и столбцах таблицы данных, содержащейся в файле. Таким образом, этот текст необходимо исключить из фрейма данных.

Файл csv с метаданными может выглядеть следующим образом: составленный файл данных.

В этом созданном файле есть три строки (две с текстом и одна пустая) в начале файла и одна строка в конце файла, которые описывают информацию о данных. Это строки, которые необходимо исключить из фрейма данных.

2.3.1.2 Отсутствующие данные

Реальные данные часто бывают неполными: некоторые наблюдения могут иметь значение не для всех столбцов. Эти значения, которые не предоставляются, называются отсутствующими данными. Вот некоторые примеры того, почему это может произойти: кто-то пропускает вопрос в опросе, нечитаемый номер в лабораторном отчете и отказы тестового оборудования.

Файлы данных могут использовать два метода, чтобы указать, что значение отсутствует. Один из них — не указывать значение в наборе данных. Другой — использовать специальную строку символов или цифр. Почти любая строка символов или цифр может использоваться для обозначения отсутствия значения. Специальные индикаторы отсутствия могут быть задокументированы для вас либо в файле данных с метаданными, как это было сделано в составленном файле, либо в отдельном файле, который документирует набор данных. Иногда документация об отсутствующих значениях отсутствует, и их приходится обнаруживать путем проверки данных.

Вышеприведенный набор данных использует как специальный индикатор, так и не содержит значения, указывающего на отсутствие данных. Строка с "Верона" не имеет значения для третьего столбца, а символ "*" используется в столбце 2 строки с "Солнечная прерия".

2.3.2 Очистка

Большинство языков обработки данных имеют собственный специальный объект для указания отсутствующего значения данных. (В некоторых языках есть несколько специальных объектов для идентификации разных типов отсутствующих данных.) Эти объекты отсутствующих данных позволяют функциям языка программирования не пытаться использовать отсутствующие данные в вычислениях. Например, функция, вычисляющая среднее значение столбца, может исключить из расчета пропущенные значения.

Индикаторы отсутствующих значений в файле данных необходимо заменить на объект отсутствующих значений, используемый программой. Часть этой работы выполняется автоматически в функциях чтения R и Python. Примером такого автоматического изменения отсутствующего объекта является отсутствие значения в файле. (Некоторые функции будут использовать пустой символ "", вместо отсутствующего объекта, когда столбец читается как символ.)

Когда в файле данных используется специальный индикатор отсутствия, функция чтения может назначить отсутствующий объект вместо специального индикатора, предполагая, что специальный индикатор не является допустимым значением ни в одном из других столбцов. Это имеет место в созданном выше файле с использованием «*», поскольку «*» не является допустимым номером или названием города в Висконсине. Примером, когда это не так, является набор данных, в котором используется 3, чтобы указать, что нет ответа на вопрос «да» или «нет», а также в наборе данных есть числовые столбцы, которые могут принимать значение 3. В таких случаях так как в этом случае специальное отсутствующее значение может быть допустимым значением в другом столбце, лучше исправить отсутствующие значения после импорта файла.

2.3.3 Примеры — R

Набор данных о посещаемости, используемый в этом примере, имеет ряд особенностей, присущих реальным данным. Мы будем использовать этот файл данных, чтобы продемонстрировать решение некоторых проблем формата, которые могут возникнуть. Остальные проблемы с набором данных будут рассмотрены в главе об очистке.

2.3.3.1 Приобретение — импорт CSV-файла с метаданными

Мы начинаем с чтения набора данных.

Функция read_csv() выдает предупреждение о том, что отсутствуют имена переменных. Похоже, что только первый столбец имеет имя переменной. Это указывает на то, что перед данными может быть текст.

Затем мы смотрим в начало данных, чтобы увидеть, что находится в первых нескольких строках. Цель этого состоит в том, чтобы определить, где данные начинаются в файле. Может быть строка, в которой есть имена столбцов. Обратите внимание, что файл данных также можно открыть в текстовом редакторе, например в блокноте, чтобы изучить структуру начала и конца файла. Этот метод может быть проще и менее запутанным, если в файле много не данных.Один из распространенных рабочих процессов — начать с импорта набора данных. Если это работает, отлично. Если нет и понятно, что нужно исправить в импорте, то файл потом импортируется с исправлением. Если неясно, какие исправления необходимо внести, файл затем просматривается в каком-либо редакторе (Блокнот).

Третья строка файла (вторая строка фрейма данных) — это первая строка, содержащая символьные данные в многочисленных столбцах. Это могут быть имена столбцов. Четвертая строка имеет числа в тех же столбцах. Это могут быть данные. Похоже, это следующий лучший вариант импорта набора данных.

Мы импортируем набор данных, используя третью строку в качестве имен столбцов, и исключим первые две строки из набора данных. Это делается с помощью параметра skip функции read_csv().

В предупреждении read_csv() теперь меньше столбцов без имен. Появилось новое предупреждение о повторяющихся именах переменных. Несмотря на то, что теперь есть два предупреждения, набор данных ближе к чистоте.

Мы снова смотрим на начало данных, чтобы увидеть, нужно ли что-то еще исправить.

Первая строка не является данными. Решение этой проблемы будет рассмотрено в главе об очистке. Остальные отображаемые строки выглядят так, как будто в них есть данные. Тип для всех столбцов символьный, но некоторые из столбцов кажутся числовыми. Это еще одна проблема, которая будет рассмотрена в главе об очистке.

2.3.3.2 Очистка — кодирование отсутствующих данных при импорте CSV-файла

Есть еще одна проблема, которая не видна в данных заголовка. Следующий код отображает небольшую часть данных о посещаемости дальше в данные. (Код, отображающий эту часть данных, будет объяснен в следующей главе.)

На изображении выше мы видим, что "?" и "(?)" используются для обозначения отсутствующих данных. Это недопустимые значения для любых других столбцов.

Мы будем импортировать набор данных, используя параметр na функции read_csv(). Значение по умолчанию для na равно c("", "NA") . Это означает, что любое значение, имеющее значение пустого символа, "" или "NA", будет помечено NA , отсутствующим объектом в R. Следующее снова считывает данные с помощью "?" и "(?)" добавлены к параметру na. Затем отображаются те же ячейки, что и выше, чтобы увидеть результаты использования na .

На этом экране мы видим, что несколько столбцов, которые раньше были столбцами символов, теперь являются числовыми столбцами.

Это все, что будет исправлено с помощью read_csv(). Остальные проблемы будут рассмотрены в главе об очистке.

2.3.4 Примеры — Python

Набор данных о посещаемости, используемый в этом примере, имеет ряд особенностей, присущих реальным данным. Мы будем использовать этот файл данных, чтобы продемонстрировать решение некоторых проблем формата, которые могут возникнуть. Остальные проблемы с набором данных будут рассмотрены в главе об очистке.

2.3.4.1 Приобретение — импорт CSV-файла с метаданными

Мы начинаем с чтения набора данных.

Затем мы смотрим в начало данных, чтобы увидеть, что находится в первых нескольких строках.

Имя первой переменной больше похоже на описание набора данных. Это указывает на то, что перед данными есть текст, и первая переменная выглядит как метаданные.

Столбец многоточия, состоящий из трех точек, на этом дисплее указывает на то, что отображаемые данные были усечены, чтобы соответствовать ширине экрана. Здесь усечение — это столбцы между 0 и 16, которые были опущены из-за недостаточной ширины экрана. Это усечение также может происходить при усечении строк. Точки после названий штатов и стран в первой строке являются частью данных в файле данных посещаемости.

Обратите внимание, что файл данных также можно открыть в текстовом редакторе, таком как Блокнот, чтобы изучить структуру начала файла вместо того, чтобы читать файл и исследовать его в Python. Этот метод может быть проще и менее запутанным, если в файле много не данных. Один из распространенных рабочих процессов — начать с импорта набора данных. Если это работает, отлично. Если нет и понятно, что нужно исправить в импорте, то файл потом импортируется с исправлением. Если неясно, какие исправления необходимо внести, файл затем просматривается в каком-либо редакторе (Блокнот).

Неясно, есть ли в файле с этого дисплея имена столбцов. Похоже, что данные могут начинаться со второй строки. (Помните, что Python нумерует элементы, начинающиеся с 0.)

Мы попробуем начать со строки 1 с именами столбцов и посмотрим, приведет ли это к лучшему форматированию фрейма данных. Это делается с помощью параметра skiprows функции read_csv().

Это выглядит немного лучше. До сих пор трудно сказать, есть ли имена столбцов. Работа с именами столбцов будет рассмотрена в главе об очистке.

Есть несколько способов просмотреть дополнительные данные во фрейме данных. Фрейм данных можно открыть с помощью средства просмотра в RStudio. Полный заголовок () фрейма данных можно было просмотреть в файле уценки с помощью метода to_string ().Полоса прокрутки в нижней части HTML-дисплея используется для просмотра всех столбцов. Метод to_string() часто не так полезен при просмотре результатов в окне консоли.

2.3.4.2 Очистка — кодирование отсутствующих данных при импорте CSV-файла

Есть еще одна проблема, которая не видна в данных заголовка. Следующий код отображает небольшую часть данных о посещаемости дальше в данные. (Код, отображающий эту часть данных, будет объяснен в следующей главе.)

На изображении выше мы видим, что "?" и "(?)" используются для идентификации отсутствующих данных. Это недопустимые значения для любых других столбцов.

Параметр na_values ​​функции read_csv() используется для исправления ? а также (?) . Значение по умолчанию для na_values ​​— [""] . Это означает, что любое значение, имеющее значение пустого символа «», будет помечено как отсутствующий объект в Python. Следующее снова считывает данные с помощью "?" и "(?)" добавлены к параметру na_values. Затем отображаются те же ячейки, что и выше, чтобы увидеть результаты использования na .

Значок "?" и "(?)" были изменены на NaN , объект Python не является числом.

Теперь мы увидим, какой тип использовался для каждого из столбцов фрейма данных.

На этом дисплее мы видим, что есть как числовые столбцы, так и столбцы, содержащие текст (тип объекта). Мы также видим, что некоторые переменные имеют имена, а имена других отсутствуют.

Это все, что будет исправлено с помощью read_csv(). Остальное будет рассмотрено в главе об очистке.

Файлы, вызывающие ошибки.

Некоторые CSV-файлы вызывают ошибки read_csv() . Когда это происходит, вы не видите, что панды пытались прочитать. Существует два подхода к использованию panadas для просмотра таких файлов.

Вы можете установить количество столбцов, которые вы хотели бы использовать для данных. Это делается с помощью параметра name. Обычно вы выбираете несколько столбцов и даете им простые имена, как это сделано ниже. Функция read_csv() будет импортировать только количество столбцов, указанное в параметре имен.

Обратите внимание, что параметр nrows используется здесь для чтения только первых 25 строк файла.

Другой подход заключается в чтении каждой строки как одного столбца. Это делается установкой для параметра sep значения ^ .

2.3.5 Упражнения

Импортируйте набор данных "amis.csv".

Есть ли строки в наборе данных amis, которые нужно игнорировать? Если это так, измените свой импорт, чтобы учесть их.

Есть ли в наборе данных amis какие-либо специальные символы, которые необходимо установить? Если это так, измените свой импорт, чтобы учесть их.

Импортируйте набор данных "mifem.csv".

Есть ли метаданные вверху или внизу набора данных mifem? Вам нужно будет определить, как просматривать нижнюю часть набора данных. Если это так, измените свой импорт, чтобы учесть их.

Есть ли в наборе данных mifem какие-либо специальные символы, которые необходимо указать? Если это так, измените свой импорт, чтобы учесть их.

Excel для Microsoft 365 Outlook для Microsoft 365 Outlook 2021 Outlook 2019 Excel 2016 Outlook 2016 Excel 2013 Outlook 2013 Администратор Microsoft 365 Excel 2010 Outlook 2010 Outlook 2007 Office для бизнеса Еще. Меньше

Файл CSV (значения, разделенные запятыми) – это файл особого типа, который можно создавать или редактировать в Excel. Вместо того, чтобы хранить информацию в столбцах, файлы CSV хранят информацию, разделенную запятыми. Когда текст и числа сохраняются в файле CSV, их легко перемещать из одной программы в другую. Например, вы можете экспортировать свои контакты из Google в файл CSV, а затем импортировать их в Outlook.

Чтобы получить помощь по импорту списка записей календаря в Outlook, см. раздел Импорт и экспорт электронной почты, контактов и календаря Outlook.

Создайте CSV-файл из другой программы или поставщика услуг электронной почты

При экспорте контактов из другой программы, например из Gmail, обычно можно выбрать один из нескольких форматов. Gmail предлагает вам на выбор файл CSV Google, файл CSV Outlook или vCards. При экспорте из одного профиля Outlook для импорта в другой профиль можно выбрать экспорт в файл значений, разделенных запятыми, или в файл данных Outlook (.pst).

Загрузите и откройте образец CSV-файла для импорта контактов в Outlook

Если вы хотите создать файл CSV для своих контактов вручную, вы можете сделать это одним из двух способов.

Создайте файл Excel и сохраните его как файл CSV

Если у вас есть контактная информация в программе, которая не позволяет вам экспортировать ее, вы можете ввести ее вручную.

Создайте новый документ в Excel.

Добавьте заголовок столбца для каждой части информации, которую вы хотите записать (например, имя, фамилия, адрес электронной почты, номер телефона и день рождения), а затем введите информацию в соответствующие столбцы.

Когда вы закончите, ваш файл Excel должен выглядеть примерно так.

Выберите «Файл» > «Сохранить как».

В раскрывающемся списке выберите CSV (с разделителями-запятыми) (*.csv), присвойте файлу имя и нажмите Сохранить.

Сохраните Файл Excel как файл CSV». /><br /></p>
<p>Теперь вы можете использовать этот новый CSV-файл для импорта контактов в Outlook.</p>
<h3>Загрузить CSV-файл шаблона</h3>
<p>Если вы хотите начать с пустого CSV-файла, вы можете скачать образец файла ниже.</p>
<p>Загрузите этот образец CSV-файла на свой компьютер. При появлении запроса выберите Сохранить файл на свой компьютер как файл CSV. Если вы сохраните его как файл Excel (.xls или .xlsm), все данные будут помещены в один столбец!</p>
<p>На компьютере откройте Excel.</p>
<p>В Excel выберите «Файл» > «Открыть» > и перейдите к CSV-файлу, который вы только что загрузили на свой компьютер. Чтобы найти файл .csv, обязательно просмотрите все файлы. Нажмите на CSV-файл, чтобы открыть его.</p>
<p> <img class=

Редактировать CSV-файл контактов, которые вы хотите импортировать в Outlook

Допустим, вы хотите отредактировать CSV-файл, экспортированный из Outlook, а затем импортировать его обратно в Outlook или другой поставщик услуг электронной почты. Использование Excel упрощает редактирование CSV-файла.

Вот несколько вещей, которые следует помнить при редактировании файла .csv:

Оставьте заголовки столбцов в первой строке.

Когда вы сохраните его, Excel несколько раз предложит вам "вы уверены, что хотите сохранить его в формате CSV?" Всегда выбирайте Да. Если вы выберете Нет, файл будет сохранен в собственном формате Excel (.xlsx) и его нельзя будет импортировать в Outlook.

Проблема: все мои данные отображаются в первом столбце

Вот несколько причин, по которым это происходит, и способы, которые вы можете предпринять, чтобы решить эту проблему:

Если вы сохраните файл CSV в другом формате, например .xls, .xlsx или .xlm, все данные появятся в первом столбце. Вернитесь к исходному CSV-файлу и сохраните его в формате .csv.

Возможно, программа, создающая CSV-файл, заключает в данные дополнительные кавычки. В результате Excel обрабатывает данные как единое целое. Например, предположим, что ваши данные выглядят так:

a, b, c, d — Excel помещает каждую букву в отдельный столбец.

"a, b, c, d", e — Excel помещает a,b,c,d в один столбец, а e — в другой.

Чтобы узнать, связана ли проблема с вашим файлом, откройте его в Блокноте: щелкните правой кнопкой мыши CSV-файл в Windows, выберите «Открыть с помощью» > «Блокнот». Найдите дополнительные кавычки.

Если вы обнаружите лишние кавычки, вот как исправить файл:

Используйте Excel, чтобы открыть файл CSV. Все данные будут в столбце A, а кавычки исчезнут.

Теперь используйте мастер «Текст в столбцы», чтобы разделить данные в столбце A на отдельные столбцы: в строке меню выберите «Данные» > «Текст в столбцы».


Выберите «С разделителями» > «Далее». Затем выберите «Запятые» > «Готово».

Есть два способа импортировать данные из текстового файла в Excel: вы можете открыть его в Excel или импортировать как диапазон внешних данных. Чтобы экспортировать данные из Excel в текстовый файл, используйте команду «Сохранить как» и измените тип файла в раскрывающемся меню.

Существует два широко используемых формата текстовых файлов:

Текстовые файлы с разделителями (.txt), в котором символ TAB (код символа ASCII 009) обычно разделяет каждое поле текста.

Текстовые файлы значений, разделенных запятыми (.csv), в которых символ запятой (,) обычно разделяет каждое поле текста.

Вы можете изменить символ-разделитель, который используется как в текстовых файлах с разделителями, так и в текстовых файлах .csv. Это может быть необходимо, чтобы убедиться, что операция импорта или экспорта работает так, как вы хотите.

Примечание. Вы можете импортировать или экспортировать до 1 048 576 строк и 16 384 столбцов.

Импортируйте текстовый файл, открыв его в Excel

Текстовый файл, созданный в другой программе, можно открыть как книгу Excel с помощью команды "Открыть". Открытие текстового файла в Excel не меняет формат файла — вы можете увидеть это в строке заголовка Excel, где имя файла сохраняет расширение имени текстового файла (например, .txt или .csv).

Выберите «Файл» > «Открыть» и перейдите в папку, содержащую текстовый файл.

Выберите «Текстовые файлы» в раскрывающемся списке типов файлов в диалоговом окне «Открыть».

Найдите текстовый файл, который хотите открыть, и дважды щелкните его.

Если это текстовый файл (.txt), Excel запускает мастер импорта текста. Когда вы закончите с шагами, нажмите «Готово», чтобы завершить операцию импорта. Дополнительную информацию о разделителях и дополнительных параметрах см. в Мастере импорта текста.

Если файл имеет формат .csv, Excel автоматически открывает текстовый файл и отображает данные в новой книге.

Примечание. Когда Excel открывает CSV-файл, он использует текущие настройки формата данных по умолчанию для интерпретации того, как импортировать каждый столбец данных. Если вам нужна большая гибкость при преобразовании столбцов в другие форматы данных, вы можете использовать Мастер импорта текста. Например, формат столбца данных в CSV-файле может быть MDY, но формат данных Excel по умолчанию — YMD, или вы хотите преобразовать столбец чисел, содержащий начальные нули, в текст, чтобы сохранить начальные нули. Чтобы заставить Excel запустить мастер импорта текста, вы можете изменить расширение имени файла с .csv на .txt, прежде чем открывать его, или вы можете импортировать текстовый файл, подключившись к нему (дополнительные сведения см. в следующем разделе).

Импортировать текстовый файл, подключившись к нему (Power Query)

Вы можете импортировать данные из текстового файла в существующий лист.

На вкладке "Данные" в группе "Получить и преобразовать данные" нажмите "Из текста/CSV".

В диалоговом окне "Импорт данных" найдите и дважды щелкните текстовый файл, который нужно импортировать, и нажмите "Импорт".

В диалоговом окне предварительного просмотра у вас есть несколько вариантов:

Выберите Загрузить, если вы хотите загрузить данные непосредственно на новый лист.

Кроме того, выберите Загрузить в, если вы хотите загрузить данные в таблицу, сводную таблицу/сводную диаграмму, существующий/новый лист Excel или просто создать подключение. Вы также можете добавить свои данные в модель данных.

Выберите «Преобразовать данные», если вы хотите загрузить данные в Power Query и отредактировать их перед переносом в Excel.

Если Excel не преобразует определенный столбец данных в нужный формат, вы можете преобразовать данные после их импорта. Дополнительные сведения см. в разделах Преобразование чисел, сохраненных в виде текста, в числа и Преобразование дат, сохраненных в виде текста, в даты.

Экспортировать данные в текстовый файл, сохранив его

Вы можете преобразовать рабочий лист Excel в текстовый файл с помощью команды "Сохранить как".

Выберите «Файл» > «Сохранить как».

Нажмите "Обзор".

В диалоговом окне "Сохранить как" в поле "Тип файла" выберите формат текстового файла для рабочего листа; например, нажмите «Текст» (с разделителями табуляции) или «CSV» (с разделителями-запятыми).

Примечание. Различные форматы поддерживают разные наборы функций. Дополнительные сведения о наборах функций, поддерживаемых различными форматами текстовых файлов, см. в разделе Форматы файлов, поддерживаемые в Excel.

Перейдите к месту, где вы хотите сохранить новый текстовый файл, и нажмите "Сохранить".

Появится диалоговое окно с напоминанием о том, что в новый файл будет сохранен только текущий рабочий лист. Если вы уверены, что текущий рабочий лист — это тот, который вы хотите сохранить в виде текстового файла, нажмите «ОК». Вы можете сохранить другие рабочие листы как отдельные текстовые файлы, повторив эту процедуру для каждого рабочего листа.

Вы также можете увидеть предупреждение под лентой о том, что некоторые функции могут быть потеряны, если вы сохраните книгу в формате CSV.

Дополнительную информацию о сохранении файлов в других форматах см. в разделе Сохранение книги в другом формате файла.

Импортировать текстовый файл, подключившись к нему

Вы можете импортировать данные из текстового файла в существующий лист.

Нажмите на ячейку, в которую вы хотите поместить данные из текстового файла.

На вкладке "Данные" в группе "Получить внешние данные" нажмите "Из текста".

В диалоговом окне "Импорт данных" найдите и дважды щелкните текстовый файл, который нужно импортировать, и нажмите "Импорт".

Следуйте инструкциям мастера импорта текста.Нажмите «Справка» на любой странице мастера импорта текста, чтобы получить дополнительные сведения об использовании мастера. Когда вы закончите шаги мастера, нажмите Готово, чтобы завершить операцию импорта.

В диалоговом окне "Импорт данных" выполните следующие действия:

В разделе Куда вы хотите поместить данные? выполните одно из следующих действий:

Чтобы вернуть данные в выбранное место, щелкните Существующий лист.

Чтобы вернуть данные в левый верхний угол нового рабочего листа, нажмите "Новый рабочий лист".

При необходимости нажмите "Свойства", чтобы установить параметры обновления, форматирования и макета для импортированных данных.

Excel помещает диапазон внешних данных в указанное вами место.

Если Excel не преобразует столбец данных в нужный формат, вы можете преобразовать данные после их импорта. Дополнительные сведения см. в разделах Преобразование чисел, сохраненных в виде текста, в числа и Преобразование дат, сохраненных в виде текста, в даты.

Экспортировать данные в текстовый файл, сохранив его

Вы можете преобразовать рабочий лист Excel в текстовый файл с помощью команды "Сохранить как".

Выберите «Файл» > «Сохранить как».

Появится диалоговое окно "Сохранить как".

В поле "Тип файла" выберите формат текстового файла для листа.

Например, нажмите Текст (с разделителями табуляции) или CSV (с разделителями-запятыми).

Примечание. Различные форматы поддерживают разные наборы функций. Дополнительные сведения о наборах функций, поддерживаемых различными форматами текстовых файлов, см. в разделе Форматы файлов, поддерживаемые в Excel.

Перейдите к месту, где вы хотите сохранить новый текстовый файл, и нажмите "Сохранить".

Появится диалоговое окно с напоминанием о том, что в новый файл будет сохранен только текущий рабочий лист. Если вы уверены, что текущий рабочий лист — это тот, который вы хотите сохранить в виде текстового файла, нажмите «ОК». Вы можете сохранить другие рабочие листы как отдельные текстовые файлы, повторив эту процедуру для каждого рабочего листа.

Появится второе диалоговое окно с напоминанием о том, что ваш рабочий лист может содержать функции, не поддерживаемые форматами текстовых файлов. Если вас интересует только сохранение данных рабочего листа в новый текстовый файл, нажмите «Да». Если вы не уверены и хотели бы узнать больше о том, какие функции Excel не поддерживаются форматами текстовых файлов, нажмите «Справка», чтобы получить дополнительную информацию.

Дополнительную информацию о сохранении файлов в других форматах см. в разделе Сохранение книги в другом формате файла.

Способ изменения разделителя при импорте зависит от того, как вы импортируете текст.

Если вы используете «Получить и преобразовать данные» > «Из текста/CSV», после выбора текстового файла и нажатия кнопки «Импорт» выберите символ для использования из списка в разделе «Разделитель». Вы можете сразу же увидеть результат своего нового выбора в предварительном просмотре данных, поэтому вы можете быть уверены, что сделали правильный выбор, прежде чем продолжить.

Если вы используете мастер импорта текста для импорта текстового файла, вы можете изменить разделитель, используемый для операции импорта, на шаге 2 мастера импорта текста. На этом шаге вы также можете изменить способ обработки последовательных разделителей, таких как последовательные кавычки.

Дополнительную информацию о разделителях и дополнительных параметрах см. в Мастере импорта текста.

Если вы хотите использовать точку с запятой в качестве разделителя списка по умолчанию при сохранении файла .csv, но вам нужно ограничить изменение Excel, рассмотрите возможность изменения десятичного разделителя по умолчанию на запятую. В этом случае Excel будет использовать точку с запятой. -двоеточие для разделителя списка. Очевидно, что это также изменит способ отображения десятичных чисел, поэтому рассмотрите возможность изменения разделителя тысяч, чтобы избежать путаницы.

Очистить параметры Excel > Дополнительно > Параметры редактирования > Использовать системные разделители.

Установите для десятичного разделителя значение , (запятая).

Установите для разделителя тысяч значение . (точка).

При сохранении книги в виде CSV-файла разделителем списка по умолчанию является запятая. Вы можете изменить его на другой символ-разделитель, используя настройки региона Windows.

Внимание! Изменение настроек Windows вызовет глобальные изменения на вашем компьютере, затрагивающие все приложения. Чтобы изменить разделитель только для Excel, см. раздел Изменение разделителя списка по умолчанию для сохранения файлов в виде текста (.csv) в Excel.

В Microsoft Windows 10 щелкните правой кнопкой мыши кнопку "Пуск" и выберите "Параметры".

Нажмите «Время и язык», а затем нажмите «Регион» на левой панели.

На главной панели в разделе «Региональные настройки» нажмите «Дополнительные настройки даты, времени и региона».

В разделе "Регион" нажмите "Изменить формат даты, времени или чисел".

В диалоговом окне "Регион" на вкладке "Формат" нажмите "Дополнительные параметры".

В диалоговом окне "Настройка формата" на вкладке "Числа" введите символ, который будет использоваться в качестве нового разделителя в поле "Разделитель списка".

Дважды нажмите "ОК".

В Microsoft Windows нажмите кнопку "Пуск" и выберите "Панель управления".

В разделе Часы, язык и регион нажмите Изменить формат даты, времени или чисел.

В диалоговом окне "Регион" на вкладке "Формат" нажмите "Дополнительные параметры".

В диалоговом окне "Настройка формата" на вкладке "Числа" введите символ, который будет использоваться в качестве нового разделителя в поле "Разделитель списка".

Дважды нажмите "ОК".

Примечание. После изменения символа-разделителя списка на вашем компьютере все программы используют новый символ в качестве разделителя списка. Вы можете изменить символ обратно на символ по умолчанию, выполнив ту же процедуру.

Нужна дополнительная помощь?

Вы всегда можете обратиться к эксперту в техническом сообществе Excel или получить поддержку в сообществе ответов.


За последние 20 лет я столкнулся с тысячей различных проблем с импортом данных и плоскими файлами, но я сократил этот список до наиболее распространенных проблем среди всех баз данных, с которыми я работал. Я даю вам мои любимые магические исправления здесь. (Ну, ладно, на самом деле они не «волшебные», но некоторые из них мне потребовалось много времени, чтобы понять.)

Проблема 1. Мне нужен инструмент, чтобы упростить эту задачу.

CSV Kit — лучшая из найденных мной утилит для работы с CSV-файлами.

CSV clean проверит и очистит файл от распространенных синтаксических ошибок. Это не волшебство, но определенно может помочь.

CSV grep невероятно полезен. Он похож на grep UNIX, но оптимизирован для файлов CSV. Например, он может выполнять grep только для определенных столбцов.

CSV SQL создаст инструкцию CREATE TABLE SQL на основе файла. Как насчет того, чтобы запустить ваш DDL? Это помогает, потому что вы обычно не получаете соответствующий DDL с CSV-файлом.

Проблема 2: возникают ошибки преобразования набора символов.

Вы можете использовать программу uconv для устранения ошибок при преобразовании набора символов.

iconv поставляется с большинством дистрибутивов ОС UNIX, но не uconv. iconv ограничен памятью. uconv гораздо лучше подходит для работы с большими файлами. Используйте app-get или другой менеджер пакетов UNIX, чтобы получить uconv, если у вас его нет. Затем введите команду, например:

Проблема 3. Что делают эти посторонние управляющие символы?

Иногда файл выглядит нормально, но не загружается. Он может содержать непечатаемые символы ASCII, которых обычно нет в CSV-файлах. Их может быть трудно отследить. У вас может возникнуть эта проблема, если вы получаете необычные сообщения об ошибках при попытке загрузить файл, и вы не можете отследить другую причину.

Вы можете использовать эту команду Perl, чтобы удалить эти символы, пропустив через нее файл:

Проблема 4: я не знаю, как обращаться со значениями NULL.

Сделайте осознанный выбор того, как вы хотите обрабатывать значения NULL. Обычно вы можете использовать \N для представления значений NULL в данных. А если у вас есть пустые строки, вы можете использовать два последовательных разделителя (например, ,,), чтобы указать, что поле не содержит данных.

Обратите внимание, что у Postgres есть некоторые проблемы с импортом файлов этих типов, если они содержат значения NULL. Postgres не позволит вам указать значение NULL в виде пустой строки (,,). Обычно это хороший способ представления NULL, но он не будет правильно импортирован как NULL в Postgres. Вы должны использовать явный указатель NULL, такой как \N, поэтому, если вам действительно важны значения NULL, вы должны взять за правило использовать \N.

Что бы вы ни решили, убедитесь, что это осознанное решение. В противном случае вы можете быть удивлены, когда при импорте данных вы получите кучу пустых строк вместо NULL.

Проблема 5: я вижу несовместимые символы возврата строки.

Этого трудно отследить. Если ничего не помогло, попробуйте открыть файл с помощью vi. Видите ли вы какие-нибудь странные символы, такие как синие символы ^M в этом примере?


Если это так, файл был сохранен с ПК или Mac, а не с Linux/UNIX. У вас есть четыре варианта исправить это:

<р>1. Вы можете открыть файл в текстовой программе чтения и снова сохранить его с разрывами строк UNIX.


<р>2. Вы можете использовать такую ​​утилиту, как fromdos или dos2unix, для преобразования файла.

<р>3. Вы можете использовать команду vi, подобную этой, чтобы заменить разрывы строк правильными: :%s/^M/^M/g

Подсказка. Хитрость заключается в том, как вы вводите команду. Для первого ^M вам нужно удерживать клавишу Control при вводе vm. Для второго нажмите Control + v, а затем ENTER.

<р>4. Иногда ваш файл будет слишком большим, чтобы открыть его в vi. В этом случае вы можете использовать sed или tr, как описано здесь.

Это шесть основных проблем, с которыми я сталкивался при работе с данными из Oracle, SQLServer, Teradata или с файлом Excel с чьего-либо рабочего стола. Иногда вы даже не знаете источник CSV-файла, который вам нужно загрузить. Но эти приемы помогут вам привести данные в форму, которую вы сможете использовать независимо от источника.

Читайте также: