Загрузка Python в Excel

Обновлено: 21.11.2024

pandas — это мощный пакет для анализа данных. Это упрощает исследование данных и манипулирование ими. Он имеет несколько функций для чтения данных из различных источников.
Если вы используете Anaconda, панды должны быть уже установлены. Вам необходимо загрузить пакет с помощью следующей команды -

Если пакет pandas не установлен, вы можете установить его, выполнив следующий код в консоли Ipython. Если вы используете Spyder, вы можете отправить следующий код в консоли Ipython в Spyder.

1. Импорт файлов CSV

Важно отметить, что одинарная обратная косая черта не работает при указании пути к файлу. Вам нужно либо изменить его на косую черту, либо добавить еще одну обратную косую черту, как показано ниже

Необходимо включить параметр header = None, чтобы указать Python, что в данных нет имени столбца (заголовка).

mydata2 = pd.read_csv("C:\\Users\\Deepanshu\\Documents\\file1.csv", header = None, names = ['ID', 'first_name', 'salary'] )

2. Импорт файла из URL

Для извлечения данных из URL-адреса не нужно выполнять дополнительные действия. Просто поместите URL-адрес в функцию read_csv() (применимо только для файлов CSV, хранящихся в URL-адресе).

3. Читать текстовый файл

Мы можем использовать функцию read_table() для извлечения данных из текстового файла. Мы также можем использовать read_csv() с sep= "\t" для чтения данных из файла, разделенного табуляцией.

mydata = pd.read_table("C:\\Users\\Deepanshu\\Desktop\\example2.txt")
mydata = pd.read_csv("C:\\Users\\Deepanshu \\Рабочий стол\\example2.txt", sep ="\t")

4. Чтение файла Excel

mydata = pd.read_excel("https://www.eia.gov/dnav/pet/hist_xls/RBRTEd.xls",sheetname="Data 1", skiprows=2)
< /p>

Если вы не укажете имя листа в параметре sheetname=, по умолчанию будет использоваться первый лист.

5. Прочитать файл с разделителями

mydata2 = pd.read_table("http://www.ssc.wisc.edu/~bhansen/econometrics/invest.dat", sep="\s+", header = None)

mydata3 = pd.read_table("http://www.ssc.wisc.edu/~bhansen/econometrics/invest.dat", sep="\s+", names=['a', ' б', 'в', 'г'])

6. Чтение файла SAS


Если у вас есть большой файл SAS, вы можете попробовать пакет с именем pyreadstat, который работает быстрее, чем pandas. Он эквивалентен пакету Haven в R, который обеспечивает простой и быстрый способ чтения данных из SAS, SPSS и Stata. Чтобы установить этот пакет, вы можете использовать команду pip install pyreadstat

7. Чтение файла статистики

Пакет pyreadstat позволяет извлекать метки значений из файлов статистики. Чтобы получить ярлыки, установите для apply_value_formats значение TRUE

8. Импорт файла данных R

Используя пакет pyreadr, вы можете загружать файлы форматов .RData и .Rds, которые обычно содержат фрейм данных R. Вы можете установить этот пакет с помощью приведенной ниже команды -

9. Чтение таблицы SQL

Вы можете считывать данные из таблиц, хранящихся в SQL Server, путем создания соединения. Вам необходимо иметь сервер, идентификатор пользователя (UID), сведения о базе данных для установления соединения.

  • UdaExec предоставляет функции поддержки DevOps, такие как настройка и ведение журнала.
  • Вы можете назначить любое имя и версию в appName и version
  • logConsole=False указывает Python не входить в консоль.
  • system="tdprod" относится к имени системы, к которой мы подключаемся, используя ODBC в качестве метода подключения
  • USEREGIONALSETTINGS="N" используется для обеспечения возможности загрузки значений с плавающей запятой и установки десятичного разделителя в виде ‘.’

импорт sqlite3
из pandas.io import sql
conn = sqlite3.connect('C:/Users/Deepanshu/Downloads/flight.db')
query = " SELECT * FROM Flight"
results = pd.read_sql(query, con=conn)
print results.head()

10. Импорт данных из файла SPSS

11. Читать образцы строк и столбцов

nrows = 5 означает, что вы хотите импортировать только первые 5 строк, а usecols= указывает на указанные столбцы, которые вы хотите импортировать.

12. Пропускать строки при импорте

Предположим, вы хотите пропустить первые 5 строк и прочитать данные из 6-й строки (6-я строка будет строкой заголовка)

13. Указать значения как отсутствующие

Установив параметр na_values=, вы можете указать значения как отсутствующие. В этом случае мы говорим python рассматривать точку (.) как отсутствующие случаи.

Об авторе:

Deepanshu основала ListenData с простой целью: сделать аналитику простой для понимания и использования. Он имеет более чем 10-летний опыт работы в области науки о данных. За время своего пребывания в должности он работал с глобальными клиентами в различных областях, таких как банковское дело, страхование, частный капитал, телекоммуникации и управление персоналом.

Хотя мне нравится иметь друзей, которые согласны, я учусь только у тех, кто не
Отправьте электронное письмо LinkedIn о связи с нами

Большое спасибо. это такой краткий и простой список для справки. Добавить в закладки.

Мы уже научились читать данные из файлов Excel. Еще одна важная вещь, которую нужно знать, это как сохранить данные обратно в файл Excel с помощью Python. Почему снова Эксель? Ну, поскольку мы офисные работники, и большинство наших менеджеров и коллег знают только Excel, мы должны говорить на их языке. Но мы можем использовать другой язык, чтобы упростить нашу работу 🙂

Сохранить данные в файл Excel

Сохранение данных в файл Excel также легко выполняется с помощью pandas. Самый простой способ: df.to_excel(), который сохраняет кадр данных в файл Excel. Подобно df.read_excel(), этот метод to_excel() также имеет много необязательных аргументов. Здесь мы рассмотрим лишь некоторые из аргументов, если вы хотите узнать полный список аргументов, я предлагаю вам прочитать официальную документацию pandas. Давайте рассмотрим пример. Сначала нам нужно подготовить фрейм данных для сохранения. Мы будем использовать тот же файл, что и для примера read_excel(). Вы можете найти файл Excel здесь. Python сохраняет файл Excel

После выполнения приведенного выше кода у нас будет новый файл с именем «saved_file.xlsx», созданный Python. Давайте откроем файл и посмотрим, есть ли в нем те же данные. Файл Excel, сохраненный Python

Мы сразу замечаем что-то странное… столбец A содержит что-то похожее на список, начинающийся с 0. Если вы согласны оставить его там, хорошо. Но меня эта колонка всегда беспокоит, когда я просматриваю свои файлы, я должен избавиться от нее…

Удаление начального индекса при сохранении файла Excel с помощью pandas

Метод .to_excel() предоставляет необязательный аргумент index , который предназначен для управления списком, который мы только что видели. Мы можем удалить этот список из выходного файла Excel следующим образом:

Другие полезные необязательные аргументы

  • имя_листа: вы можете назвать лист, если вам не нравится «Лист1» по умолчанию.
  • na_rep : значение для замены значений «Null» в фрейме данных, по умолчанию это пустая строка «». Однако, если ваш фрейм данных содержит числа, вы можете вместо этого установить значение np_rep = 0.
  • столбцы: выберите столбцы, которые вы хотите вывести. Обычно я этим не пользуюсь, так как удаляю столбцы из фрейма данных перед сохранением в файл.

Сохранение в CSV-файл

Мы можем сохранить тот же фрейм данных в CSV-файл, используя df.to_csv() . Аргументы аналогичны to_excel(), поэтому я не буду повторять их здесь. Просто хочу указать на небольшую разницу, но это действительно разница между файлом Excel и файлом CSV.

Файл CSV представляет собой текстовый файл, он содержит только 1 лист, поэтому мы не можем переименовать лист.

На сегодня все. Обратите внимание, что в этом коротком посте рассказывается о том, как сохранить один фрейм данных в файл Excel. Если вы хотите сохранить несколько фреймов данных в один и тот же файл Excel, прочтите этот пост здесь.

Напишите Excel с помощью Python Pandas. Вы можете записать любые данные (списки, строки, числа и т. д.) в Excel, сначала преобразовав их в фрейм данных Pandas, а затем записав фрейм данных в Excel.

Чтобы экспортировать кадр данных Pandas в виде файла Excel (расширение: .xlsx, .xls), используйте метод to_excel().

установитьxlwt, openpyxl

to_excel() использует внутреннюю библиотеку xlwt и openpyxl.

  • xlwt используется для записи файлов .xls (форматы до Excel2003)
  • openpyxl используется для записи .xlsx (Excel2007 или более поздних форматов).

Оба могут быть установлены с помощью pip. (pip3 в зависимости от среды)

Написать Excel

Запись DataFrame в файл Excel

Импорт openpyxl требуется, если вы хотите добавить его в существующий файл Excel, описанный в конце.
Фрейм данных определяется ниже:

Вы можете указать путь в качестве первого аргумента метода to_excel() .

Примечание. данные в исходном файле удаляются при перезаписи.

Аргумент new_sheet_name — это имя листа. Если его не указать, он будет называться Sheet1 .

Если вам не нужно писать index (имя строки), columns (имя столбца), аргумент index, columns имеет значение False.

Запись нескольких фреймов данных в файлы Excel

Объект ExcelWriter позволяет использовать несколько панд. Объекты DataFrame можно экспортировать на отдельные листы.

Например, панды. Подготовьте другой объект DataFrame.

Затем используйте функцию ExcelWriter() следующим образом:

Вам не нужно вызывать Writer.save(), Writer.close() внутри блоков.

Добавить в существующий файл Excel

Вы можете добавить кадр данных в существующий файл Excel. Приведенный ниже код открывает существующий файл, а затем добавляет два листа с данными фреймов данных.

Примечание. Поскольку он обрабатывается с использованием openpyxl, включаются только файлы .xlsx.

Для расширенного анализа данных Python лучше, чем Excel. Вот как можно импортировать данные Excel в скрипт Python с помощью Pandas!

Microsoft Excel – наиболее широко используемая программа для работы с электронными таблицами в мире, и на то есть веская причина: удобный интерфейс и мощные встроенные инструменты упрощают работу с данными.

Но если вы хотите выполнять более сложную обработку данных, вам нужно выйти за рамки возможностей Excel и начать использовать язык сценариев/программирования, такой как Python. Вместо того, чтобы вручную копировать данные в базы данных, вот краткое руководство о том, как загрузить данные Excel в Python с помощью Pandas.

Примечание. Если вы никогда раньше не использовали Python, это руководство может показаться вам немного сложным. Мы рекомендуем начать с этих веб-сайтов для изучения Python и этих основных примеров Python для начала.

Что такое панды?

Библиотека анализа данных Python ("Pandas") – это библиотека с открытым исходным кодом для языка программирования Python, которая используется для анализа и обработки данных.

Pandas загружает данные в объекты Python, известные как кадры данных, которые хранят данные в строках и столбцах, как в традиционной базе данных. После создания кадра данных им можно манипулировать с помощью Python, открывая целый мир возможностей.

Установка панд

Примечание. Для установки Pandas у вас должен быть Python 2.7 или более поздней версии.

Чтобы начать работу с Pandas на вашем компьютере, вам необходимо импортировать библиотеку Pandas. Если вы ищете мощное решение, вы можете загрузить дистрибутив Anaconda Python, в который встроен Pandas. Если вам не нужна Anaconda, Pandas легко установить в вашем терминале.

Pandas — это пакет PyPI, что означает, что вы можете установить его с помощью PIP для Python через командную строку. Современные системы Mac поставляются с PIP. Для других Windows, Linux и более старых систем легко научиться устанавливать PIP для Python.

После того как вы открыли свой терминал, последнюю версию Pandas можно установить с помощью команды:

Pandas также требует библиотеки NumPy, давайте также установим ее в командной строке:

Теперь у вас установлен Pandas, и вы готовы создать свой первый DataFrame!

Подготовка данных Excel

Для этого примера возьмем образец набора данных: книгу Excel под названием Cars.xlsx.

Этот набор данных отображает марку, модель, цвет и год выпуска автомобилей, введенных в таблицу. Таблица отображается в виде диапазона Excel. Pandas достаточно умен, чтобы правильно считывать данные.

Эта книга сохранена в каталоге Desktop, здесь используется путь к файлу:

Чтобы использовать Pandas, вам нужно знать путь к файлу книги. Начнем с открытия Visual Studio Code для написания скрипта. Если у вас нет текстового редактора, мы рекомендуем Visual Studio Code или Atom Editor.

Написание скрипта Python

Теперь, когда у вас есть любимый текстовый редактор, начинается настоящее веселье. Мы собираемся объединить Python и нашу книгу Cars для создания Pandas DataFrame.

Импорт библиотек Python

Откройте текстовый редактор и создайте новый файл Python. Назовем его Script.py.

Чтобы работать с Pandas в вашем скрипте, вам нужно будет импортировать его в свой код. Это делается с помощью одной строки кода:

Здесь мы загружаем библиотеку Pandas и присоединяем ее к переменной "pd". Вы можете использовать любое имя, которое хотите, мы используем «pd» как сокращение от Pandas.

Для работы с Excel с помощью Pandas вам понадобится дополнительный объект с именем ExcelFile. ExcelFile встроен в экосистему Pandas, поэтому вы можете импортировать данные напрямую из Pandas:

Работа с путем к файлу

Чтобы предоставить Pandas доступ к вашей книге, вам нужно направить свой скрипт в папку с файлом. Проще всего это сделать, указав в скрипте полный путь к книге.

Вспомните наш путь в этом примере: /Users/grant/Desktop/Cars.xlsx

Вам понадобится этот путь к файлу, указанный в вашем скрипте, для извлечения данных. Вместо того, чтобы ссылаться на путь внутри функции Read_Excel, сохраните код в чистоте, сохранив путь в переменной:

Теперь вы готовы извлечь данные с помощью функции Pandas!

Извлечение данных Excel с помощью Pandas.Read_Excel()

С импортом Pandas и установленной переменной пути вы теперь можете использовать функции в объекте Pandas для выполнения нашей задачи.

Функция, которую вам нужно будет использовать, называется Read_Excel.Функция Read_Excel принимает путь к файлу книги Excel и возвращает объект DataFrame с содержимым книги. Pandas кодирует эту функцию как:

Аргумент "путь" будет путем к нашей книге Cars.xlsx, и мы уже установили строку пути в переменную Cars_Path.

Вы готовы создать объект DataFrame! Давайте соберем все вместе и установим объект DataFrame в переменную с именем «DF»:

Наконец, вы хотите просмотреть DataFrame, так что давайте напечатаем результат. Добавьте оператор печати в конец скрипта, используя переменную DataFrame в качестве аргумента:

Пора запустить скрипт в вашем терминале!

Запуск скрипта Python

Откройте терминал или командную строку и перейдите в каталог, в котором находится ваш скрипт. В этом случае у меня есть «Script.py», расположенный на рабочем столе. Чтобы выполнить скрипт, используйте команду python, за которой следует файл скрипта:

Python извлечет данные из "Cars.xlsx" в ваш новый DataFrame и распечатает DataFrame на терминале!

Пристальный взгляд на объект DataFrame

На первый взгляд DataFrame очень похож на обычную таблицу Excel. В результате кадры данных Pandas легко интерпретировать.

Ваши заголовки помечены вверху набора данных, и Python заполнил строки всей вашей информацией, считанной из рабочей книги "Cars.xlsx".

Обратите внимание на крайний левый столбец, индекс которого начинается с 0 и нумерует столбцы. Pandas будет применять этот индекс к вашему DataFrame по умолчанию, что может быть полезно в некоторых случаях. Если вы не хотите, чтобы этот индекс генерировался, вы можете добавить в свой код дополнительный аргумент:

Установка для аргумента "index" значения False удалит столбец индекса, оставив вам только данные Excel.

Дополнительные возможности Python

Теперь, когда у вас есть возможность считывать данные с листов Excel, вы можете применять программирование Python любым удобным для вас способом. Работа с Pandas — это простой способ для опытных программистов Python работать с данными, хранящимися в книгах Excel.

Простота, с которой Python можно использовать для анализа данных и управления ими, является одной из многих причин, по которым Python является языком программирования будущего.

Читайте также: