Как парсить данные с сайта в excel google

Обновлено: 07.07.2024

В Google Таблицах есть несколько замечательных функций, которые могут выполнять очень тяжелую работу.

В рамках моей работы в Интернете мне часто приходится заходить на некоторые веб-сайты и извлекать из них определенные точки данных или разделы.

Например, иногда мне приходится копировать и вставлять таблицу с веб-страницы в Google Sheets или извлекать название статьи или название продукта с веб-страницы в Google Sheets.

Поскольку я все равно провожу много времени в Google Таблицах, я подумал о том, чтобы выяснить, смогу ли я собирать данные с веб-сайтов и извлекать данные в ячейки в Google Таблицах.

После нескольких часов сканирования контента на различных форумах и YouTube я смог создать базовый блокировщик в Google Таблицах (для своих нужд).

В этой статье я хочу показать вам, как можно использовать простые формулы Google Sheets для парсинга веб-страниц в Google Sheets

Оглавление

Обратите внимание, что Google Таблицы не являются инструментом для сбора данных. Поэтому, хотя мы можем выполнять базовую очистку веб-сайтов с его помощью, если вам нужно что-то более надежное, я рекомендую вам использовать лучшие варианты, такие как Python или специальные инструменты очистки.

Прежде чем я покажу вам несколько примеров извлечения данных из Google Таблиц, давайте сначала рассмотрим некоторые формулы, которые делают это возможным

Важные формулы для парсинга веб-страниц Google Sheets

Ниже приведены формулы очистки веб-страниц, которые мы рассмотрим в этом руководстве:

ИМПОРТ XML-формулы

С помощью формулы IMPORTXML вы можете получать данные из многих типов структурированных данных, таких как XML, HTML, CSV/TSV и RSS/ATOM XML-каналы.

Не волнуйтесь, если вы чувствуете себя здесь немного потерянным.

Вы получите гораздо лучшее представление о том, как это работает, когда мы перейдем к некоторым примерам, и я покажу вам, как использовать IMPORTXML для удаления заголовков веб-страниц или определенных разделов, таких как дата или имя автора.

Формула IMPORTXML имеет следующий синтаксис:

  • URL — это URL-адрес веб-страницы, с которой вы хотите извлечь данные.
  • «xpath_query» – это идентификатор, который сообщает формуле, что нужно очищать. Например, если вы хотите извлечь заголовок статьи, вы будете использовать запрос, который сообщает формуле, какая часть кода веб-страницы относится к заголовку.

ИМПОРТHTML-формулы

С помощью IMPORTHTML вы можете получить таблицу или список с веб-страницы.

В большинстве случаев я использую это, когда на веб-странице есть таблица, которую я хочу получить. Если таблиц несколько, вы можете указать, какую из них нужно очистить.

Формула IMPORTHTML имеет следующий синтаксис:

  • URL — это URL-адрес веб-страницы, с которой вы хотите извлечь данные.
  • "запрос" может быть "списком" или "таблицей" в зависимости от того, что вы хотите извлечь
  • index – это число, которое сообщает Google Sheets, какую таблицу нужно извлечь.

Формула IMPORTFEED

Несмотря на то, что IMPORTXML и IMPORTHTML предназначены для использования с обычными URL-адресами, функция IMPROTFEED специально разработана для работы с каналами RSS или Atom.

Примером использования этого может быть, когда вы хотите получить 10 самых популярных заголовков статей, используя RSS-канал вашего любимого блога или новостного веб-сайта.

Формула IMPORTFEED имеет следующий синтаксис:

  • url — это URL-адрес ATOM или RSS-канала блога/веб-сайта.
  • [запрос] — это необязательный аргумент, в котором вы указываете формуле точку данных, которую хотите получить (например, заголовок публикации или дату публикации). Если вы ничего не укажете, будет получено все
  • [headers] — это необязательный аргумент, для которого вы можете установить значение TRUE, если хотите, чтобы в дополнительной строке отображался заголовок.
  • [num_items] — это также необязательный аргумент, в котором вы указываете, сколько элементов вы хотите получить. Например, если вы загружаете последние сообщения с веб-сайта с помощью RSS-канала, вы можете указать здесь 5, и будут отображаться пять последних сообщений.

Теперь, когда мы рассмотрели все формулы Google Таблиц, которые вам нужно знать для парсинга веб-сайтов, давайте погрузимся и посмотрим на некоторые примеры веб-парсинга.

Похожие формулы

Помимо парсинга веб-сайтов, вы можете импортировать данные из других источников.

Вы можете использовать IMPORTDATA для переноса данных из других источников, включая отдельные электронные таблицы

Вы также можете использовать IMPORTRANGE для переноса раздела из другой электронной таблицы.

Мы не будем углубляться в них, но вы можете перейти по ссылкам, чтобы узнать о них больше.

Как извлечь данные с веб-сайта в Google Таблицы

Очистка веб-страниц с помощью Google Таблиц может выполняться различными способами в зависимости от того, какую информацию вы хотите получить. Google Таблицы могут извлекать данные с веб-сайта, используя любую из приведенных выше формул. Ниже приведены несколько примеров того, как вы можете использовать функции веб-парсера Google Sheets.

Извлечение таблиц с веб-сайтов в Google Таблицы

Допустим, вы хотите извлечь из Википедии таблицу самых кассовых фильмов всех времен.

Список фильмов из Википедии

Ниже приведена формула, которая позволит вам использовать парсинг Google Таблиц, чтобы добавить эту таблицу в вашу электронную таблицу.

таблица, полученная в Google Таблицах с использованием формулы IMPORTHTML

Приведенная выше формула переходит к указанному URL-адресу и из HTML-кода веб-страницы идентифицирует первую таблицу и извлекает всю таблицу в Google Таблицах.

Впечатляет, если честно.

Обратите внимание, что лист Google возвращает массив значений, и для работы этой формулы вам необходимо, чтобы весь диапазон ячеек был свободен и доступен для формулы IMPORTHTML, чтобы заполнить эту область.

Если у вас уже есть что-то в одной из ячеек (ячейка, которая в противном случае использовалась бы результатом формулы ImportHTML), вы увидите ошибку.

Вот и отлично.

Но что, если мне не нужна вся таблица.

Что, если мне нужны только названия самых кассовых фильмов.

Вы тоже можете это сделать.

Поскольку формула возвращает массив значений, вы можете использовать его в качестве входных данных в функции ИНДЕКС и получить только тот столбец, который вам нужен.

Ниже приведена формула, которая даст вам только названия самых кассовых фильмов из таблицы.

Удалены только названия фильмов с использованием формулы Google Таблиц

Приведенная выше формула ИНДЕКС извлекает только третий столбец, содержащий названия фильмов.

Точно так же, как я использовал формулу для очистки таблицы, вы также можете использовать ее для получения списка. Просто измените второй аргумент с «таблица» на «список».

Примечание. Эта формула будет обновляться при повторном открытии документа Google Sheets. Таким образом, в случае каких-либо изменений в списке, он будет автоматически обновляться. Если вам просто нужна таблица и вы не хотите, чтобы она обновлялась, скопируйте данные и вставьте их как значения.

Удаление заголовка статьи

Вот случайная статья, которую я выбрал из Forbes.

Статья Forbes

Теперь я хочу использовать формулы, чтобы очистить заголовок этой статьи.

Это может быть полезно, если у вас есть список из 50 или 100 URL-адресов и вы хотите быстро получить заголовки.

Я ввел этот URL-адрес в ячейку A2 (хотя вы также можете использовать URL-адрес непосредственно в формуле, вместо этого я буду использовать ссылку на ячейку с URL-адресом).

Теперь, прежде чем использовать формулу, мне нужны две вещи, чтобы она работала: точный URL-адрес (или ссылка на ячейку, которая содержит URL-адрес) и идентификатор в HTML-коде этой страницы, который говорит мне, что это заголовок. .

Давайте посмотрим, как найти этот HTML-идентификатор.

Откройте веб-страницу и, когда она полностью загрузится, наведите курсор на заголовок, щелкните правой кнопкой мыши и выберите "Проверить".

Щелкните правой кнопкой мыши и выберите

Откроется окно проверки элемента, и вы увидите, что следующий HTML-элемент выделен

Выберите класс из окна проверки элемента

Из этого нам нужен идентификатор, который скажет нам, что это заголовок, и этот идентификатор class="fs-headline speakable-headline font-base font-size"

Теперь мы можем использовать это в нашей формуле и получить заголовок URL.

Ниже приведена формула, которая будет очищать заголовок заданного URL:

Название статьи, вырезанной из Forbes

Аналогичным образом, если вы хотите получить имя автора этой статьи, вы можете использовать те же шаги, что и выше, чтобы узнать элемент HTML, который является уникальным идентификатором имени автора, и использовать следующую формулу:

Имя автора взято из Forbes
< /p>

Примечание. Хотелось бы, чтобы это был стандартизированный процесс, при котором у вас всегда был бы один и тот же идентификатор «название» или идентификатор «имя автора» для всех веб-сайтов в Интернете. К сожалению, каждый веб-сайт сделан по-своему, и поэтому HTML-кодирование у всех разное. Поэтому вам нужно потратить некоторое время, чтобы получить этот идентификатор, а затем использовать его в формуле IMPORTXML. Это снова одна из причин, почему я говорю, что, хотя Google Таблицы могут парсить веб-сайты, они не предназначены для этого.

Очистить последние статьи из ленты

Если у вас есть URL-адрес канала веб-сайта, вы также можете использовать формулу IMPORTFEED для получения всех недавно опубликованных статей из канала.

Например, ниже приведен пример фида Tech Crunch

Теперь я могу использовать эту ленту для получения последних статей из TechCrunch.

Ниже приведена формула, которая будет извлекать все данные из фида:

Фид, извлеченный с помощью функции IMPORTFEED

Поскольку у TechCrunch есть 20 самых популярных статей в ленте, вы получите такую ​​информацию, как название статьи, автора, URL-адрес, дату, резюме и т. д.

Если вам нужны только заголовки последних статей, вы можете использовать следующую формулу:

Названия статей, извлеченных из фида

и если вам нужны URL-адреса, вы можете использовать следующую формулу:

URL статей, извлеченных из фида

Вы можете использовать это, чтобы создать свой собственный список лучших блогов/сайтов, которые вы хотите отслеживать. Вы можете иметь каналы этих сайтов в отдельных столбцах и использовать формулу, чтобы всегда иметь список последних статей с веб-сайта.

Это также может быть отличным способом отслеживать, что публикуют ваши конкуренты.

Извлечение данных из Amazon

Теперь я хочу показать вам кое-что удивительное.

С помощью формул Google Sheets вы можете собирать данные с Amazon, такие как название продукта, рейтинг, общее количество отзывов и т. д.

Страница Amazon, с которой необходимо извлечь данные

Это URL-адрес эргономичной клавиатуры.

Теперь давайте посмотрим, какие формулы можно использовать для извлечения данных из Amazon с помощью Google Таблиц.

 Собрать название продукта с Amazon

Поскольку на Amazon используется идентификатор ‘ productTitle’, вы можете использовать URL любой страницы продукта, и это приведет к очистке названия продукта.

Ниже приведена формула, которая даст вам цену продукта:

Очистить цену из Amazon

А приведенная ниже формула даст вам количество оценок клиентов:

Оценки очистки из Amazon

Концепция, используемая в этих формулах, та же, что я уже рассмотрел ранее.

Вы можете попытаться собрать больше данных с Amazon или любого другого веб-сайта. Поскольку универсального решения не существует, вам, возможно, придется немного поработать методом проб и ошибок, прежде чем вы получите работающую формулу.

Эти формулы работают на момент написания этой статьи. В будущем, если Amazon изменит макет своих страниц продуктов, вам, возможно, придется изменить формулы.

Часто задаваемые вопросы по парсингу веб-страниц

Можете ли вы выполнять парсинг в Google Таблицах? / Как очистить данные веб-сайта в Google Sheets?

Да, можно! для этого вы можете использовать одну из многих функций ИМПОРТ. Обычно вы используете функцию IMPORTHTML, но она может отличаться в зависимости от того, что вы хотите очистить. В приведенном выше руководстве рассказывается о нескольких способах использования парсера Google Sheets.

Является ли веб-скрапинг преступлением?

Скрапинг веб-страниц с помощью Google Sheets или любого другого программного обеспечения совершенно законен.Однако вы никогда не должны копировать конфиденциальные данные или личную информацию для продажи.

Ограничения использования Google Таблиц в качестве парсера

Как я упоминал ранее, Google Таблицы не предназначены для парсинга веб-сайтов. Конечно, у него есть отличные формулы, которые можно использовать для парсинга, но есть много ограничений, о которых вам нужно знать.

Например, если вы пытаетесь очистить пару таблиц или пару элементов HTML, все должно быть в порядке.

Но если вы попросите Google Sheets выполнить парсинг сотен точек данных одновременно, вам, возможно, придется долго ждать (минуты или даже часы) или, что еще хуже, вы увидите сообщение об ошибке, потому что Google Sheets не может сделать очистку.

По моему опыту, как только я пытаюсь собрать более 50 точек данных за один раз, у меня возникают проблемы. Иногда я ввожу формулу, и ничего не происходит — отображается пробел.

Я точно не знаю, что происходит в серверной части, но мне кажется, что для этих формул существует дневной лимит. Google Sheets позволяет вам собирать 50 или 100 точек данных, но как только вы превысите этот лимит, это остановит вас на какое-то время (может быть, на несколько часов или день)

Вот как вы можете использовать Google Таблицы в качестве простого парсера и получать данные с веб-сайтов.

Инструмент веб-скрейпинга может автоматизировать процесс повторяющегося копирования и вставки. Фактически, листы Google можно рассматривать как базовый веб-скребок. Вы можете использовать специальную формулу для извлечения данных с веб-страницы, импортировать данные непосредственно в таблицы Google и делиться ими с друзьями.

В этой статье я сначала покажу вам, как создать простой парсер с помощью Google Таблиц. Затем я сравню его с автоматическим веб-скребком Octoparse. После ее прочтения у вас будет четкое представление о том, какой метод лучше подойдет для ваших конкретных потребностей в веб-скрейпинге.

Содержание

Шаг 1. Откройте новую таблицу Google.


Шаг 2. Откройте целевой веб-сайт в Chrome. В данном случае мы выбираем продажи игр. Щелкните правой кнопкой мыши веб-страницу, и появится раскрывающееся меню. Затем выберите «проверить». Нажмите комбинацию из трех клавиш: «Ctrl» + «Shift» + «C», чтобы активировать «Селектор». Это позволит панели проверки получить информацию о выбранном элементе на веб-странице


Шаг 3. Скопируйте и вставьте URL-адрес веб-сайта на лист.


Шаг 1: Скопируйте Xpath элемента. Выберите элемент цены и щелкните правой кнопкой мыши, чтобы открыть раскрывающееся меню. Затем выберите «Копировать», выберите «Копировать XPath».

Шаг 2. Введите формулу в таблицу.

=IMPORTXML("URL", "выражение XPATH")


Обратите внимание, что «выражение Xpath» — это то, что мы только что скопировали из Chrome. Замените двойную кавычку " " в выражении Xpath одинарной кавычкой''.

=IMPORTHTML("URL", "ЗАПРОС", Индекс)

С помощью этой формулы вы извлекаете всю таблицу.

извлеченная таблица

Теперь давайте посмотрим, как ту же задачу можно выполнить с помощью веб-скребка Octoparse.

Шаг 1. Откройте Octoparse, создайте новую задачу, выбрав «+Task» в разделе «Расширенный режим»


Шаг 3: обратите внимание, что веб-сайт распродажи игр отображается в разделе интерактивного просмотра Octoparse. Нам нужно создать циклический список, чтобы Octoparse просматривал списки.

<р>1. Щелкните одну строку таблицы (это может быть любой файл в таблице), затем Octoparse обнаружит похожие элементы и выделит их красным цветом.

<р>2. Нам нужно извлечь по строкам, поэтому выберите «TR» (Table Row) на панели управления.

<р>3. После выбора одной строки выберите команду «Выбрать все вложенные элементы» на панели «Советы действий».
Выберите команду «Выбрать все», чтобы выбрать все строки из таблицы

Шаг 4. Выберите «Извлечь данные в цикле», чтобы извлечь данные.

Вы можете экспортировать данные в Excel, CSV, TXT или другие форматы. В то время как электронная таблица требует от вас физического копирования и вставки, Octoparse автоматизирует этот процесс. Кроме того, Octoparse лучше контролирует динамические веб-сайты с помощью AJAX или reCaptcha.

Если вы ищете службу данных для своего проекта, сервис данных Octoparse — хороший выбор. Мы тесно сотрудничаем с вами, чтобы понять ваши требования к данным и убедиться, что мы предоставляем то, что вы хотите. Поговорите с экспертом по данным Octoparse прямо сейчас, чтобы обсудить, как службы парсинга веб-страниц могут помочь вам максимизировать усилия.

Artículo en español: Simple Scraping con Google Sheets 2020 актуализирован
Вы можете изучить артикулы веб-скрейпинга на Официальном веб-сайте

Хотите создать парсер в Google Таблицах? Оказывается, базовый веб-скрапинг, автоматический сбор данных с веб-сайтов, возможен прямо в вашей таблице Google без необходимости написания кода.

Вы можете извлечь определенную информацию с веб-сайта и отобразить ее в своей таблице Google, используя специальные формулы Таблиц.

Например, недавно мне нужно было найти авторов длинного списка сообщений в блоге из отчета Google Analytics, чтобы определить звездных авторов, получающих просмотры страниц. Было бы чрезвычайно утомительно открывать каждую ссылку и вручную вводить имя каждого автора. К счастью, в Google Таблицах есть несколько способов сделать это за нас.

Базовый пример веб-скребка

Для целей этой публикации я продемонстрирую эту технику, используя сообщения из New York Times.

Шаг 1:

Возьмем случайную статью из New York Times и скопируем URL-адрес в нашу электронную таблицу в ячейку A1:

Пример URL-адреса New York Times

Пример URL-адреса New York Times

Шаг 2:

Перейдите на веб-сайт, в данном примере на New York Times:

Скриншот New York Times

Скриншот New York Times

Примечание. Я знаю, о чем вы думаете, разве это не должно было быть автоматизировано. Да, и это так. Но сначала нам нужно посмотреть, как New York Times отмечает автора на веб-странице, чтобы затем мы могли создать формулу, которую будем использовать в дальнейшем.

Шаг 3:

Наведите указатель мыши на подпись автора и щелкните правой кнопкой мыши, чтобы открыть меню, и нажмите "Проверить элемент", как показано на следующем снимке экрана:

New York Times проверяет выбор элемента

New York Times проверяет выбор элемента

Появится окно проверки разработчика, в котором мы можем проверить элемент HTML на наличие подписи:

Элемент New York Times в консоли разработчика

Элемент New York Times в консоли разработчика

Шаг 4:

В новом окне консоли разработчика есть одна интересующая нас строка HTML-кода, и она выделена:

Мы собираемся использовать функцию IMPORTXML в Google Таблицах со вторым аргументом (называемым «xpath-query»), который обращается к указанному выше HTML-элементу.

Запрос xpath, //span[@class='byline-author'] , ищет элементы span с именем класса «byline-author», а затем возвращает значение этого элемента, которое является именем наш автор.

Скопируйте эту формулу в ячейку B1 рядом с нашим URL:

Окончательный результат для примера New York Times выглядит следующим образом:

Пример базового парсера с использованием importXML в Google Листы

Пример базового парсинга веб-страниц с использованием importXML в Google Sheets

Пример Web Scraper со статьями с несколькими авторами

Рассмотрите следующую статью:

В этом случае в подписи указаны два автора. Формула на шаге 4 выше по-прежнему работает и вернет оба имени в отдельных ячейках, одно под другим:

Очистка веб-сайтов двух авторов с использованием importXMLTвеб-сайт двух авторов очистить с помощью importXML

Два автора парсинга веб-страниц с использованием importXML

Это нормально для одноразового случая, но если ваши данные структурированы в виде строк (например, длинный список URL-адресов в столбце A), вам нужно настроить формулу так, чтобы имена авторов отображались в одном и том же месте. ряд.

Для этого я использую формулу индекса, чтобы ограничить запрос первым автором, чтобы результат существовал только в этой строке. Новая формула:

Обратите внимание, что второй аргумент равен 1, что ограничивается первым именем.

Затем в соседней ячейке C1 я добавляю еще одну формулу для сбора подписи второго автора:

Для этого используется 2, чтобы вернуть имя автора во вторую позицию массива, возвращаемого функцией IMPORTXML.

Два автора парсинга в одной строке

Два автора веб-скрапинга в одной строке

Другие примеры веб-парсеров медиа

На других веб-сайтах используются другие структуры HTML, поэтому формулу необходимо немного изменить, чтобы найти информацию, ссылаясь на соответствующий конкретный тег HTML. Опять же, лучший способ сделать это для нового сайта — выполнить шаги, описанные выше.

Вот еще несколько примеров:

Для Business Insider доступ к подписи автора осуществляется с помощью:

Для "Вашингтон пост":

Рассмотрите следующую страницу Википедии, на которой показана таблица самых высоких зданий мира:

Хотя мы можем просто копировать и вставлять, это может быть утомительно для больших таблиц и не выполняется автоматически. Используя формулу IMPORTHTML, мы можем заставить Google Таблицы сделать всю тяжелую работу за нас:

что дает нам результат:

Импорт таблицы из Википедии в Google Sheets

Импорт таблицы из Википедии в Google Таблицы

Поиск номера таблицы (в данном примере – 2) – это метод проб и ошибок, в ходе которого проверяются значения, начиная с 1, пока вы не получите желаемый результат.

Обратите внимание, что эта формула также работает для списков на веб-страницах, и в этом случае вы замените ссылку «таблица» в формуле на «список».

Дополнительная литература

Для более сложных примеров см.:

Другие формулы ИМПОРТ:

Если вы заинтересованы в расширении этой техники, попробуйте другие формулы Google Sheet:

IMPORTDATA — импорт данных по заданному URL в формате .csv или .tsv

IMPORTFEED — импортирует канал RSS или ATOM

IMPORTRANGE – импортирует диапазон ячеек из указанной электронной таблицы.

152 мысли на тему “Использование Google Таблиц в качестве базового веб-парсера”

Есть ли способ получить данные, защищенные паролем, например, общее количество подписчиков в моей рассылке по электронной почте? Каков синтаксис для этого?

К сожалению, эти формулы ИМПОРТ не могут работать с данными, защищенными паролем. Какого поставщика услуг электронной почты вы используете? Относительно легко подключиться к API MailChimp (других не пробовал) и таким образом извлекать всевозможные данные о подписчиках электронной почты. Я скоро опубликую об этом пост.

Привет, Бен! Кажется, эта форма не работает. Пытаюсь удалить данные по вашей формуле, но получаю сообщение "импортированный контент пуст".

Изменился ли код Business Insider?

Бен, привет.
как взять одну ячейку из таблицы и направить ее на сайт, например, А1 — линейка знаний о товаре, А2 — цена товара.?

Привет, Бен!
Если мне нужно войти на кучу веб-сайтов (из-за подписки), а затем загрузить контент на основе интересующего меня критерия, могу ли я сделать это с помощью Mailchimp API, и если да , Как мне это сделать?
Предполагаю следующие шаги:
1. Откройте таблицы Google
2. Создайте список веб-сайтов вместе со столбцами имен пользователей и паролей, с которых я хочу извлечь свой контент
3. Запустите формулы (думаю, с какой-то командой выполнения), т. е. выполните импорт
4. Сохраните весь контент на моем Google Диске
5. Запустите мой критерий, скажем, PDF-документы, ZIP-файлы и т. д. или сводную таблицу данных, а затем загрузите «детали»
6. Сохраните подробное содержание в другом месте на G-диске.

Как скопировать данные веб-сайта в Google Таблицы

Извлечение данных из Интернета может быть невероятно полезным.

Он может помочь в ваших исследованиях, API, приложениях, базах данных и многом другом.

Во многих случаях вам может быть интересно перенести эти данные в электронную таблицу Google Sheet, чтобы упростить доступ и совместное использование.

Сегодня мы воспользуемся бесплатным парсером для извлечения данных с веб-сайта в Google Таблицы.

Извлечение данных из Интернета в Google Таблицы

В этом примере мы будем использовать ParseHub, бесплатный и мощный веб-скребок, который может извлекать данные с любого веб-сайта.

Мы также будем извлекать данные со страницы результатов Amazon по термину "монитор компьютера". Затем мы извлечем эти данные в электронную таблицу Google Sheets, которая будет автоматически обновлена.

Настройка вашего проекта

Теперь приступим к парсингу.

  1. Откройте ParseHub, нажмите «Новый проект» и введите URL-адрес, который вы будете очищать. Еще раз, для этого примера мы будем собирать данные со страницы результатов Amazon для термина «компьютерный монитор». Теперь страница будет отображаться внутри приложения.
    1. После отображения страницы по умолчанию будет создана команда выбора. Начните с нажатия на первое название продукта на странице. Он будет выделен зеленым цветом, что означает, что он выбран.
    2. Нажмите на название второго продукта в списке, чтобы выбрать их все. Все названия продуктов теперь будут выделены зеленым цветом. На левой боковой панели переименуйте свой выбор в «продукт».

    Вы заметите, что теперь ParseHub извлекает названия и URL каждого продукта.

    Пока что наш проект парсинга будет довольно простым. Однако, если вы хотите извлечь из Amazon дополнительные данные, например информацию о ценах и сведениях о продуктах, ознакомьтесь с нашим руководством по извлечению данных о продуктах Amazon.

    Планирование будущих скрейпов

    Теперь вы можете извлекать данные из ParseHub в Google Таблицы. Однако вы можете запланировать сбор данных для загрузки данных в Google Таблицы по расписанию.

    Если вы просто хотите сделать одноразовую очистку, перейдите к следующему разделу.

    Примечание. Планирование проектов — это платная функция ParseHub.

    Чтобы запланировать проект парсинга, выполните следующие действия:

    1. Нажмите зеленую кнопку "Получить данные" на левой боковой панели.
    2. Нажмите кнопку "Запланировать".
    3. В раскрывающемся списке вы можете выбрать, как часто и в какое время вы хотите запускать парсинг.
    4. Установив расписание, нажмите «Сохранить и запланировать».
    5. Теперь ваш проект будет запускаться автоматически в запланированное время. На странице «Получить данные» будет создана новая вкладка для этого расписания. Вы можете нажать на эту вкладку, чтобы открыть страницу, на которой ваши данные могут быть загружены после первого запланированного запуска. Ваши данные будут доступны в формате Excel и JSON.

    Далее мы рассмотрим, как автоматически извлекать результаты в Google Таблицы.

    Экспорт данных непосредственно в Google Таблицы

    ParseHub позволяет извлекать результаты очистки непосредственно в Google Таблицы с помощью ключей API.

    Вот как это настроить:

    1. Перейдите на страницу настроек вашего проекта.
    2. Чтобы найти свой ключ API, щелкните значок профиля в правом верхнем углу панели инструментов. Нажмите "Учетная запись", и вы увидите свой ключ API в списке.
    3. Откройте новую таблицу Google Sheet.
    4. В ячейке A1 введите =IMPORTDATA()
      1. В скобках введите следующий URL-адрес: https://www.parsehub.com/api/v2/projects/PROJECT_TOKEN/last_ready_run/data?api_key=API_KEY&format=csv
      2. В приведенном выше URL-адресе замените PROJECT_TOKEN фактическим токеном проекта на вкладке "Настройки" вашего проекта.
      3. Замените API_KEY ключом API из вашей учетной записи.

      После того как вы закончите свою формулу, ваши данные будут автоматически заполнены, как только вы запустите парсинг хотя бы один раз. Для этого используйте зеленую кнопку «Получить данные» на левой боковой панели и нажмите «Выполнить».

      извлечены данные в таблицы Google

      Заключительные мысли

      Теперь вы знаете, как автоматически извлекать данные с любого веб-сайта в Google Таблицы.

      Если у вас возникнут проблемы при настройке проекта, свяжитесь с нами через чат на нашем сайте, и мы будем рады вам помочь.

      Мартин Перес

      Мартин Перес

      Мартин — специалист по цифровому маркетингу в ParseHub. Любитель всего, что связано с технологиями, культурой и Интернетом.

      Читайте также: