oblako_tech (oblako_tech) wrote,
oblako_tech
oblako_tech

И "чайники" станут хакерами

Многие из нас сталкиваются с проблемой, когда надо вытащить из интернета информацию в виде списка. Это могут быть телефоны для телемаркетинга, товары с ценами, перечень гостиниц и т.д. Но информация в интернете организована так, что на странице, которую вы открыли, чаще всего видна только часть списка, остальное скрыто на других страницах. Это сделано для того, чтобы ускорить загрузку информации и не замедлять работу сайта. При этом в виде списка представлена только часть информации, например, название товара, фото и цена. Чтобы посмотреть остальные характеристики, вам надо кликнуть на карточку товара. Так что, если вам необходимо получить всю информацию по всем товарам списка (а список может быть на 10, 100, 500 и более страницах), кликать придется очень долго...

На помощь приходит ParseHub. Вначале о грустном. Во-первых, этот сервис на английском языке, во-вторых, разобраться в работе сразу с разбега не получиться. Хотя очень много видео и текстовых пошаговых подсказок. Придеться набраться терпения. Но результат того стоит. Итак, как это работает.
Сразу скажу, что не буду здесь досконально разбирать работу сервиса. Кто заинтересуется, сможет сам попробовать. Моя задача показать, что получается в результате.
Итак, первое, что необходимо, это скачать, небольшую утилиту с сайта к себе на комп.
Затем выбираем сайт, с которого хотим получить информацию. Например, я выбрал этот:



Как видите, этот список расположен на 67 страницах, при этом на каждой странице по 50 записей. Итого не менее 3350 записей. Я выбрал пример попроще, когда не надо заходить в карточку. Вся необходимая мне информация видна сразу. Итак, я хочу получить название компании, адрес и телефон и представить это в виде упорядоченного списка.

Запускаем скаченную утилиту, создаем новый проект и выбираем нужный сайт.



Обратите внимание, окно слева вверху, это исходный сайт. Окно справа, это инструменты, которыми я управляю. Вот эти 11 серых полосочек я создал сам, кликая на исходный сайт и инструменты в черной колонке окна справа. В окне слева внизу, сразу появляются данные в том виде, в котором они будут вытащены из сайта. Выглядит поначалу все очень сложно, но потренировавшись, вы сможете настраивать этого робота за несколько  минут.

После того, как проект создан, его необходимо сохранить и нажать Run. И вот что получается через несколько минут:

Это начало списка.


Это конец списка.


А теперь попробуйте представить, сколько у вас заняло бы времени печатать это вручную ). Пользуйтесь на здоровье.

UPD. Со мной тут связались создатели ParseHub и предложили всем, кто у себя в блоге напишет про сервис, существенные скидки на приобретение продукта.
Tags: Email рассылки, parsehub, облачные сервисы, облачные технологии, сервисы рассылок
Subscribe

Posts from This Journal “Email рассылки” Tag

  • Unisender - интеллигентная рассылка. Часть 2

    Я начал описание сервиса E-mail рассылок Unisender в первой части, где остановился на создании профессионально оформленного письма для рассылок.…

  • Unisender - интеллигентная рассылка

    Никто не любит получать спам. Наверное, отправлять спам тоже не очень интересно. Зачем портить репутацию бизнеса? С другой стороны, информировать…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 7 comments