перейти к содержанию

Лучший скребок Craigslist 2022: Соберите данные Craigslist (объявления, цены…)

Вы хотите собирать и извлекать данные из Craigslist, но не знаете, как это сделать из-за сложности? В этой статье представлен список лучших парсеров Craigslist, которые вы можете использовать для сбора данных с Craigslist.

Важно знать, что Craigslist особенно сложно использовать с точки зрения сбора данных. Это прямое следствие того, как они все организовали. В результате о очистке данных совершенно не может быть и речи. Большинство сайтов социальных сетей включают API, которые позволяют пользователям собирать данные и экспортировать их в выбранный ими формат.

Facebook является прекрасной иллюстрацией этого. Другими словами, если страница общедоступна, вы можете получить доступ к данным на ней, независимо от того, кому принадлежит страница, к которой вы пытаетесь получить доступ. Это довольно просто. Однако на Craigslist ситуация несколько иная. Но функции их API полностью противоположны. Вы можете получать данные из API Facebook, но не можете ничего публиковать.

У него есть приложение Facebook, чтобы вы могли публиковать материалы. Насколько мне известно, API Craigslist не позволяет извлекать какие-либо данные только для чтения. Это подразумевает, что все отстало, но с точки зрения Craigslist это имеет смысл.

Причина этого в том, что фирмы, особенно в сфере недвижимости, могут массово загружать списки через свой API. С другой стороны, разрешение другим сторонам извлекать и показывать свои данные на другом веб-сайте, который им не принадлежит, не приносит им никакой пользы. Таким образом, даже если вы просто хотите провести простой анализ данных, вы столкнетесь с проблемами.

Вы не можете подписаться на RSS-каналы на Craigslist. Хотя это разрешено только для личных целей, попытка очистить с его помощью большие объемы данных приведет к блокировке. Это прямо указано в условиях обслуживания Craigslist. Теперь вопрос: что все это значит?

Давайте посмотрим на это поближе. Доступ к Craigslist возможен только через электронную почту или компьютерный браузер. Для публикации на Craigslist можно использовать только их API массовой публикации или веб-браузер. Очистка данных невозможна с помощью скриптов, ботов, поисковых роботов или поисковых роботов.

Получение контактной информации пользователя или других личных данных путем парсинга является незаконным. Действуют базовые процедуры защиты от спама, как и на большинстве других платформ социальных сетей. В результате то, что мы собираемся сказать, нарушает условия обслуживания Craigslist. Вашему вниманию представлены лучшие скребки Craigslist этого года.


8 лучших парсеров Craigslist в 2022 году


1. Яркие данные — Лучший скребок Craigslist для аутентичного извлечения данных Craigslist

  • Стоимость: От 5 долларов США за 1,000 XNUMX страниц.
  • Формат данных: Эксель, HTML, CSV, JSON

Использование Bright Data в качестве инструмента для изучения того, как собирать данные с Craigslist, показывает, насколько Bright Data заботится об удовлетворении требований своих клиентов и насколько она стремится предоставить им инструменты, специально предназначенные для такого рода действий. Они утверждают, что вы можете получить общедоступные данные на Craigslist, используя их инструменты сбора данных. Данные Craigslist можно быстро получить и экспортировать в электронную таблицу в любом формате, включая Excel, электронную почту или HTML. Их универсальная технология легко взаимодействует с ведущими в отрасли прокси-сетями и имеет функции парсинга, которые доступны без использования сценариев, что означает простоту использования. Если вы хотите защитить свою личную информацию при очистке Craigslist, вы можете использовать для этого прокси-сервер. Кроме того, наш парсер прокси-серверов Craigslist является масштабируемым, что означает, что вы можете собрать столько данных, сколько необходимо, за короткий промежуток времени.


2. Apify (Apify Craigslist Scraper) - Простой в использовании Craigslist Scraper

  • Формат данных: JSON
  • Язык: JavaScript

Сотни готовых инструментов для веб-скрейпинга основных сайтов включены в Apify, платформу для веб-скрейпинга. Используя Apify Craigslist Scraper, вы можете легко и свободно собирать сообщения на основе любых параметров поиска. Парсер извлечет и загрузит фотографии, цены, дату их публикации и URL-адреса найденных сообщений. Нет ограничений на частоту запуска сканера, и он будет отправлять вам электронное письмо каждый раз, когда будут обнаружены новые записи. Вам даже не нужно беспокоиться о настройке прокси, когда вы используете прокси-сервис Apify со скребком.


3. Осьминога — Лучший для очистки данных Craigslist

  • Стоимость: 58 долларов США в месяц

Используя Octoparse, вы можете легко получить всю необходимую информацию из Craigslist, даже если у вас нет особых технических знаний. Для тех, кто новичок в сфере ИТ, но не хочет знать все о программировании, эти ребята — отличный вариант. По словам компании, их функции могут позволить вам быстро собрать все необходимые онлайн-данные из Craigslist, и вам не нужно ничего знать о кодировании, чтобы добиться этого. Они хотят, чтобы вы могли преобразовывать веб-страницы в электронные таблицы всего несколькими щелчками мыши, и самое главное, что вы можете делать это бесплатно. Все они бесплатны для использования. В предложение включен двухнедельный пробный период. Когда дело доходит до скребков Craigslist, подобных этим, я часто использую их в своих интересах!


4. Фантомбастер — Лучший скребок Craigslist для извлечения доступных данных из рекламы Craigslist.

  • Формат данных: CSV, JSON, Excel, Google Таблицы

Phantombuster — отличный инструмент для безопасного и тайного извлечения данных из Craigslist. Они знают, что их клиенты хотят, чтобы все было сделано тихо и правильно, и могут помочь вам в этом. В дополнение к тому факту, что этот парсер Craigslist дает урок о том, как использовать их возможности, нам также нравится, что они регулярно вносят изменения в свои функции, гарантируя, что вы постоянно используете самые современные технологии. Эти люди могут даже собирать электронные письма с Craigslist. С окном чата на их веб-странице вы сможете получить помощь в любое время, когда вам это нужно.


5. Облачный краулер — Лучший скребок Craigslist для очистки данных Craigslist в облаке

Этот сканер представляет собой веб-паук, который работает только в облаке. Тем не менее, это немного сложно освоить. По нему не так много информации. Если вы хотите научиться программировать, но не хотите начинать с нуля, это отличный вариант. С другой стороны, это полностью бесплатный проект с открытым исходным кодом.


6. Визуальный веб-потрошитель — Лучший парсер Craigslist для извлечения данных с любого веб-сайта, который вы посещаете

  • Стоимость: От 350 долларов США (пожизненный план)

Когда дело доходит до написания HTML, Cloud Crawler использует текстовый файл в Блокноте, а Visual Web Ripper использует программу под названием Dreamweaver. Графический веб-риппер, который позволяет вам просто указать информацию, которую вы хотите извлечь, а компьютер сделает все остальное. В нем есть демо-видео, шикарный веб-сайт и все прибамбасы. Однако существуют определенные ограничения. В бесплатной пробной версии вы можете извлечь только до 100 фрагментов со страницы, что может быть замедлено скриптами и кодированием. По той же причине вы можете иметь его только в течение пятнадцати дней. Несмотря на это, это дорогой вариант. Полная версия программного обеспечения стоит 350 долларов США за лицензию, включающую пожизненные обновления.


7. Scrapy - Легко расширяемый и мощный скребок Craigslist

  • Язык: Питон
  • Формат данных: JSON, CSV, XML

Лично я считаю, что это один из самых полезных и надежных скребков. Как универсальный веб-сканер, он способен на гораздо большее, чем просто сканирование списков Craigslist. Он имеет меньше ограничений, прост в настройке и полностью бесплатен. Честно говоря, лучшее было зарезервировано до последнего. Документация Scrapy, безусловно, является его сильной стороной.


8. Питон Craigslist Scraper — Мощный и удобный парсер Craigslist

По сравнению с другими парсерами с открытым исходным кодом, этот более удобен для пользователя. Все на Github бесплатно и написано на одном из самых простых языков. Это один из самых известных бесплатных парсеров Craigslist на рынке.


Простое руководство по очистке данных Craigslist

К сожалению, подход, который вы выберете для очистки данных, будет сильно зависеть от инструмента, который вы выберете для работы. Вот как процедура будет выглядеть в целом.


Шаг 1. Определитесь с Craigslist Scraper, который будете использовать.

Первый шаг — выбрать инструмент для очистки Craigslist, который вам нравится. Если вам нравится, вы можете создать свой собственный. Как программист, это интригующая задача. Если нет, то нет смысла делать его, когда есть так много других вариантов. Вы можете использовать ресурсы, которые я предоставил.


Шаг 2: Используйте прокси

Помните, я сказал, что Craigslist активно препятствовал тому, чтобы парсеры использовали их сайт? Использование прокси — хорошая идея. Если они обнаружат, что один и тот же IP-адрес быстро обращается ко многим страницам, они могут идентифицировать парсер. Этот человек может ничего не делать, кроме серфинга, точно так же, как поисковые роботы Google. Есть большая вероятность, что Google попал в белый список, но они не внесут вас в белый список. Чтобы замаскировать источник трафика, прокси-серверы направляют его через множество различных веб-серверов. В отличие от просмотра 100 страниц с одного IP-адреса, Craigslist увидит 20 разных IP-адресов, каждый из которых посещает пять страниц. В данном случае это более справедливая сумма, и вас за это не накажут.


Шаг 3: Извлеките данные

Это так же просто, как запустить парсер и собрать необходимые данные. Скорее всего, файл CSV окажется в инструменте для работы с электронными таблицами, таком как Excel или Google Sheets, который сможет его открыть. Взгляните на информацию и делайте с ней, что хотите! Я еще раз напомню вам, чтобы вы не использовали его в коммерческих целях. Адвокаты C&D с гораздо большей вероятностью придут за вами, если вы будете использовать Craigslist. Личное использование намного безопаснее, так как худшее, что они могут сделать, это заблокировать ваш IP-адрес, что не имеет значения, используете ли вы прокси для сокрытия своей личности.


Некоторые проблемы Craigslist

Craigslist имеет много проблем. Когда он впервые появился в 2006 году, насколько он изменился? Просто сравните нынешний дизайн с Интернет-архивом, созданным на момент создания сайта, чтобы увидеть, насколько он изменился с течением времени. Он не менялся немного в течение длительного времени. Он красивее и читабельнее, потому что выровнен по центру, а не по левому краю, но в остальном это то же самое. Несмотря на то, что пользовательский интерфейс почти не изменился, теперь он скрывает от пользователя больше информации. Есть теперь три вида рекламы, которые вы видите в Интернете.


1. Объявления содержат контактную информацию в виде простого текста.

Компании часто используют их как средство побуждения клиентов связаться с ними. Поскольку в этих компаниях работают телефонные операторы, они могут отсеивать недобросовестные звонки.


2. Скрытие контактных данных в рекламе.

Личные объявления на Craigslist обычно размещают люди, которые используют как цифры, так и слова для описания своих телефонных номеров. Это сделано для того, чтобы люди могли расшифровать номер телефона, а робот — нет.


3. Объявления без контактных данных.

Craigslist предоставляет анонимный адрес электронной почты в качестве адреса для переадресации, если вы хотите связаться с человеком, разместившим объявление. Вы не можете видеть плакат, но они могут вернуться к вам, если захотят.

Кроме того, есть опасения по поводу того, что разрешено, а что запрещено в CL в наши дни, как упоминалось ранее. На самом деле более эффективно использовать символы Unicode в заголовках сообщений, чем стандартные текстовые заголовки, потому что они не так сильно выделяются. В результате парсерам придется найти способ разобрать или удалить эти специальные символы. Конечно, существует постоянная проблема со спамом. С недвижимостью и другими «серьезными» сферами, за которыми ведется наблюдение, такая проблема возникает не так часто. Области знакомств, такие как Free, Jobs и Personals, имеют проблемы со спамом.

В конце концов, на CL действуют процедуры защиты от спама. Иногда они могут попросить номер телефона, чтобы подтвердить вашу личность. За исключением API для массовых публикаций, который работает только в отдельных частях, у всех есть ограничение на публикацию. Люди, нарушающие правила, автоматически блокируются компьютеризированной системой. Это все полный провал. Самое печальное, что всего несколько лет назад Craigslist предпринимал шаги по повышению адаптивности и устойчивости сайта. Сам по себе тонкий сайт можно сделать более содержательным и информативным, если использовать гораздо больше HTML в своих сообщениях. Эти функции были удалены из Craigslist в 2013 году, и сайт вернулся к своему первоначальному черно-белому дизайну. Веб-мониторы и маркетологи — ничто иное, как чрезмерная шумиха.

Когда дело доходит до хороших вещей, которые сделал ураган Крейг, есть только одна вещь, которую можно вынести из него. В отличие от необходимости искать и обрабатывать информацию в коде, роботу значительно проще получать информацию из окна браузера. Это хорошо, поскольку позволяет нам делать то, чего Craigslist не хочет.


Часто задаваемые вопросы

В. Законен ли сбор данных Craigslist?

В прошлом Craigslist даже обращался в суд. Если вы собираетесь очищать много данных, вам понадобится много места для хранения. Анализировать данные несложно. Коммерческое использование будет раздражать зверя, особенно если оно затрагивает область CL. Craigslist против разработчика 3Taps API 3Taps был самым последним примером судебного спора такого типа. По сути, 3Taps разработали API Craigslist. С Padmapper, стартапом, который использовал данные Craigslist о недвижимости для создания карты района, они смогли найти дома для аренды. То, что это не было сделано Craigslist, поразительно; удивительно, что они не создали ничего подобного сами по себе. Впрочем, это для следующей главы.

Это было явно неприемлемо для Craigslist, поскольку их условия обслуживания запрещают использование их данных на стороннем сайте. Они подали судебный иск против 3Taps и Padmapper в июне 2012 года, и только в июне 2015 года он был решен после продолжительной судебной тяжбы. Компания 3Taps заплатила Craigslist миллион долларов за прекращение сбора данных. Пока 3Taps и Padmapper все еще существуют, урегулирование было болезненным, и это всего лишь один пример того, что может произойти, если вы попытаетесь извлечь данные CL и использовать их для коммерческой выгоды. Когда CL объявила об остановке и отказалась от уведомления и заблокировала их IP, эти фирмы проигнорировали это. Они продолжали нарушать правила и красть данные, что привело к новым судебным искам. Каков мой совет? Если вы получили письмо C&D, вы должны его выполнить. Скорее всего, это не стоит вашего времени.


Заключение

Это все для скребков Craigslist. Это хорошая идея иметь в виду, что Craigslist, скорее всего, примет меры от вашего имени в случае, если вы это сделаете. Если вы используете прокси, вам не придется беспокоиться о том, что Craigslist подвергнет цензуре ваш IP-адрес, что они могут сделать, если вы не используете прокси. Удачи!

Присоединяйтесь к беседе

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *