перейти к содержанию

Как очистить списки бесплатных публичных прокси и найти рабочие прокси

Прокси — важный инструмент для очистки веб-страниц и автоматизации. Они позволяют вам замаскировать ваш реальный IP-адрес и создать впечатление, что вы заходите в Интернет из разных мест. Это поможет вам избежать блокировки при очистке или отправке слишком большого количества запросов с одного IP-адреса.

Хотя платные прокси-сервисы, такие как BrightData и Smartproxy, предлагают надежные и высококачественные прокси, для крупных проектов они могут оказаться дорогими. Вот тут-то и пригодятся бесплатные публичные прокси. В Интернете есть множество бесплатных списков прокси, которые вы можете использовать бесплатно.

Проблема в том, что большинство публичных прокси-серверов на самом деле не работают или слишком медленны в использовании. Вам придется перебрать массу мертвых прокси, чтобы найти работающие.

К счастью, есть методы, которые вы можете использовать для автоматизации процесса извлечения бесплатных общедоступных прокси и проверки того, какие из них работают.

В этом руководстве я расскажу:

  • Лучшие бесплатные прокси-сайты для парсинга
  • Как извлечь прокси с этих сайтов
  • Инструменты для тестирования и проверки рабочих прокси
  • Советы по интеграции бесплатных прокси в ваши проекты парсинга веб-страниц

Прочитав, вы сможете быстро создавать списки из сотен работающих бесплатных прокси из общедоступных источников.

Лучшие бесплатные сайты со списками прокси

Существуют сотни сайтов, которые предоставляют бесплатные списки прокси, которые вы можете очистить. Вот некоторые из лучших, которые я нашел:

1. Геонода

Geonode, вероятно, имеет самую большую базу данных бесплатных прокси в Интернете. Они предоставляют JSON API вместе с веб-сайтом, который вы можете очистить.

JSON API (http://geonode.com/free-proxy-list/) возвращает прокси в следующем формате:

{
   "ip":"111.119.187.178",
   "port":6000,
   "code":"KP",
   "country":"North Korea",
   "anonymity":"High +KA"
}

Вы можете фильтровать прокси по типу (HTTP, SOCKS4/5), уровень анонимности (прозрачный, анонимный, элитный) и страна.

Веб-сайт (https://geonode.com/free-proxy-list/) перечисляет прокси в таблице HTML, которую можно проанализировать с помощью веб-скребка.

В целом, у Geonode, как правило, самый большой выбор бесплатных прокси, некоторые из которых достигают скорости более 1,000 мс. Он часто обновляется, поэтому его стоит проверять ежедневно.

2. Free-Proxy-List.net

Этот сайт (https://free-proxy-list.net/) предоставляет чистую HTML-таблицу HTTP, HTTPS и SOCKS прокси.

Он хорошо отформатирован для парсинга веб-страниц:

<tr><td>111.119.187.178</td><td>6000</td>...</tr> 

Сайт проверяет прокси каждые 10 минут, поэтому они, как правило, более надежны. Существуют также полезные атрибуты, такие как время ответа и время последней проверки прокси-сервера.

Free-Proxy-List.net предлагает меньший выбор, чем Geonode, но прокси-серверы, как правило, быстрее и имеют больше времени безотказной работы. Это отличный источник анонимных элитных прокси.

3. ОпенПроксиСписок

ОпенПроксиЛист (https://openproxylist.xyz/) использует другой подход и перечисляет полностью нефильтрованные прокси. Это означает, что мертвых или ненадежных прокси намного больше, но вы также можете найти некоторые скрытые сокровища.

Данные представлены в виде массива JSON:

[
  {
    "ip": "111.119.187.178 ",
    "port": "6000",
    "code": "KP",
    "country": "North Korea",
    "anonymity": "High +KA",
    "google": "Transparent",
    "https": "Transparent",
    "last_checked": "1 minute ago"
  },

Несмотря на более низкое качество в целом, OpenProxyList обновляется постоянно (примерно каждые 5 минут). Высокая частота обновлений помогает быстрее находить новые рабочие прокси.

4. Прокси-скрейп

ПроксиСкрап (https://api.proxyscrape.com/?request=displayproxies&proxytype=http) имеет быстрый JSON API с массовым HTTP, HTTPS и SOCKS прокси.

Вы можете получать новые прокси по запросу, указав количество результатов и собственный диапазон портов. Однако прокси не проверяются на качество и скорость.

API ограничивает вас до 1,000 прокси на вызов для бесплатного плана. Но удобство генерации новых прокси через API делает ProxyScrape стоящим.

5. Паб-прокси

ПабПрокси (https://pubproxy.com/) использует краудсорсинговый подход для создания списка бесплатных прокси.

Любой может отправить свои собственные прокси, за которые затем проголосуют другие пользователи. Прокси с более высоким количеством голосов, как правило, более надежны.

PubProxy перечисляет прокси в чистой HTML-таблице:

<tr>
<td>111.119.187.178</td> 
<td>6000</td>
</tr>

Помимо IP-адреса и порта, включены и другие метаданные, такие как страна, уровень анонимности и скорость.

Поскольку подавать прокси может кто угодно, мертвых очень много. Но функция голосования быстро выдает рабочие, высококачественные прокси.

6. Список прокси.скачать

Этот сайт (https://proxy-list.download/api/v1/get?type=http) имеет JSON API, который обслуживает массовые прокси. Вы можете указать HTTP, HTTPS или SOCKS а также фильтровать по уровню анонимности и скорости соединения.

Конечная точка /api/v1/get возвращает прокси в этой структуре:

{
   "IP": "111.119.187.178",
   "Port": "6000",
   "Code": "KP",
   "Country": "North Korea",
   "Anonymity": "High +KA",
   "Google": "Transparent",
   "HTTPS": "Transparent",
   "Last_Checked": "1 minute ago"
}

Для API требуется ключ API, но доступен бесплатный план с 1,000 поисков в месяц. API позволяет легко интегрировать Proxy-List.download в автоматизированный рабочий процесс.

7. Spys.one

Spys.one (http://spys.one/) публикует гигантский список JSON, содержащий более 17,000 XNUMX публичных прокси. Все прокси хранятся в одном массивном файле JSON.

Вот пример прокси:

{
  "ip": "111.119.187.178",
  "port": 6000,
  "protocols": ["http"],
  "country": "North Korea",
  "anonymity": "High +KA",
  "google": "Transparent",
  "https": "Transparent",
  "last_checked": "1 minute ago"
},

Огромный размер списка означает, что это отличный источник оптовых прокси. Мертвых прокси много, но, учитывая более 17 тысяч прокси, наверняка найдутся и рабочие.

Этот список лучше всего подходит, если вам нужен большой объем прокси и вы планируете активно отфильтровывать мертвые.

Извлечение прокси с сайтов

Теперь, когда вы знаете, где найти общедоступные прокси, давайте рассмотрим методы их извлечения.

Для списков HTML вы захотите использовать соскоб. Для API JSON вы можете использовать обычные HTTP-запросы.

Веб-скрапинг списков HTML-прокси

Чтобы очистить списки прокси-серверов HTML, вам необходимо проверить страницу и выявить шаблоны в разметке.

Например, Free-Proxy-List.net использует такую ​​структуру:

<tr><td>111.119.187.178</td><td>6000</td>...</tr>

Таким образом, вы можете извлечь IP и порт для каждой строки:

from bs4 import BeautifulSoup
import requests

url = ‘https://free-proxy-list.net/‘
response = requests.get(url)
soup = BeautifulSoup(response.text, ‘html.parser‘)

proxies = []
for row in soup.select(‘tr‘):
  ip = row.select(‘td‘)[0].text
  port = row.select(‘td‘)[1].text

  proxy = f"{ip}:{port}"
  proxies.append(proxy)

print(proxies)

Это распечатает список вроде:

["111.119.187.178:6000", "222.186.170.22:9999", ...]  

Для таких сайтов, как Geonode и PubProxy, которые имеют более сложные таблицы, вы можете использовать такой инструмент, как Puppeteer, Playwright или Selenium, для очистки прокси. Эти инструменты позволяют собирать динамически генерируемый контент с сайтов с большим количеством JavaScript.

Получение API-интерфейсов прокси-сервера JSON

Для API JSON вы можете просто сделать HTTP-запрос и проанализировать ответ:

import requests 

url = ‘https://api.proxyscrape.com/?request=displayproxies&proxytype=http‘
response = requests.get(url)
data = response.json()

proxies = []
for proxy in data:
   ip = proxy[0]
   port = proxy[1]
   proxies.append(f"{ip}:{port}")

print(proxies)  

При этом отправляется запрос к API ProxyScrape и анализируется список пар IP:PORT из ответа JSON.

Большинство API общедоступных прокси не требуют аутентификации, но некоторые, такие как Proxy-List.download, требуют ключа API.

В целом, API JSON предоставляют более прямой способ получения массовых прокси по сравнению с парсингом HTML.

Проверка прокси с помощью Proxy Checkers

Простое извлечение прокси — это только полдела. Большинство публичных прокси на самом деле не работают.

Следующий шаг — отделение рабочих прокси от мертвых. Для этого вам необходимо протестировать извлеченные прокси.

Есть несколько специальных инструментов, которые упрощают тестирование прокси:

  • Proxy Checker – Расширение браузера для проверки прокси из списка по целевому URL.
  • ПроксиТестер – Инструмент для проверки списка прокси по нескольким URL-адресам.
  • ПроксиСудья – Проверяет прокси с помощью многоэтапного процесса тестирования.

Эти инструменты берут список извлеченных прокси-серверов и проверяют их, отправляя тестовые запросы через каждый из них. Они удаляют все прокси, которые вышли из строя или истекли время ожидания.

У большинства инструментов есть бесплатные планы, которые позволяют тестировать до 100 прокси за запрос.

Вот как можно отфильтровать список прокси с помощью Proxy Checker:

from proxy_checker import ProxyChecker

target_url = ‘https://httpbin.org/ip‘

# Extract proxies from sites
proxies = ["111.119.187.178:6000", ...] 

checker = ProxyChecker()
working_proxies = checker.check_proxies(proxies, target_url)

print(working_proxies)

Это вернет только те прокси, которые успешно направили запросы на целевой URL.

Теперь у вас есть отфильтрованный список активных и рабочих прокси! 🎉

Интеграция прокси в проекты веб-скрапинга

Вооружившись списками бесплатных рабочих прокси, давайте посмотрим, как использовать их в проектах веб-скрапинга и автоматизации.

Вариант 1. Ротация прокси

Распространенный метод прокси-сервера вращающийся через список, чтобы замаскировать ваши запросы. Это предотвращает блокировку IP-адреса, поскольку каждый запрос использует другой IP-адрес прокси.

Вот пример логики Python для реализации ротации прокси:

import requests

working_proxies = ["111.119.187.178:6000", "222.186.170.22:9999"...]

# Rotate through proxies 
next_proxy_index = 0

for page in range(1, 100):

  proxy = working_proxies[next_proxy_index]

  print(f"Request {page} via {proxy}")

  response = requests.get(‘https://www.site.com/page-‘ + str(page), proxies={"http": proxy})

  # Go to next proxy
  next_proxy_index += 1
  if next_proxy_index >= len(working_proxies):
    next_proxy_index = 0 

Это циклически перебирает рабочие прокси из списка для отправки каждого запроса с другого IP-адреса.

Вариант 2: Прокси-менеджер

Ротация прокси вручную может оказаться сложной задачей. Более надежные инструменты, такие как Прокси-менеджер обрабатывать ротацию прокси за вас.

С помощью Proxy Manager вы настраиваете пул рабочих прокси. Он автоматически распределяет запросы по этому пулу с автоматическим переключением при сбое при отключении прокси.

Некоторые особенности:

  • Запросы балансировки нагрузки между прокси
  • Удаляет неудачные прокси и добавляет новые
  • Повторяет неудачные запросы с новыми прокси
  • Интегрируется с Python, JavaScript, Postman и т. д.

Это позаботится об управлении прокси, поэтому вы можете сосредоточиться на остальной части вашего парсера.

Вариант 3: Резидентные прокси

Жилые прокси — это прокси с реальных настольных и мобильных устройств. Они обеспечивают высочайший уровень анонимности, поскольку используют реальные домашние IP-адреса.

Услуги, подобные Luminati и Оксилабс предоставить доступ к миллионам резидентных прокси за премиальную ежемесячную плату.

Резидентные прокси-серверы полностью имитируют поведение реального человека в Интернете, при необходимости меняя IP-адреса после каждого запроса. Использование резидентных прокси во многих случаях является излишним, но обеспечивает максимальную гарантию от блокировки во время парсинга.

Заключение

Парсинг списков бесплатных общедоступных прокси — отличный способ разблокировать тысячи бесплатных прокси для ваших проектов веб-парсинга и автоматизации.

Ключевые шаги:

  • Извлекайте прокси с высококачественных общедоступных прокси-сайтов.
  • Проверка и фильтрация рабочих прокси с помощью средства проверки прокси
  • Интегрируйте прокси в свой парсер через ротацию или прокси-менеджер

Благодаря свободно доступным прокси-серверам вы можете очищать и автоматизировать масштабирование, не беспокоясь о блокировках или ограничениях скорости.

Какие источники и методы прокси вы считаете наиболее полезными? Буду рад услышать в комментариях!

Присоединяйтесь к беседе

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *