Scrapy proxy integation

Интеграция прокси-сервера Scrapy

Что такое Scrapy?

Scrapy — это фреймворк Python для сканирования и скрейпинга веб-страниц, который позволяет пользователям извлекать структурированные данные с веб-сайтов. Он имеет открытый исходный код, быстрый и расширяемый. Scrapy можно использовать для различных целей, таких как интеллектуальный анализ данных, мониторинг и автоматическое тестирование.

Интеграция Scrapy с прокси-серверами Bright Data

Откройте предпочитаемую IDE и запустите новый проект scrapy, введя в командной строке:

      начальный проект scrapy 
    

Это создаст новую папку с именем проекта, в которой откроется файл python.

  • Перейдите в панель управления Bright Data и нажмите значок «Прокси-серверы и инфраструктура скрейпинга»
  • Создайте новую прокси-зону, нажав «Добавить», выбрав тип сети, настроив прокси-сервер и нажав кнопку «сохранить»
  • На вкладке «Параметры доступа» вашей прокси-зоны вы найдете значения «USERNAME» и «PASSWORD».
  • В файле с кодом «пауком» в метапараметре запроса задайте значение «прокси-сервер» следующим образом, используя прежние значения «USERNAME» и «PASSWORD»: «http://USERNAME:[email protected]:33335»
  • Например:
      import scrapy

class BrightdatascrapyexampleSpider(scrapy.Spider):
   name = "BrightDataScrapyExample"

  def start_requests(self):
       request = scrapy.Request(url="http://example.com",callback=self.parse)
       request.meta['proxy'] = "http://USERNAME:[email protected]:33335"
       yield request

   def parse(self, response):
       print(response.body)
    

Затем запустите следующую команду в командной строке:

      scrapy runspider 
    

Как использовать Менеджер прокси-серверов Bright Data со Scrapy

  • Создайте прокси-зону так же, как и в прямой интеграции, описанной выше
  • Установите менеджер прокси-серверов
  • Нажмите «добавить новый порт» и настройте его для вашего варианта использования
  • В файле кода «паука» Scrapy в метапараметре запроса задайте значение ‘proxy’ следующим образом: «http://IP:PORTNUMBER»
  • IP-адрес локального хоста — 127.0.0.1 — это значение, которое необходимо использовать, если на вашем компьютере установлен менеджер прокси-серверов. Если менеджер прокси-серверов установлен на внешнем сервере, введите IP-адрес этого сервера
  • В Менеджере прокси-серверов создается порт 24XXX, например 24000 — первый порт по умолчанию
  • Например:
      import scrapy

class BrightdatascrapyexampleSpider(scrapy.Spider):
   name = "BrightDataScrapyExample"

   def start_requests(self):
       request = scrapy.Request(url="http://example.com",callback=self.parse)
       request.meta['proxy'] = "http://127.0.0.1:24000"
       yield request

   def parse(self, response):
       print(response.body)
    

Получите прокси-серверы для Scrapy

proxy badges

Работает на базе отмеченной наградами прокси-сети

С более чем 72 миллионами жилых IP-адресов, лучшая в своем классе технология и таргетинг на любую страну, город, оператора и ASN – сделали наши премиальные прокси-сервисы лучшим выбором для разработчиков

Типы прокси для любых задач

Резидентные прокси

  • 72+ млн IP-адресов
  • Доступны в 195 странах
  • Крупнейшая вращающаяся реальная IP-сеть
  • Доступ и сканирование всех сложных сайтов

Серверные прокси

  • 1 600 000+ IP-адресов
  • Доступны в 98 странах
  • Общие и выделенные пулы IP-адресов
  • Быстрый доступ к несложным веб-сайтам

ISP прокси

  • 700+ тыс IP-адресов
  • Доступны в 35 странах
  • Реальные статические резидентные IP-адреса без ротации
  • Лучший вариант для входа в несколько учетных записей

Мобильные прокси

  • 7+ млн IP-адресов
  • Доступны в 195 странах
  • Крупнейшая в мире IP-сеть 3G/4G с реальными одноранговыми узлами
  • Проверка мобильной рекламы и сканирование мобильных сайтов

Лучшее качество обслуживания и поддержки клиентов в отрасли

Вы спрашиваете, мы разрабатываем

Каждый день выходят новые функции

Техподдержка 24/7

ответит на любые вопросы тогда, когда вам это нужно

Полная прозрачность

Панель мониторинга состояния сети в реальном времени

Персональный аккаунт-менеджер

Поможет оптимизировать производительность

Индивидуальные решения

Разработанные под ваши цели

Лидер категории прокси и сбора данных

Category leader in proxies

Каждый день собирается 650ТБ общедоступных данных.

Number of ISP proxies

Новые выпуски функций каждый день

Serving 7/10 universities

На службе у 7/10 ведущих университетов мира

Trust pilot ratings

4,6/5 – рейтинг удовлетворенности клиентов на Trustpilot

Готовы получить прокси-серверы Scrapy?