Интеграция прокси-сервера Scrapy
Что такое Scrapy?
Scrapy — это фреймворк Python для сканирования и скрейпинга веб-страниц, который позволяет пользователям извлекать структурированные данные с веб-сайтов. Он имеет открытый исходный код, быстрый и расширяемый. Scrapy можно использовать для различных целей, таких как интеллектуальный анализ данных, мониторинг и автоматическое тестирование.
Интеграция Scrapy с прокси-серверами Bright Data
Откройте предпочитаемую IDE и запустите новый проект scrapy, введя в командной строке:
начальный проект scrapy
Это создаст новую папку с именем проекта, в которой откроется файл python.
- Перейдите в панель управления Bright Data и нажмите значок «Прокси-серверы и инфраструктура скрейпинга»
- Создайте новую прокси-зону, нажав «Добавить», выбрав тип сети, настроив прокси-сервер и нажав кнопку «сохранить»
- На вкладке «Параметры доступа» вашей прокси-зоны вы найдете значения «USERNAME» и «PASSWORD».
- В файле с кодом «пауком» в метапараметре запроса задайте значение «прокси-сервер» следующим образом, используя прежние значения «USERNAME» и «PASSWORD»: «http://USERNAME:[email protected]:33335»
- Например:
import scrapy
class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"
def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://USERNAME:[email protected]:33335"
yield request
def parse(self, response):
print(response.body)
Затем запустите следующую команду в командной строке:
scrapy runspider
Как использовать Менеджер прокси-серверов Bright Data со Scrapy
- Создайте прокси-зону так же, как и в прямой интеграции, описанной выше
- Установите менеджер прокси-серверов
- Нажмите «добавить новый порт» и настройте его для вашего варианта использования
- В файле кода «паука» Scrapy в метапараметре запроса задайте значение ‘proxy’ следующим образом: «http://IP:PORTNUMBER»
- IP-адрес локального хоста — 127.0.0.1 — это значение, которое необходимо использовать, если на вашем компьютере установлен менеджер прокси-серверов. Если менеджер прокси-серверов установлен на внешнем сервере, введите IP-адрес этого сервера
- В Менеджере прокси-серверов создается порт 24XXX, например 24000 — первый порт по умолчанию
- Например:
import scrapy
class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"
def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://127.0.0.1:24000"
yield request
def parse(self, response):
print(response.body)
Получите прокси-серверы для Scrapy
Работает на базе отмеченной наградами прокси-сети
С более чем 72 миллионами жилых IP-адресов, лучшая в своем классе технология и таргетинг на любую страну, город, оператора и ASN – сделали наши премиальные прокси-сервисы лучшим выбором для разработчиков
Типы прокси для любых задач
Резидентные прокси
- 72+ млн IP-адресов
- Доступны в 195 странах
- Крупнейшая вращающаяся реальная IP-сеть
- Доступ и сканирование всех сложных сайтов
Серверные прокси
- 1 600 000+ IP-адресов
- Доступны в 98 странах
- Общие и выделенные пулы IP-адресов
- Быстрый доступ к несложным веб-сайтам
ISP прокси
- 700+ тыс IP-адресов
- Доступны в 35 странах
- Реальные статические резидентные IP-адреса без ротации
- Лучший вариант для входа в несколько учетных записей
Мобильные прокси
- 7+ млн IP-адресов
- Доступны в 195 странах
- Крупнейшая в мире IP-сеть 3G/4G с реальными одноранговыми узлами
- Проверка мобильной рекламы и сканирование мобильных сайтов
Лучшее качество обслуживания и поддержки клиентов в отрасли
Каждый день выходят новые функции
ответит на любые вопросы тогда, когда вам это нужно
Панель мониторинга состояния сети в реальном времени
Поможет оптимизировать производительность
Разработанные под ваши цели
Лидер категории прокси и сбора данных
Каждый день собирается 650ТБ общедоступных данных.
Новые выпуски функций каждый день
На службе у 7/10 ведущих университетов мира
4,6/5 – рейтинг удовлетворенности клиентов на Trustpilot