Повысьте эффективность своего «безголового» браузера-парсера
const pw = require('playwright');
const SBR_CDP = 'wss://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9222';
async function main() {
console.log('Connecting to Scraping Browser...');
const browser = await pw.chromium.connectOverCDP(SBR_CDP);
try {
const page = await browser.newPage();
console.log('Connected! Navigating to https://example.com...');
await page.goto('https://example.com');
console.log('Navigated! Scraping page content...');
const html = await page.content();
console.log(html);
} finally {
await browser.close();
}
}
main().catch(err => {
console.error(err.stack || err);
process.exit(1);
});
import asyncio
from playwright.async_api import async_playwright
SBR_WS_CDP = 'wss://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9222'
async def run(pw):
print('Connecting to Scraping Browser...')
browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
try:
page = await browser.new_page()
print('Connected! Navigating to https://example.com...')
await page.goto('https://example.com')
print('Navigated! Scraping page content...')
html = await page.content()
print(html)
finally:
await browser.close()
async def main():
async with async_playwright() as playwright:
await run(playwright)
if __name__ == '__main__':
asyncio.run(main())
const puppeteer = require('puppeteer-core');
const SBR_WS_ENDPOINT = 'wss://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9222';
async function main() {
console.log('Connecting to Scraping Browser...');
const browser = await puppeteer.connect({
browserWSEndpoint: SBR_WS_ENDPOINT,
});
try {
const page = await browser.newPage();
console.log('Connected! Navigating to https://example.com...');
await page.goto('https://example.com');
console.log('Navigated! Scraping page content...');
const html = await page.content();
console.log(html)
} finally {
await browser.close();
}
}
main().catch(err => {
console.error(err.stack || err);
process.exit(1);
});
const { Builder, Browser } = require('selenium-webdriver');
const SBR_WEBDRIVER = 'https://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9515';
async function main() {
console.log('Connecting to Scraping Browser...');
const driver = await new Builder()
.forBrowser(Browser.CHROME)
.usingServer(SBR_WEBDRIVER)
.build();
try {
console.log('Connected! Navigating to https://example.com...');
await driver.get('https://example.com');
console.log('Navigated! Scraping page content...');
const html = await driver.getPageSource();
console.log(html);
} finally {
driver.quit();
}
}
main().catch(err => {
console.error(err.stack || err);
process.exit(1);
});
from selenium.webdriver import Remote, ChromeOptions
from selenium.webdriver.chromium.remote_connection import ChromiumRemoteConnection
SBR_WEBDRIVER = 'https://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9515'
def main():
print('Connecting to Scraping Browser...')
sbr_connection = ChromiumRemoteConnection(SBR_WEBDRIVER, 'goog', 'chrome')
with Remote(sbr_connection, options=ChromeOptions()) as driver:
print('Connected! Navigating to https://example.com...')
driver.get('https://example.com')
print('Navigated! Scraping page content...')
html = driver.page_source
print(html)
if __name__ == '__main__':
main()
Динамический парсинг, ориентированный на разработчиков
- Запуск скриптов Puppeteer, Selenium и Playwright
- Настройка рабочих процессов резидентных прокси-серверов с помощью API
- Устранение неполадок и мониторинг с помощью Chrome DevTools
Преимущества Scraping Browser
Сократите расходы на инфраструктуру
Выполняйте настройку и автоматическое масштабирование браузерной среды с помощью единого API, обеспечивающего неограниченное количество параллельных сеансов и рабочих нагрузок для непрерывного парсинга
Повысьте показатели успеха
Прекратите создавать патчи для разблокировки и обеспечьте доступ с учетом будущих технологий к любым публичным веб-данным с помощью встроенного средства разблокировки и громадного пула резидентных IP-адресов
Повышение производительности разработчиков
Помогите разработчикам сосредоточиться на самых важных задачах, запустив существующие скрипты в гибридном облаке всего одной строкой кода и избавив разработчиков от выполнения парсинга
Используйте автономную разблокировку
Цифровые отпечатки браузера
Эмулирует браузеры реальных пользователей для имитации действий человека
Решение капчи
Анализирует и решает капчи и тесты типа «запрос-ответ»
Управляет определенными пользовательскими агентами
Автоматически имитирует разные типы браузеров и устройств
Устанавливает реферальные заголовки
Имитирует трафик с популярных или проверенных веб-сайтов
Обрабатывает файлы cookie
Предотвращает потенциальные блокировки, вызванные факторами, связанными с файлами cookie
Автоматически выполняет повторные попытки и ротацию IP-адресов
Неоднократно повторяет запросы и ротирует IP-адреса в фоновом режиме
Геоохват всего мира
Доступ к локализованному контенту из любой страны, города, штата или ASN
Рендеринг JavaScript
Извлекает данные с веб-сайтов, использующих динамические элементы
Проверки целостности данных
Обеспечивает точность, согласованность и надежность данных
Громадный пул реальных IP-адресов
Выходите в Интернет под видом реального пользователя, используя более 72 миллионов резидентных IP-адресов из этичных источников, охват 195 стран и API для расширенной настройки и управления
Браузерная инфраструктура с автоматическим масштабированием
Подключите свои интерактивные многоэтапные скрипты парсинга к гибридной браузерной среде, обеспечивающей неограниченное количество параллельных сеансов с использованием одной строки кода
Совместимо с Chrome DevTools
Используйте отладчик Chrome DevTools для удобного контроля эффективности и устранения неполадок Scraping Browser
Цены на Scraping Browser
Оплата через AWS Marketplace
Оптимизируйте платежи с помощью AWS Marketplace, повышая эффективность закупок и выставления счетов. Используйте существующие обязательства AWS и получайте выгоду от промоакций AWS.
Поддержка 24/7
Круглосуточно получайте поддержку специалистов, быстро устраняйте проблемы и обеспечивайте качественную доставку данных. Получайте информацию о состоянии сети в реальном времени для полной прозрачности
ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ
Что такое Scraping Browser?
Scraping Browser работает так же, как и другие автоматические браузеры, и управляется распространенными высокоуровневыми API, такими как Puppeteer и Playwright, но это единственный браузер со встроенными функциями разблокировки сайтов. Scraping Browser автоматически управляет всеми операциями по разблокировке сайтов, включая решение CAPTCHA, создание цифровых отпечатков браузера, автоматический повтор попыток, выбор заголовков, файлов cookie, рендеринг в Javascript и многое другое, что позволяет сэкономить время и ресурсы.
Когда мне нужен браузер для парсинга?
Разработчики используют автоматические браузеры при парсинге данных, когда им требуется выполнить рендеринг страницы в JavaScript или взаимодействие с сайтом (наведение курсора, смена страниц, клики, скриншоты и т. д.). Кроме того, браузеры полезны для крупномасштабных проектов по парсингу данных, когда таргетинг осуществляется на несколько страниц одновременно.
Scraping Browser относится к типу headless или headfull?
Scraping Browser — это браузер с графическим интерфейсом (headfull-браузер). Однако разработчик использует Scraping Browser в форме headless-браузера и взаимодействует с ним через API, такой как Puppeteer или Playwright. Однако Scraping Browser открывается как браузер с графическим интерфейсом в инфраструктуре Bright Data.
В чем разница между браузерами headfull и headless в сфере парсинга?
При выборе автоматизированного браузера разработчики могут выбрать браузер без пользовательского интерфейса (headless или «безголовый») или браузер с графическим интерфейсом (headfull). Headless-браузер — это браузер без графического пользовательского интерфейса. При использовании прокси-сервера для парсинга данных можно использовать headless-браузеры, но они легко обнаруживаются программным обеспечением для защиты от ботов, что затрудняет крупномасштабный парсинг данных. Браузеры с графическим интерфейсом, такие как Scraping Browser (headfull-браузер), используют графический пользовательский интерфейс. Программному обеспечению для выявления ботов сложнее обнаружить браузеры с графическим интерфейсом.
Почему Scraping Browser лучше, чем Headless Chrome или Selenium с веб-парсингом на Python?
Scraping Browser оснащен встроенной функцией разблокировки веб-сайтов, которая автоматически обходит блокировки вместо вас. Scraping Browser использует функцию автоматической разблокировки и открывается на серверах Bright Data, поэтому он идеально подходит для масштабирования проектов парсинга веб-данных и не требует использования крупной инфраструктуры.
Совместим ли Scraping Browser с парсингом с помощью Puppeteer?
Да, Scraping Browser полностью совместим с Puppeteer.
Совместим ли Scraping Browser с Playwright?
Да, Scraping Browser полностью совместим с Playwright.
Когда следует использовать Scraping Browser вместо других прокси-продуктов Bright Data?
Scraping Browser — это автоматизированный браузер, оптимизированный для парсинга данных и поддерживающий такую же функцию автоматической разблокировки, как у Web Unlocker. Однако Web Unlocker работает с одноэтапными запросами, а Scraping Browser позволяет разработчику взаимодействовать с сайтом для получения данных. Он также идеально подходит для любого проекта по парсингу данных, требующего использования браузеров, масштабирования и автоматического управления всеми действиями по разблокировке сайтов.