Архивный API

Получите доступ к обширным кэшированным коллекциям Bright Data, предлагающим экономически эффективное обнаружение HTML-файлов из миллиардов доменов. Еженедельно пополняясь более чем на 1 ПБ, вы всегда будете в курсе последних событий. Ощутите беспрепятственный и эффективный поиск данных, как никогда раньше.

Обратитесь к эксперту

Находите новые источники благодаря фильтруемым метаданным
Точная адресация по модальности, языку или области.
Наборы данных для текущих или разовых нужд
Дополнительные услуги по аннотированию и маркировке

ДОВЕРЯЮТ 20,000+ КЛИЕНТОВ ПО ВСЕМУ МИРУ

Доступ к крупномасштабным веб-данным

Архивный API Bright Data предлагает постоянно обновляемые данные в режиме реального времени с расширенными возможностями фильтрации и доставки.

Сбор данных

Непрерывно собирает публичные веб-данные в режиме реального времени, предоставляя результаты как только что, так и сейчас.

Объем данных

17,5 ПБ, собранных за 8 месяцев, охватывающих 118 миллиардов страниц с ~1 ПБ и 2 миллиардами уникальных URL-адресов, добавляемых в неделю.

Фильтрация и доставка

Полная платформа для поиска и доставки - фильтрация по категориям, доменам, языкам, датам и т. д. Доставка через Amazon S3 или веб-хук.

Охват и актуальность

Archive API фокусируется на высокоценных, релевантных данных веб-сайта, основанных на реальных потребностях бизнеса в скраппинге.

Архив API Playground

Поиск в архиве веб-страниц

Посмотрите, как работает наш API веб-архива с примерами доменов

Демонстрационные домены

example.com

Диапазон времени

Максимальный возраст: 1 день

Результаты архива

Результаты вашего архива появятся здесь

Нажмите "Показать данные архива демонстрации", чтобы увидеть пример вывода или настроить фильтры для поиска

Примеры кода

Готовы интегрировать Web Archive API?

Начните с нашего мощного API веб-архива. Получите доступ к историческим веб-данным с нашей масштабируемой инфраструктурой.

Начать бесплатно Документация Postman

Захватите кусочек Интернета с помощью API архива

Извлеките данные из петабайтного веб-архива с миллиардами HTML-страниц. Найдите URL-адреса видео и изображений, текст на 100 с лишним языках или исторические SERP.

Структурированность и чистота

Предварительно обработанные данные с согласованными схемами идеально подходят для обучения и вывода моделей ИИ.

Примеры кодов

Готовые к использованию сниппеты Python, Node.js, cURL, PHP, Go, Java и Ruby для простой интеграции в рабочие процессы ИИ.

Документация

Исчерпывающие руководства и блокноты для ChatGPT, Claude и других интеграций LLM.

                              # TT Чтобы начать поиск в нашем архиве, используйте следующую конечную точку /search. Конечная точка: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization: Bearer $API_KEY" 
  -H 'Content-Type: application/json' 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'

                              # Проверить состояние конкретного запроса. Конечная точка: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization: Bearer $API_KEY"

                              # Проверьте состояние всех текущих поисков. Конечная точка: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Bearer $API_KEY"

Варианты использования API архива

Отслеживайте изменения контента и анализируйте тенденции по миллиардам исторических веб-снимков. Доступ к 17,5 ПБ кэшированных данных с 40 миллионов доменов для проведения долгосрочных исследований, конкурентного анализа и рыночной разведки без повторного поиска.

Поговорите с экспертом

Мгновенно создавайте всеобъемлющие поисковые индексы, используя предварительно отсканированный, JS-рендеринговый контент с миллионов доменов. Фильтр по категориям, языкам и датам позволяет создавать целенаправленные индексы, сокращая расходы на инфраструктуру.

Поговорите с экспертом

Обучайте модели ИИ с помощью 17,5 ПБ чистых веб-данных. Получайте свежий высококачественный контент из различных источников, еженедельно пополняемый на 1 ПБ и поставляемый в форматах, оптимизированных для приложений машинного обучения.

Поговорите с экспертом

Беспрепятственный поиск данных в миллиардах доменов

Легко находите и извлекайте URL-адреса видео, изображений, аудио и других материалов.

ГИБКИЙ

Инфраструктура корпоративного уровня

Платформа Bright Data обслуживает более 20,000+ компаний по всему миру, обеспечивая бесперебойную работу 99,99 %, доступ к 150M+ реальным пользовательским IP-адресам, охватывающим 195 стран.

SCALABLE

Расширенное обнаружение, сбор и обработка данных

Получите максимальный контроль и гибкость без необходимости содержать инфраструктуру прокси и разблокировки. Легко соскабливайте данные из любой геолокации, избегая CAPTCHA и блокировок.

СТАБИЛЬНЫЙ

С учетом особенностей вашего рабочего процесса

Получите структурированные, проверенные данные с помощью индивидуальных вариантов доставки и интеграции, включая специализированные отчеты, информационные панели и аналитику по историческим просмотрам и нескольким веб-сайтам.

СООТВЕТСТВУЕТ

Соответствие требованиям отрасли

Наши методы обеспечения конфиденциальности соответствуют законам о защите данных, включая нормативную базу ЕС по защите данных, GDPR и CCPA, а также уважают запросы на осуществление прав на конфиденциальность и многое другое.

Начните собирать веб-данные. Без лишних усилий.

Поговорите с экспертом

Часто задаваемые вопросы по API

Что такое Archive API?

Archive API - это массивное, постоянно расширяющееся, кэшированное хранилище компании Bright Data, предназначенное для сбора и предоставления публичных веб-данных в масштабе.

Он предоставляет полные веб-страницы и метаданные, что делает его идеальным для обучения ИИ, машинного обучения и крупномасштабного анализа данных.

В отличие от традиционного веб-ползания, Archive API уделяет первостепенное внимание актуальности, свежести и удобству использования, предоставляя вам доступ к наиболее важным частям Интернета, поскольку они собираются ежедневно.

Какой объем данных доступен в API архива Bright Data?

Только за первые 8 месяцев работы API архива Bright Data уже собрал 17,5 ПБ данных, охватывающих 28 миллиардов уникальных URL-адресов из 40 миллионов доменов.

Мы продолжаем добавлять ~1 ПБ новых данных каждую неделю, наряду с ~2 уникальными миллиардами URL, что делает Archive самым большим, актуальным хранилищем веб-данных - идеальным для ИИ и приложений, управляемых данными.

Как быстро я могу получить доступ к архивным данным?

Вы можете немедленно приступить к работе с данными через API нашего Архива. API позволяет легко и эффективно искать, извлекать и фильтровать снимки данных из архива.

Данные за последние 3 дня: Доставка займет от нескольких минут до нескольких часов (в зависимости от размера снимка).

Данные старше 3 дней: Обработка и доставка займет от нескольких часов до 3 дней (в зависимости от размера снимка).

Как можно доставить мои данные?

Archive предлагает два варианта доставки, чтобы обеспечить беспрепятственную интеграцию в существующие рабочие процессы:

Ведро Amazon S3: Снимок данных доставляется непосредственно в ведро S3.

Webhook: Получение через веб-хук для интеграции в ваши системы в режиме реального времени.

Могу ли я отфильтровать данные Archive, чтобы получить только то, что мне нужно?

Обязательно! API архива позволяет фильтровать данные по категориям, доменам, датам, языкам и странам перед получением, что гарантирует, что вы получите только то, что вам нужно.