Архивный API

Получите доступ к обширным кэшированным коллекциям Bright Data, предлагающим экономически эффективное обнаружение HTML-файлов из миллиардов доменов. Еженедельно пополняясь более чем на 1 ПБ, вы всегда будете в курсе последних событий. Ощутите беспрепятственный и эффективный поиск данных, как никогда раньше.

Обратитесь к эксперту
archive api
  • Находите новые источники благодаря фильтруемым метаданным
  • Точная адресация по модальности, языку или области.
  • Наборы данных для текущих или разовых нужд
  • Дополнительные услуги по аннотированию и маркировке
ДОВЕРЯЮТ 20,000+ КЛИЕНТОВ ПО ВСЕМУ МИРУ

Доступ к крупномасштабным веб-данным

Архивный API Bright Data предлагает постоянно обновляемые данные в режиме реального времени с расширенными возможностями фильтрации и доставки.

data collection

Сбор данных

Непрерывно собирает публичные веб-данные в режиме реального времени, предоставляя результаты как только что, так и сейчас.

data volume

Объем данных

17,5 ПБ, собранных за 8 месяцев, охватывающих 118 миллиардов страниц с ~1 ПБ и 2 миллиардами уникальных URL-адресов, добавляемых в неделю.

delivery

Фильтрация и доставка

Полная платформа для поиска и доставки - фильтрация по категориям, доменам, языкам, датам и т. д. Доставка через Amazon S3 или веб-хук.
coverage

Охват и актуальность

Archive API фокусируется на высокоценных, релевантных данных веб-сайта, основанных на реальных потребностях бизнеса в скраппинге.

Архив API Playground

Поиск в архиве веб-страниц
Посмотрите, как работает наш API веб-архива с примерами доменов
Демонстрационные домены
example.com
Диапазон времени
Максимальный возраст: 1 день
Результаты архива
Результаты вашего архива появятся здесь
Нажмите "Показать данные архива демонстрации", чтобы увидеть пример вывода или настроить фильтры для поиска
            
          
Примеры кода
                
              

Готовы интегрировать Web Archive API?

Начните с нашего мощного API веб-архива. Получите доступ к историческим веб-данным с нашей масштабируемой инфраструктурой.

Захватите кусочек Интернета с помощью API архива

Извлеките данные из петабайтного веб-архива с миллиардами HTML-страниц. Найдите URL-адреса видео и изображений, текст на 100 с лишним языках или исторические SERP.

structured

Структурированность и чистота

Предварительно обработанные данные с согласованными схемами идеально подходят для обучения и вывода моделей ИИ.

code examples

Примеры кодов

Готовые к использованию сниппеты Python, Node.js, cURL, PHP, Go, Java и Ruby для простой интеграции в рабочие процессы ИИ.

documentation

Документация

Исчерпывающие руководства и блокноты для ChatGPT, Claude и других интеграций LLM.

                              # TT Чтобы начать поиск в нашем архиве, используйте следующую конечную точку /search. Конечная точка: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization: Bearer $API_KEY" 
  -H 'Content-Type: application/json' 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
                              
                            
                              # Проверить состояние конкретного запроса. Конечная точка: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization: Bearer $API_KEY"
                              
                            
                              # Проверьте состояние всех текущих поисков. Конечная точка: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Bearer $API_KEY"
                              
                            

Варианты использования API архива

Отслеживайте изменения контента и анализируйте тенденции по миллиардам исторических веб-снимков. Доступ к 17,5 ПБ кэшированных данных с 40 миллионов доменов для проведения долгосрочных исследований, конкурентного анализа и рыночной разведки без повторного поиска.
Поговорите с экспертом
deep research
Мгновенно создавайте всеобъемлющие поисковые индексы, используя предварительно отсканированный, JS-рендеринговый контент с миллионов доменов. Фильтр по категориям, языкам и датам позволяет создавать целенаправленные индексы, сокращая расходы на инфраструктуру.
Поговорите с экспертом
Обучайте модели ИИ с помощью 17,5 ПБ чистых веб-данных. Получайте свежий высококачественный контент из различных источников, еженедельно пополняемый на 1 ПБ и поставляемый в форматах, оптимизированных для приложений машинного обучения.
Поговорите с экспертом
data_enrichment_for_ai_models

Беспрепятственный поиск данных в миллиардах доменов

Легко находите и извлекайте URL-адреса видео, изображений, аудио и других материалов.

ГИБКИЙ

Инфраструктура корпоративного уровня

Платформа Bright Data обслуживает более 20,000+ компаний по всему миру, обеспечивая бесперебойную работу 99,99 %, доступ к 150M+ реальным пользовательским IP-адресам, охватывающим 195 стран.

SCALABLE

Расширенное обнаружение, сбор и обработка данных

Получите максимальный контроль и гибкость без необходимости содержать инфраструктуру прокси и разблокировки. Легко соскабливайте данные из любой геолокации, избегая CAPTCHA и блокировок.

СТАБИЛЬНЫЙ

С учетом особенностей вашего рабочего процесса

Получите структурированные, проверенные данные с помощью индивидуальных вариантов доставки и интеграции, включая специализированные отчеты, информационные панели и аналитику по историческим просмотрам и нескольким веб-сайтам.

compliance
СООТВЕТСТВУЕТ

Соответствие требованиям отрасли

Наши методы обеспечения конфиденциальности соответствуют законам о защите данных, включая нормативную базу ЕС по защите данных, GDPR и CCPA, а также уважают запросы на осуществление прав на конфиденциальность и многое другое.

Начните собирать веб-данные. Без лишних усилий.

Часто задаваемые вопросы по API

Archive API - это массивное, постоянно расширяющееся, кэшированное хранилище компании Bright Data, предназначенное для сбора и предоставления публичных веб-данных в масштабе.

Он предоставляет полные веб-страницы и метаданные, что делает его идеальным для обучения ИИ, машинного обучения и крупномасштабного анализа данных.

В отличие от традиционного веб-ползания, Archive API уделяет первостепенное внимание актуальности, свежести и удобству использования, предоставляя вам доступ к наиболее важным частям Интернета, поскольку они собираются ежедневно.

Только за первые 8 месяцев работы API архива Bright Data уже собрал 17,5 ПБ данных, охватывающих 28 миллиардов уникальных URL-адресов из 40 миллионов доменов.

Мы продолжаем добавлять ~1 ПБ новых данных каждую неделю, наряду с ~2 уникальными миллиардами URL, что делает Archive самым большим, актуальным хранилищем веб-данных - идеальным для ИИ и приложений, управляемых данными.

Вы можете немедленно приступить к работе с данными через API нашего Архива. API позволяет легко и эффективно искать, извлекать и фильтровать снимки данных из архива.

Данные за последние 3 дня: Доставка займет от нескольких минут до нескольких часов (в зависимости от размера снимка).

Данные старше 3 дней: Обработка и доставка займет от нескольких часов до 3 дней (в зависимости от размера снимка).

Archive предлагает два варианта доставки, чтобы обеспечить беспрепятственную интеграцию в существующие рабочие процессы:

Ведро Amazon S3: Снимок данных доставляется непосредственно в ведро S3.

Webhook: Получение через веб-хук для интеграции в ваши системы в режиме реального времени.

Обязательно! API архива позволяет фильтровать данные по категориям, доменам, датам, языкам и странам перед получением, что гарантирует, что вы получите только то, что вам нужно.