Архивный API
Получите доступ к обширным кэшированным коллекциям Bright Data, предлагающим экономически эффективное обнаружение HTML-файлов из миллиардов доменов. Еженедельно пополняясь более чем на 1 ПБ, вы всегда будете в курсе последних событий. Ощутите беспрепятственный и эффективный поиск данных, как никогда раньше.
- Находите новые источники благодаря фильтруемым метаданным
- Точная адресация по модальности, языку или области.
- Наборы данных для текущих или разовых нужд
- Дополнительные услуги по аннотированию и маркировке
ДОВЕРЯЮТ 20,000+ КЛИЕНТОВ ПО ВСЕМУ МИРУ
Доступ к крупномасштабным веб-данным
Архивный API Bright Data предлагает постоянно обновляемые данные в режиме реального времени с расширенными возможностями фильтрации и доставки.
Сбор данных
Непрерывно собирает публичные веб-данные в режиме реального времени, предоставляя результаты как только что, так и сейчас.
Объем данных
17,5 ПБ, собранных за 8 месяцев, охватывающих 118 миллиардов страниц с ~1 ПБ и 2 миллиардами уникальных URL-адресов, добавляемых в неделю.
Фильтрация и доставка
Охват и актуальность
Архив API Playground
Готовы интегрировать Web Archive API?
Захватите кусочек Интернета с помощью API архива
Извлеките данные из петабайтного веб-архива с миллиардами HTML-страниц. Найдите URL-адреса видео и изображений, текст на 100 с лишним языках или исторические SERP.
Структурированность и чистота
Предварительно обработанные данные с согласованными схемами идеально подходят для обучения и вывода моделей ИИ.
Примеры кодов
Готовые к использованию сниппеты Python, Node.js, cURL, PHP, Go, Java и Ruby для простой интеграции в рабочие процессы ИИ.
Документация
Исчерпывающие руководства и блокноты для ChatGPT, Claude и других интеграций LLM.
# TT Чтобы начать поиск в нашем архиве, используйте следующую конечную точку /search. Конечная точка: POST api.brightdata.com/webarchive/search
curl -X POST https://api.brightdata.com/webarchive/search
-H "Authorization: Bearer $API_KEY"
-H 'Content-Type: application/json'
--data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
# Проверить состояние конкретного запроса. Конечная точка: GET api.brightdata.com/webarchive/search/
curl https://api.brightdata.com/webarchive/search/$SEARCH_ID
-H "Authorization: Bearer $API_KEY"
# Проверьте состояние всех текущих поисков. Конечная точка: GET api.brightdata.com/webarchive/searches
curl https://api.brightdata.com/webarchive/searches
-H "Authorization: Bearer $API_KEY"
Варианты использования API архива
Беспрепятственный поиск данных в миллиардах доменов
Легко находите и извлекайте URL-адреса видео, изображений, аудио и других материалов.

Инфраструктура корпоративного уровня
Платформа Bright Data обслуживает более 20,000+ компаний по всему миру, обеспечивая бесперебойную работу 99,99 %, доступ к 150M+ реальным пользовательским IP-адресам, охватывающим 195 стран.

Расширенное обнаружение, сбор и обработка данных
Получите максимальный контроль и гибкость без необходимости содержать инфраструктуру прокси и разблокировки. Легко соскабливайте данные из любой геолокации, избегая CAPTCHA и блокировок.

С учетом особенностей вашего рабочего процесса
Получите структурированные, проверенные данные с помощью индивидуальных вариантов доставки и интеграции, включая специализированные отчеты, информационные панели и аналитику по историческим просмотрам и нескольким веб-сайтам.
Соответствие требованиям отрасли
Наши методы обеспечения конфиденциальности соответствуют законам о защите данных, включая нормативную базу ЕС по защите данных, GDPR и CCPA, а также уважают запросы на осуществление прав на конфиденциальность и многое другое.
Начните собирать веб-данные. Без лишних усилий.
Часто задаваемые вопросы по API
Что такое Archive API?
Archive API - это массивное, постоянно расширяющееся, кэшированное хранилище компании Bright Data, предназначенное для сбора и предоставления публичных веб-данных в масштабе.
Он предоставляет полные веб-страницы и метаданные, что делает его идеальным для обучения ИИ, машинного обучения и крупномасштабного анализа данных.
В отличие от традиционного веб-ползания, Archive API уделяет первостепенное внимание актуальности, свежести и удобству использования, предоставляя вам доступ к наиболее важным частям Интернета, поскольку они собираются ежедневно.
Какой объем данных доступен в API архива Bright Data?
Только за первые 8 месяцев работы API архива Bright Data уже собрал 17,5 ПБ данных, охватывающих 28 миллиардов уникальных URL-адресов из 40 миллионов доменов.
Мы продолжаем добавлять ~1 ПБ новых данных каждую неделю, наряду с ~2 уникальными миллиардами URL, что делает Archive самым большим, актуальным хранилищем веб-данных - идеальным для ИИ и приложений, управляемых данными.
Как быстро я могу получить доступ к архивным данным?
Вы можете немедленно приступить к работе с данными через API нашего Архива. API позволяет легко и эффективно искать, извлекать и фильтровать снимки данных из архива.
Данные за последние 3 дня: Доставка займет от нескольких минут до нескольких часов (в зависимости от размера снимка).
Данные старше 3 дней: Обработка и доставка займет от нескольких часов до 3 дней (в зависимости от размера снимка).
Как можно доставить мои данные?
Archive предлагает два варианта доставки, чтобы обеспечить беспрепятственную интеграцию в существующие рабочие процессы:
Ведро Amazon S3: Снимок данных доставляется непосредственно в ведро S3.
Webhook: Получение через веб-хук для интеграции в ваши системы в режиме реального времени.
Могу ли я отфильтровать данные Archive, чтобы получить только то, что мне нужно?
Обязательно! API архива позволяет фильтровать данные по категориям, доменам, датам, языкам и странам перед получением, что гарантирует, что вы получите только то, что вам нужно.