Создайте ИИ-агентов с веб-скрапингом через Pica и Bright Data

В этом руководстве вы увидите следующее:

Что такое Pica и почему она отлично подходит для создания агентов ИИ, интегрирующихся с внешними инструментами.
Почему агентам ИИ требуется интеграция со сторонними решениями для получения данных.
Как использовать встроенный коннектор Bright Data в агенте Pica для получения веб-данных для получения более точных ответов.

Давайте погрузимся!

Что такое пика?

Pica – это платформа с открытым исходным кодом, предназначенная для быстрого создания агентов искусственного интеллекта и интеграций с SaaS. Она предоставляет упрощенный доступ к 125+ API сторонних разработчиков, не требуя управления ключами или сложных конфигураций.

Цель Pica – сделать так, чтобы модели искусственного интеллекта могли легко подключаться к внешним инструментам и сервисам. С помощью Pica вы можете настроить интеграцию всего за несколько кликов, а затем легко использовать ее в своем коде. Это позволяет рабочим процессам ИИ получать данные в режиме реального времени, работать со сложной автоматизацией и многое другое.

Проект быстро завоевал популярность на GitHub, набрав более 1300 звезд всего за несколько месяцев. Это свидетельствует о его активном развитии и принятии сообществом.

Почему агентам искусственного интеллекта нужна интеграция веб-данных

Каждый фреймворк агента ИИ наследует основные ограничения от LLM, на которых он построен. Поскольку LLM предварительно обучаются на статических наборах данных, им не хватает осведомленности о реальном времени, и они не могут получить надежный доступ к живому веб-контенту.

Это часто приводит к устаревшим ответам или даже галлюцинациям. Чтобы преодолеть эти ограничения, агентам (и LLM, от которых они зависят) необходим доступ к надежным и актуальным веб-данным. Почему именно веб-данные? Потому что Интернет остается наиболее полным и актуальным источником информации.

Именно поэтому эффективный агент ИИ должен уметь быстро и легко интегрироваться со сторонними поставщиками веб-данных ИИ. И именно здесь на помощь приходит Pica!

На платформе Pica вы найдете более 125 доступных интеграций, включая интеграцию для Bright Data:

Интеграция с Bright Data позволяет вашим агентам искусственного интеллекта и рабочим процессам легко подключаться к ним:

Web Unlocker API: Продвинутый API для скраппинга, который обходит защиту от ботов, предоставляя содержимое любой веб-страницы в формате Markdown.
API для веб-скреперов: Специализированные решения для этичного извлечения свежих структурированных данных с таких популярных сайтов, как Amazon, LinkedIn, Instagram и 40 других.

Эти инструменты дают возможность агентам искусственного интеллекта, рабочим процессам или конвейерам подкреплять свои ответы надежными веб-данными, извлекаемыми на лету из соответствующих страниц. Посмотрите на эту интеграцию в действии в следующей главе!

Как создать агента искусственного интеллекта, который может получать данные из Сети с помощью Pica и Bright Data

В этом руководстве вы узнаете, как использовать Pica для создания агента ИИ на Python, который подключается к интеграции Bright Data. Таким образом, ваш агент сможет получать структурированные веб-данные с таких сайтов, как Amazon.

Выполните следующие шаги, чтобы создать своего агента ИИ на основе Bright Data с помощью Pica!

Пререквизиты

Чтобы следовать этому руководству, вам понадобятся:

На вашем компьютере установлен Python 3.9 или выше (мы рекомендуем последнюю версию).
Счет Пика.
Ключ API Bright Data.
Ключ API OpenAI.

Не волнуйтесь, если у вас еще нет ключа API Bright Data или учетной записи Pica. Мы покажем вам, как их установить в следующих шагах.

Шаг #1: Инициализация проекта Python

Откройте терминал и создайте новую директорию для вашего проекта агента Pica AI:

mkdir pica-bright-data-agent

Папка pica-bright-data-agent будет содержать код Python для вашего агента Pica. Он будет использовать интеграцию Bright Data для получения веб-данных.

Затем перейдите в каталог проекта и создайте в нем виртуальное окружение:

cd pica-bright-data-agent
python -m venv venv

Теперь откройте проект в вашей любимой среде разработки Python. Мы рекомендуем Visual Studio Code с расширением Python или PyCharm Community Edition.

В папке проекта создайте новый файл с именем agent.py. Структура каталогов должна выглядеть следующим образом:

pica-bright-data-agent/
├── venv/
└── agent.py

Активируйте виртуальную среду в терминале. В Linux или macOS выполните команду:

source venv/bin/activate

Аналогично, в Windows выполните эту команду:

venv/Scripts/activate

На следующих шагах вы установите необходимые пакеты Python. Если вы предпочитаете установить все прямо сейчас, с активированной виртуальной средой, просто выполните команду:

pip install langchain langchain-openai pica-langchain python-dotenv

Все готово! Теперь у вас есть среда разработки на Python, готовая к созданию ИИ-агента с интеграцией Bright Data в Pica.

Шаг #2: Настройка переменных окружения Чтение

Ваш агент будет подключаться к сторонним сервисам, таким как Pica, Bright Data и OpenAI. Чтобы обеспечить безопасность этих интеграций, избегайте жесткого кодирования ключей API непосредственно в коде Python. Вместо этого храните их как переменные окружения.

Чтобы упростить загрузку переменных окружения, воспользуйтесь библиотекой python-dotenv. В активированной виртуальной среде установите ее с помощью:

pip install python-dotenv

Затем импортируйте библиотеку и вызовите load_dotenv() в верхней части файла agent.py, чтобы загрузить переменные окружения:

import os
from dotenv import load_dotenv

load_dotenv()

Эта функция позволяет вашему скрипту считывать переменные из локального файла .env. Создайте этот .env-файл в корне каталога вашего проекта. Структура папок будет выглядеть следующим образом:

pica-bright-data-agent/
├── venv/
├── .env         # <-----------
└── agent.py

Отлично! Теперь вы можете безопасно работать с ключами API и другими секретами с помощью переменных окружения.

Шаг №3: Настройка Pica

Если вы еще не сделали этого, создайте бесплатную учетную запись Pica. По умолчанию Pica сгенерирует для вас API-ключ. Вы можете использовать этот API-ключ с LangChain или любой другой поддерживаемой интеграцией.

Перейдите на страницу “Быстрый старт” и выберите вкладку “LangChain”:

Здесь вы найдете инструкции по началу работы с Pica в LangChain. В частности, следуйте приведенной здесь команде установки. В активированной виртуальной среде запустите:

pip install langchain langchain-openai pica-langchain

Теперь прокрутите страницу вниз, пока не дойдете до раздела “API-ключ”:

Нажмите кнопку "Скопировать в буфер обмена" в разделе "Ключ API".

Нажмите кнопку “скопировать в буфер обмена”, чтобы скопировать ваш ключ API Pica. Затем вставьте его в файл .env, определив переменную окружения следующим образом:

PICA_API_KEY="<YOUR_PICA_KEY>"

Замените на реальный ключ API, который вы только что скопировали.

Фантастика! Теперь ваш аккаунт Pica полностью настроен и готов к использованию в вашем коде.

Шаг №4: Интеграция ярких данных в Pica

Прежде чем приступить к работе, обязательно следуйте официальному руководству по настройке ключа API Bright Data. Этот ключ понадобится для подключения вашего агента к Bright Data с помощью встроенной интеграции, доступной на платформе Pica.

Теперь, когда у вас есть ключ API, вы можете добавить интеграцию Bright Data в Pica.

На вкладке “LangChain” вашей панели Pica прокрутите вниз до раздела “Последние интеграции” и нажмите кнопку “Обзор интеграций”:

Откроется модальное окно. В строке поиска введите “brightdata” и выберите интеграцию “BrightData”:

Вам будет предложено ввести API-ключ Bright Data, который вы создали ранее. Вставьте его, а затем нажмите кнопку “Подключиться”:

Вставьте свой ключ API Bright Data и нажмите "Подключить".

Далее в левом меню нажмите на пункт меню “Подключенные интеграции”:

Щелкните пункт меню "Подключенные интеграции".

На странице “Подключенные интеграции” вы должны увидеть Bright Data в списке подключенных интеграций. В таблице нажмите кнопку “Скопировать в буфер обмена”, чтобы скопировать ключ подключения:

Копирование ключа подключения Pica Bright Data

Затем вставьте его в файл .env, добавив:

PICA_BRIGHT_DATA_CONNECTION_KEY="<YOUR_PICA_BRIGHT_DATA_CONNECTION_KEY>"

Обязательно замените на реальный ключ подключения, который вы скопировали.

Это значение понадобится вам для инициализации агента Pica в коде, чтобы он знал, что нужно загрузить настроенное соединение Bright Data. Как это сделать, смотрите в следующем шаге!

Шаг #5: Инициализация агента Pica

В файле agent.py инициализируйте агента Pica:

pica_client = PicaClient(
    secret=os.environ["PICA_API_KEY"],
    options=PicaClientOptions(
        connectors=[
            os.environ["PICA_BRIGHT_DATA_CONNECTION_KEY"]
        ]
    )
)
pica_client.initialize()

В приведенном выше фрагменте инициализируется клиент Pica, подключающийся к вашей учетной записи Pica с использованием секрета PICA_API_KEY, загруженного из вашего окружения. Кроме того, он выбирает интеграцию Bright Data, которую вы настроили ранее, из всех доступных коннекторов.

Это означает, что все агенты искусственного интеллекта, которые вы создадите с помощью этого клиента, смогут использовать возможности Bright Data по поиску веб-данных в режиме реального времени.

Не забудьте импортировать необходимые классы:

from pica_langchain import PicaClient
from pica_langchain.models import PicaClientOptions

Потрясающе! Вы готовы приступить к интеграции LLM.

Шаг №6: Интеграция OpenAI

Вашему агенту Pica потребуется LLM-движок, чтобы понимать входные подсказки и выполнять необходимые задачи, используя возможности Bright Data.

В этом руководстве используется интеграция OpenAI, поэтому вы определите LLM для своего агента в файле agent.py следующим образом:

llm = ChatOpenAI(
    model="gpt-4o",
    temperature=0,
)

Обратите внимание, что во всех примерах Pica LangChain в документации используется температура=0. Это обеспечивает детерминированность модели, которая всегда выдает один и тот же результат на один и тот же вход.

Помните, что класс ChatOpenAI происходит из этого импорта:

from langchain_openai import ChatOpenAI

В частности, ChatOpenAI ожидает, что ваш ключ OpenAI API будет определен в переменной окружения OPENAI_API_KEY. Поэтому в вашем файле .env добавьте:

OPENAI_API_KEY=<YOUT_OPENai_API_KEY>

Замените на ваш реальный ключ OpenAI API.

Потрясающе! Теперь у вас есть все строительные блоки для создания агента Pica AI.

Шаг №7: Определите своего агента по пике

В Pica агент искусственного интеллекта состоит из трех основных частей:

Экземпляр клиента Pica
Двигатель LLM
Тип агента Pica

В этом случае вы хотите создать агента искусственного интеллекта, который сможет вызывать функции OpenAI (которые, в свою очередь, подключаются к возможностям веб-поиска Bright Data через интеграцию Pica). Таким образом, создайте своего агента Pica следующим образом:

agent = create_pica_agent(
    client=pica_client,
    llm=llm,
    agent_type=AgentType.OPENAI_FUNCTIONS,
)

Не забудьте добавить необходимые импорты:

from pica_langchain import create_pica_agent
from langchain.agents import AgentType

Великолепно! Теперь осталось протестировать агента на задаче поиска данных.

Шаг #8: Допросите своего агента искусственного интеллекта

Чтобы убедиться в том, что интеграция Bright Data работает в вашем агенте Pica, поставьте перед ним задачу, которую он обычно не может выполнить самостоятельно. Например, попросите его получить обновленные данные с недавней страницы товара на Amazon, например Nintendo Switch 2 (доступна на https://www.amazon.com/dp/B0F3GWXLTS/).

Для этого вызовите своего агента с помощью этих данных:

agent_input = """
Use Bright Data to run a web scraping task and return the results from the following Amazon product URL:
https://www.amazon.com/dp/B0F3GWXLTS/
"""
result = agent.invoke({
    "input": agent_input
})

Примечание: подсказка намеренно явная. Она точно указывает агенту, что делать, какую страницу соскребать и какую интеграцию использовать. Это гарантирует, что LLM будет использовать инструменты Bright Data, настроенные через Pica, и получит ожидаемые результаты.

Наконец, выведите на печать результаты работы агента:

print(f"nAgent Result:n{result}")

И с этой последней строчкой ваш агент Pica AI завершен. Пора посмотреть, как все это будет выглядеть в действии!

Шаг № 9: Соберите все вместе

Теперь ваш файл agent.py должен содержать:

import os
from dotenv import load_dotenv
from pica_langchain import PicaClient, create_pica_agent
from pica_langchain.models import PicaClientOptions
from langchain_openai import ChatOpenAI
from langchain.agents import AgentType

# Load environment variables from .env file
load_dotenv()

# Initialize Pica client with the specific Bright Data connector
pica_client = PicaClient(
    secret=os.environ["PICA_API_KEY"],
    options=PicaClientOptions(
        connectors=[
            os.environ["PICA_BRIGHT_DATA_CONNECTION_KEY"] # Load the specific Bright Data connection
        ]
    )
)
pica_client.initialize()

# Initialize the LLM
llm = ChatOpenAI(
    model="gpt-4o",
    temperature=0,
)

# Create your Pica agent
agent = create_pica_agent(
    client=pica_client,
    llm=llm,
    agent_type=AgentType.OPENAI_FUNCTIONS,
)

# Execute a web data retrieval task in the agent
agent_input = """
Use Bright Data to run a web scraping task and return the results from the following Amazon product URL:
https://www.amazon.com/dp/B0F3GWXLTS/
"""
result = agent.invoke({
    "input": agent_input
})

# Print the produced output
print(f"nAgent Result:n{result}")

Как видите, менее чем за 50 строк кода вы создали агента Pica с мощными возможностями получения данных. Это стало возможным благодаря интеграции Bright Data, доступной непосредственно на платформе Pica.

Запустите своего агента с помощью:

python agent.py

В терминале вы должны увидеть журналы, похожие на следующие:

# Omitted for brevity...
2025-07-15 17:06:03,286 - pica_langchain - INFO - Successfully fetched 1 connections
# Omitted for brevity...
2025-07-15 17:06:05,546 - pica_langchain - INFO - Getting available actions for platform: bright-data
2025-07-15 17:06:05,546 - pica_langchain - INFO - Fetching available actions for platform: bright-data
2025-07-15 17:06:05,789 - pica_langchain - INFO - Found 54 available actions for bright-data
2025-07-15 17:06:07,332 - pica_langchain - INFO - Getting knowledge for action ID: XXXXXXXXXXXXXXXXXXXX on platform: bright-data
# Omitted for brevity...
2025-07-15 17:06:12,447 - pica_langchain - INFO - Executing action ID: XXXXXXXXXXXXXXXXXXXX on platform: bright-data with method: GET
2025-07-15 17:06:12,447 - pica_langchain - INFO - Executing action for platform: bright-data, method: GET
2025-07-15 17:06:12,975 - pica_langchain - INFO - Successfully executed Get Dataset List via bright-data
2025-07-15 17:06:12,976 - pica_langchain - INFO - Successfully executed action: Get Dataset List on platform: bright-data
2025-07-15 17:06:16,491 - pica_langchain - INFO - Executing action ID: XXXXXXXXXXXXXXXXXXXX on platform: bright-data with method: POST
2025-07-15 17:06:16,492 - pica_langchain - INFO - Executing action for platform: bright-data, method: POST
2025-07-15 17:06:22,265 - pica_langchain - INFO - Successfully executed Trigger Synchronous Web Scraping and Retrieve Results via bright-data
2025-07-15 17:06:22,267 - pica_langchain - INFO - Successfully executed action: Trigger Synchronous Web Scraping and Retrieve Results on platform: bright-data

Проще говоря, это то, что сделал ваш агент Pica:

Подключитесь к Pica и извлеките настроенную интеграцию Bright Data.
Обнаружил, что на платформе Bright Data доступно 54 инструмента.
Извлеките список всех наборов данных из Bright Data.
По вашей подсказке он выбрал инструмент “Trigger Synchronous Web Scraping and Retrieve Results” и использовал его для соскабливания свежих данных с указанной страницы продукта Amazon. За кулисами это запускает вызов Bright Data Amazon Scraper, передавая URL-адрес продукта Amazon. Скрепер получит и вернет данные о продукте.
Успешно выполнили действие скраппинга и вернули данные.

Ваш вывод должен выглядеть примерно так:

Выходные данные, произведенные агентом Pica

Вставьте этот вывод в редактор Markdown, и вы увидите хорошо отформатированный отчет о продукте:

Как вы можете видеть, агент смог создать отчет в формате Markdown, содержащий значимые и актуальные данные со страницы товара Amazon. Вы можете убедиться в точности, посетив целевую страницу товара в браузере:

Целевая страница Nintendo Switch 2 на Amazon

Обратите внимание, что полученные данные – это реальные данные со страницы Amazon, а не галлюцинации LLM. Это свидетельствует о том, что скраппинг выполнен с помощью инструментов Bright Data. И это только начало!

Благодаря широкому спектру действий Bright Data, доступных в Pica, ваш агент теперь может получать данные практически с любого веб-сайта. В том числе и с таких сложных сайтов, как Amazon, которые известны строгими мерами по борьбе со скаппингом (например, пресловутой Amazon CAPTCHA).

И вуаля! Вы только что испытали бесшовный веб-скраппинг с помощью интеграции Bright Data в агента Pica AI.

Заключение

В этой статье вы узнали, как использовать Pica для создания агента искусственного интеллекта, который может подкреплять свои ответы свежими веб-данными. Это стало возможным благодаря встроенной интеграции Pica с Bright Data. Коннектор Pica Bright Data дает ИИ возможность получать данные с любой веб-страницы.

Помните, что это был всего лишь простой пример. Если вы хотите создать более сложные агенты, вам понадобятся надежные решения для получения, проверки и преобразования живых веб-данных. Именно это вы найдете в инфраструктуре Bright Data AI.

Создайте бесплатную учетную запись Bright Data и начните изучать наши инструменты для извлечения веб-данных с поддержкой искусственного интеллекта!

Свяжитесь с нами Пробная версия