Блог / AI

Веб-скраппинг на основе искусственного интеллекта в Dify с помощью рабочего процесса без кода

Освойте веб-скрептинг с помощью Dify и Bright Data, чтобы создавать не требующие кода рабочие процессы искусственного интеллекта для быстрого и надежного извлечения данных.

3 мин. чтения

Federico Trotta

Technical Writer

В этом руководстве вы узнаете следующее:

Что такое Dify и зачем его использовать.
Причина, по которой вы должны интегрировать его с универсальным плагином для скраппинга.
Преимущества интеграции Dify с плагином для сбора данных Bright Data.
Пошаговое руководство по созданию рабочего процесса скрапинга в Dify.

Давайте погрузимся!

Dify: Сила низкокодовой разработки искусственного интеллекта

Dify – это платформа для разработки LLM-приложений с открытым исходным кодом. Она работает как LLM-операционное решение, упрощающее создание приложений на основе искусственного интеллекта.

В частности, она помогает разработчикам создавать и запускать готовые к использованию приложения агентского ИИ, предоставляя:

Визуальный конструктор рабочих процессов: Создавайте многоэтапные процессы искусственного интеллекта с помощью интерфейса drag-and-drop. Вы можете объединять различные модели, инструменты и логику, не увязая в шаблонном коде.
Агностичность моделей: Интеграция с широким спектром LLM, от проприетарных моделей, таких как серия GPT от OpenAI, до различных альтернатив с открытым исходным кодом. Это дает вам возможность выбрать наилучшую модель для вашего случая использования.
Backend-as-a-service (BaaS): Возьмите на себя все сложности, связанные с хостингом, масштабированием и управлением внутренней инфраструктурой. Это позволит вам сосредоточиться на использовании возможностей ИИ, а не на управлении базовой инфраструктурой.
Расширяемость: Легко расширяйте функциональность с помощью плагинов и пользовательских инструментов от сторонних поставщиков. Это делает Dify адаптируемым к широкому спектру вариантов использования.

Необходимость специализированного плагина для скрапинга в Dify

Крупномасштабный веб-скрепинг представляет собой множество проблем. Веб-сайты используют средства защиты от ботов, которые могут легко блокировать простые попытки извлечения данных. В результате создание и поддержка системы для преодоления этих препятствий является сложной и ресурсоемкой задачей.

Именно здесь на помощь приходит плагин Bright Data Dify. Плагин обрабатывает все базовые сложности, от ротации прокси и управления IP-адресами до решения CAPTCHA и разбора данных. Другими словами, он гарантирует, что ваш агент Dify получает последовательные и высококачественные веб-данные.

В деталях плагин Bright Data предоставляет такие инструменты:

Структурированные данные: Получение структурированных, упорядоченных данных с более чем 50 платформ, таких как страницы товаров электронной коммерции или объявления о продаже недвижимости.
Соскоб в формате markdown: Он удаляет рекламу, навигационные панели и другие несущественные элементы, предоставляя чистую, отформатированную в формате markdown версию текста.
Инструмент для работы с поисковыми системами: Выполняйте запросы непосредственно в поисковых системах, таких как Google, Bing, Yandex и многих других. Вы можете использовать его для мониторинга поисковых рейтингов по определенным ключевым словам, обнаружения контента конкурентов или в рабочих процессах SERP RAG.

Преимущества интеграции Dify с плагином Bright Data Plugin

Когда вы соединяете возможности оркестровки искусственного интеллекта Dify с возможностями скриптинга Bright Data, вы раскрываете эту функциональность:

Доступ к данным в режиме реального времени: Вместо того чтобы полагаться на устаревшие данные, ваш агент ИИ может запрашивать актуальную информацию в Интернете. Это гарантирует, что ваши приложения ИИ будут работать с самыми актуальными данными.
Автоматизируйте сложные исследования и анализ: Подавая данные непосредственно в LLM в рамках рабочего процесса Dify, вы можете автоматизировать задачи, которые в противном случае потребовали бы многочасовой ручной работы. Например, вы можете построить рабочий процесс RAG для мониторинга списка товаров конкурентов на сайте электронной коммерции.
Упрощение технических сложностей: Веб-скрейпинг – непростая задача, поскольку сайты используют сложные методы блокировки. Плагин Bright Data избавит вас от этих блокировок. При этом Dify предоставляет простой интерфейс для использования этой мощности.
Универсальность для различных вариантов использования: Плагин предоставляет вам множество инструментов, включая получение структурированных данных, соскабливание любой страницы в чистый маркдаун и выполнение запросов к поисковым системам. Это делает интеграцию Dify + Bright Data адаптируемой для нескольких вариантов использования.

Интеграция Dify с Bright Data для обобщения информации о продуктах: Пошаговое руководство

Пора пройти пошаговое руководство, чтобы узнать, как использовать интеграцию между Dify и Bright Data.

Цель рабочего процесса, который вы будете создавать, – предоставить продукт Amazon в качестве входных данных и получить его резюме. Продукт, который вы будете использовать, – это Apple AirTag от Amazon:

Для достижения цели AI scraping вы построите четырехэтапный рабочий процесс, соединив различные узлы. Каждый узел выполняет определенную работу:

Узел “Start” для определения входной переменной, которая представляет собой URL страницы товара Amazon.
Узел “Структурированные данные” возьмет этот URL-адрес и выскребет его содержимое, извлекая все структурированные данные со страницы Amazon.
Узел “LLM” для обработки полученных данных. Вы зададите ему определенный запрос на создание краткого описания продукта.
Узел “End” для представления обобщенного текста, созданного LLM.

Весь этот четырехэтапный процесс AI-скреппинга полностью визуален. Вы соедините эти узлы в простой поток, и вам не придется писать ни строчки кода.

Следуйте инструкциям, чтобы создать в Dify свой рабочий процесс ИИ для веб-скрапинга без кода на базе Bright Data!

Требования

Чтобы воспроизвести это руководство по интеграции Dify с Bright Data, вам понадобятся:

Учетная запись Dify (достаточно бесплатной учетной записи).
Ключ API Bright Data.

Если у вас их еще нет, воспользуйтесь приведенными выше ссылками и следуйте инструкциям, чтобы все настроить.

Пререквизиты

Чтобы использовать узел LLM, сначала необходимо настроить интеграцию LLM в Dify. Для этого нажмите на изображение своего профиля и выберите опцию “Настройки”:

Вы будете перенаправлены на страницу, позволяющую выбрать модель (вкладка “Model Provider”). Например, вы можете установить плагин-провайдер OpenAI:

Очень хорошо! Теперь вы готовы приступить к работе с веб-скраппингом в Dify.

Шаг № 1: Загрузите плагин Bright Data и интегрируйте его

Загрузите последнюю версию пакета плагинов Bright Data из официального репозитория Dify. Затем нажмите кнопку “PLUGINS” и выберите опцию “Install from Local Package File”:

Загрузка последней версии плагина Bright Data для Dify

Выберите локальный файл, который вы загрузили ранее, и нажмите кнопку “Установить”:

Установка последней версии плагина Bright Data для Dify

Отлично! Пакет интеграции Bright Data теперь загружен и установлен на Dify.

Шаг № 2: Создайте новое приложение Dify

На главной странице рабочей области Dify создайте новое приложение с нуля, выбрав “Создать из пустого места”, как показано ниже:

Затем выберите тип “Рабочий процесс” и нажмите кнопку “Создать”:

Ниже показано, как будет выглядеть новый, пустой рабочий процесс:

Потрясающе! Вы только что создали новый рабочий процесс Dify. Пора добавить необходимые узлы для веб-скреппинга.

Шаг № 3: Настройка узлов для веб-скрапинга

Теперь вы можете добавить узлы в рабочий процесс и задать необходимые параметры для рабочего процесса Dify web scraping через Bright Data.

Начните с нажатия на узел “Start”, затем на “INPUT FIELD”:

Выберите в качестве типа “Параграф” и дайте имя полю “Имя переменной”. Например, product_url. Измените значение “Максимальная длина”, чтобы оно было не менее 200. Это представляет собой URL-адрес целевой страницы для сканирования. Вам нужно будет передать его на вход, чтобы запустить рабочий процесс.

Подтвердите нажатием кнопки “Сохранить”:

Отлично! Узел “Старт” настроен правильно.

Продолжите, нажав на “+” в узле “Пуск”. Выберите “Инструменты” > “Bright Data Web Scraper” > “Структурированные потоки данных”:

Добавление веб-скребка Bright Data в рабочий процесс

Узел Bright Data служит мостом, соединяющим ваш рабочий процесс Dify с инфраструктурой [Bright Data AI](
/ai). Он дает вашему агенту искусственного интеллекта возможность соскребать необходимую информацию из Интернета.

Выбрав инструмент “Структурированные потоки данных”, вы превратите беспорядочную страницу товара Amazon в структурированный JSON-вывод с предсказуемыми полями данных.

Теперь нажмите на кнопку “Авторизация”, чтобы ввести свой API-токен Bright Data:

Выберите product_url в качестве входной переменной. Таким образом, узел “Начало” будет передавать фактическое значение URL-адреса продукта в качестве входной переменной узла “Яркие данные”.

Для этого введите “/” в поле “Целевой URL”, и вам будет показан список доступных переменных. Также добавьте описание в поле “Описание запроса данных”:

Очень хорошо! Узел Bright Data настроен. Вы можете перейти к следующему узлу.

Нажмите на “+” и добавьте узел LLM:

В разделе “MODEL” выберите “Configure model” и выберите модель LLM из списка:

В разделе “SYSTEM” добавьте подсказку, например:

You are an expert e-commerce analyst. Based on the following structured data from an Amazon product page, write a concise and helpful summary for a potential buyer.

Include the following:
- Product name.
- A one-sentence summary.
- 3-5 key features in a bulleted list.
- The overall star rating and number of reviews.
- A brief concluding sentence about who this product is for.

Data:
{{Structure_Data_Feeds.text}}

Эта подсказка предлагает LLM выступить в роли аналитика электронной коммерции и создать краткое описание отсканированного продукта. В нем также содержится просьба указать конкретные детали, например название продукта и его ключевые характеристики. Обратите внимание, что в конце содержится текстовый результат, полученный с помощью узла плагина Bright Data.

Вот как будет выглядеть заполненный раздел:

В разделе подсказки “Данные” добавьте текст в качестве входной переменной. Это позволит LLM использовать содержимое, которое узел Bright Data извлек из целевого URL. Если вы нажмете на “/”, вы получите список доступных переменных, которые вы можете выбрать.

Отлично! Теперь вы можете добавить последний узел в рабочий процесс.

Выход рабочего процесса можно получить, добавив узел “End”:

Выходная переменная должна быть строкой, поступающей из узла LLM. Для этого щелкните на разделе “OUTPUT VARIABLE” и выберите “text” в разделе “LLM”:

Потрясающе! Ваш рабочий процесс правильно настроен. Теперь вы готовы к его запуску.

Шаг № 4: Запустите рабочий процесс

Ниже представлен рабочий процесс веб-скреппинга в Dify с помощью плагина Bright Data:

Как видите, он состоит всего из четырех узлов – как и предполагалось во введении к этой главе. Кроме того, для достижения цели вам не потребовалось написать ни строчки кода!

Чтобы запустить рабочий процесс, нажмите на кнопку “Запустить”. На этом этапе вам нужно добавить URL-адрес продукта Amazon в поле “product_url”. Затем нажмите “Start Run”, чтобы запустить рабочий процесс Dify для веб-скреппинга:

Результат будет доступен на вкладке “Результат”:

Ниже приведен результат в виде текста:

**Product Name:** Apple AirTag

Stay connected to your valuables with the Apple AirTag — a small, stylish tracker designed to help you locate personal items like keys, wallets, luggage, and even pets with ease using your iPhone or iPad.

**Key Features:**
- Seamless one-tap setup with iPhone or iPad via the Find My app.
- Precision Finding with Ultra Wideband technology (on compatible iPhone models) for accurate item location.
- Can be shared with up to 5 people, great for tracking shared items like keys or bags.
- Loud built-in speaker to help you locate your item or use voice commands with Siri.
- Water and dust resistant (IP67 rated) with a replaceable battery lasting over a year.

**Rating:** ⭐ 4.6 out of 5 stars, based on 32,227 customer reviews

This is an ideal purchase for Apple users who frequently misplace items or need a smart, subtle way to keep tabs on essentials — from travel gear to curious pets.

Как и просили, LLM сообщил то, о чем вы просили в подсказке:

Краткое описание продукта в одном предложении.
5 ключевых особенностей.
Рейтинг.
Заключительное предложение, рассказывающее о том, для кого предназначен этот продукт.

Если вы когда-нибудь пытались скреативить крупные сайты электронной коммерции, такие как Amazon, вы знаете, как это сложно:

Именно здесь интеграция с Bright Data сыграла решающую роль. Она справляется со всеми сложными мерами по борьбе со скрапингом за кулисами, обеспечивая, чтобы процесс получения данных работал как положено.

И вуаля! Вы успешно завершили свой первый проект по интеграции Dify с Bright Data.

Заключение

В этой статье вы узнали, как использовать Dify для создания рабочего процесса AI-скреппинга без кода. Это было бы невозможно без плагина Bright Data Dify. Как показано здесь, этот плагин открывает несколько продвинутых инструментов для веб-скрапинга в рамках рабочих процессов ИИ.

Одной из главных проблем при построении надежного рабочего процесса скраппинга для ваших агентов ИИ является доступ к высококачественным веб-данным. Для этого необходимы инструменты для получения, проверки и преобразования веб-контента, а это именно то, для чего создана инфраструктура ИИ Bright Data.

Создайте бесплатную учетную запись Bright Data и начните экспериментировать с нашими инструментами для работы с данными с искусственным интеллектом уже сегодня!

Свяжитесь с нами Пробная версия

Вас также может заинтересовать

Веб-данные

Amitesh Anand

Technical Writer

Блог / AI

Веб-скраппинг на основе искусственного интеллекта в Dify с помощью рабочего процесса без кода

3 мин. чтения

Federico Trotta

Technical Writer

В этом руководстве вы узнаете следующее:

Что такое Dify и зачем его использовать.
Причина, по которой вам следует интегрировать его с универсальным плагином для скраппинга.
Преимущества интеграции Dify с плагином для сбора данных Bright Data.
Пошаговое руководство по созданию рабочего процесса скрапинга в Dify.

Давайте погрузимся!

Dify: Сила низкокодовой разработки искусственного интеллекта

Визуальный конструктор рабочих процессов: Создавайте многоэтапные процессы искусственного интеллекта с помощью интерфейса drag-and-drop. Вы можете объединять различные модели, инструменты и логику, не увязая в шаблонном коде.
Агностичность моделей: Интеграция с широким спектром LLM, от проприетарных моделей, таких как серия GPT от OpenAI, до различных альтернатив с открытым исходным кодом. Это дает вам возможность выбрать наилучшую модель для вашего случая использования.
Backend-as-a-service (BaaS): Возьмите на себя все сложности, связанные с хостингом, масштабированием и управлением внутренней инфраструктурой. Это позволит вам сосредоточиться на использовании возможностей ИИ, а не на управлении базовой инфраструктурой.
Расширяемость: Легко расширяйте функциональность с помощью плагинов и пользовательских инструментов от сторонних поставщиков. Это делает Dify адаптируемым к широкому спектру вариантов использования.

Необходимость специализированного плагина для скрапинга в Dify

В деталях плагин Bright Data предоставляет такие инструменты:

Структурированные данные: Получение структурированных, упорядоченных данных с более чем 50 платформ, таких как страницы товаров электронной коммерции или объявления о продаже недвижимости.
Соскоб в формате markdown: Он удаляет рекламу, навигационные панели и другие несущественные элементы, предоставляя чистую, отформатированную в формате markdown версию текста.
Инструмент для работы с поисковыми системами: Выполняйте запросы непосредственно в поисковых системах, таких как Google, Bing, Yandex и многих других. Вы можете использовать его для мониторинга поисковых рейтингов по определенным ключевым словам, обнаружения контента конкурентов или в рабочих процессах SERP RAG.

Преимущества интеграции Dify с плагином Bright Data Plugin

Доступ к данным в режиме реального времени: Вместо того чтобы полагаться на устаревшие данные, ваш агент ИИ может запрашивать актуальную информацию в Интернете. Это гарантирует, что ваши приложения ИИ будут работать с самыми актуальными данными.
Автоматизируйте сложные исследования и анализ: Подавая данные непосредственно в LLM в рамках рабочего процесса Dify, вы можете автоматизировать задачи, которые в противном случае потребовали бы многочасовой ручной работы. Например, вы можете построить рабочий процесс RAG для мониторинга списка товаров конкурентов на сайте электронной коммерции.
Упрощение технических сложностей: Веб-скрейпинг – непростая задача, поскольку сайты используют сложные методы блокировки. Плагин Bright Data избавит вас от этих блокировок. При этом Dify предоставляет простой интерфейс для использования этой мощности.
Универсальность для различных вариантов использования: Плагин предоставляет вам множество инструментов, включая получение структурированных данных, соскабливание любой страницы в чистый маркдаун и выполнение запросов к поисковым системам. Это делает интеграцию Dify + Bright Data адаптируемой для нескольких вариантов использования.

Интеграция Dify с Bright Data для обобщения информации о продуктах: Пошаговое руководство

Пора пройти пошаговое руководство, чтобы узнать, как использовать интеграцию между Dify и Bright Data.

Узел “Start” для определения входной переменной, которая представляет собой URL страницы товара Amazon.
Узел “Структурированные данные” возьмет этот URL-адрес и выскребет его содержимое, извлекая все структурированные данные со страницы Amazon.
Узел “LLM” для обработки полученных данных. Вы зададите ему определенный запрос на создание краткого описания продукта.
Узел “End” для представления обобщенного текста, созданного LLM.

Следуйте инструкциям, чтобы создать в Dify свой рабочий процесс ИИ для веб-скрапинга без кода на базе Bright Data!

Требования

Чтобы воспроизвести это руководство по интеграции Dify с Bright Data, вам понадобятся:

Учетная запись Dify (достаточно бесплатной учетной записи).
Ключ API Bright Data.

Если у вас их еще нет, воспользуйтесь приведенными выше ссылками и следуйте инструкциям, чтобы все настроить.

Пререквизиты

Очень хорошо! Теперь вы готовы приступить к работе с веб-скраппингом в Dify.

Шаг № 1: Загрузите плагин Bright Data и интегрируйте его

Выберите локальный файл, который вы загрузили ранее, и нажмите кнопку “Установить”:

Отлично! Пакет интеграции Bright Data теперь загружен и установлен на Dify.

Шаг № 2: Создайте новое приложение Dify

Затем выберите тип “Рабочий процесс” и нажмите кнопку “Создать”:

Ниже показано, как будет выглядеть новый, пустой рабочий процесс:

Шаг № 3: Настройка узлов для веб-скрапинга

Начните с нажатия на узел “Start”, затем на “INPUT FIELD”:

Подтвердите нажатием кнопки “Сохранить”:

Отлично! Узел “Старт” настроен правильно.

Теперь нажмите на кнопку “Авторизация”, чтобы ввести свой API-токен Bright Data:

Очень хорошо! Узел Bright Data настроен. Вы можете перейти к следующему узлу.

Нажмите на “+” и добавьте узел LLM:

В разделе “MODEL” выберите “Configure model” и выберите модель LLM из списка:

В разделе “SYSTEM” добавьте подсказку, например:

You are an expert e-commerce analyst. Based on the following structured data from an Amazon product page, write a concise and helpful summary for a potential buyer.

Include the following:
- Product name.
- A one-sentence summary.
- 3-5 key features in a bulleted list.
- The overall star rating and number of reviews.
- A brief concluding sentence about who this product is for.

Data:
{{Structure_Data_Feeds.text}}

Вот как будет выглядеть заполненный раздел:

Отлично! Теперь вы можете добавить последний узел в рабочий процесс.

Выход рабочего процесса можно получить, добавив узел “End”:

Потрясающе! Ваш рабочий процесс правильно настроен. Теперь вы готовы к его запуску.

Шаг № 4: Запустите рабочий процесс

Ниже представлен рабочий процесс веб-скреппинга в Dify с помощью плагина Bright Data:

Результат будет доступен на вкладке “Результат”:

Ниже приведен результат в виде текста:

**Product Name:** Apple AirTag

Stay connected to your valuables with the Apple AirTag — a small, stylish tracker designed to help you locate personal items like keys, wallets, luggage, and even pets with ease using your iPhone or iPad.

**Key Features:**
- Seamless one-tap setup with iPhone or iPad via the Find My app.
- Precision Finding with Ultra Wideband technology (on compatible iPhone models) for accurate item location.
- Can be shared with up to 5 people, great for tracking shared items like keys or bags.
- Loud built-in speaker to help you locate your item or use voice commands with Siri.
- Water and dust resistant (IP67 rated) with a replaceable battery lasting over a year.

**Rating:** ⭐ 4.6 out of 5 stars, based on 32,227 customer reviews

This is an ideal purchase for Apple users who frequently misplace items or need a smart, subtle way to keep tabs on essentials — from travel gear to curious pets.

Как и просили, LLM сообщил то, о чем вы просили в подсказке:

Краткое описание продукта в одном предложении.
5 ключевых особенностей.
Рейтинг.
Заключительное предложение, рассказывающее, для кого предназначен этот продукт.

Если вы когда-нибудь пытались скрафтить крупные сайты электронной коммерции, такие как Amazon, вы знаете, как это сложно:

Именно здесь интеграция с Bright Data сыграла решающую роль. Она справилась со всеми сложными мерами по борьбе со скрапингом за кулисами, обеспечив, чтобы процесс получения данных работал как положено.

И вуаля! Вы успешно завершили свой первый проект по интеграции Dify с Bright Data.