Как обойти капчи с помощью Python

Изучите лучшие методы и инструменты обхода капч в Python и узнайте, как автоматизировать решение капч.
2 min read
How to bypass CAPTCHAs with Python

Из этого руководства вы узнаете:

  • Что такое капчи
  • Можно ли их автоматизировать на Python
  • На что следует обратить внимание при оценке решений Python для обхода капч
  • 5 лучших методов обхода капч в Python
  • Лучшие средства решения капч в Python

Давайте рассмотрим их подробнее!

Капчи: определение и типы

Слово «Капча» является транслитерацией английской аббревиатуры CAPTCHA, полученной из фразы Completely Automated Public Turing test to tell Computers and Humans Apart («Полностью автоматизированный публичный тест Тьюринга, позволяющий отличить компьютеры от людей»). Следовательно, капча — это задача, встроенная в веб-страницу, приложение или программное обеспечение и позволяющая отличить пользователей-людей от ботов. Обычно это задачи, которые легко решить людям, но трудно автоматизированному программному обеспечению. 

Цель капчи — предотвратить доступ автоматизированных систем к веб-сайтам или службам или взаимодействие с ними. Поддержание эффективности капч становится все более сложной задачей, особенно с учетом последних достижений в области искусственного интеллекта и нейронных сетей. Это усложнило борьбу с ботами. 

Теперь давайте рассмотрим самые популярные типы капч, используемых в настоящее время.

Текстовые капчи

Текстовые капчи — самая традиционная форма капчи. Они представляют собой искаженную строку символов и цифр, которую пользователи должны правильно идентифицировать и ввести. Проблема автоматических ботов заключается в том, что им часто трудно распознать искаженный или скрытый текст.

Эти типы капч легко разгадываются ботами с помощью современных технологий, и поэтому такие капчи стали менее популярными.

Капчи-изображения

Капчи-изображений требуют от пользователей идентифицировать определенные объекты или узоры в серии изображений. В большинстве случаев пользователям отображаются изображения в сетке, и они должны нажать на все изображения, содержащие определенный объект, например светофоры, велосипеды, автобусы или мотоциклы.

Популярным поставщиком этих капч является reCAPTCHA.

Звуковые капчи

Звуковые капчи обычно доступны пользователям, у которых могут возникнуть трудности с решением визуальных капч. Эти капчи представляют собой аудиоклип с искаженной речью, который пользователь должен прослушать и правильно расшифровать.

Капчи-головоломки

Капчи-головоломки предлагают пользователям решить простую головоломку, чтобы доказать, что они люди. Типы этих головоломок могут варьироваться от головоломок-картинок до логических задач. Например, пользователям может быть предложено перетащить изображение в правильное положение или поставить точку в конце визуального пути.

пример-капчи-головоломки

Известными поставщиками таких креативных капч являются AWS WAF CAPTCHA и hCaptcha.

Можно ли автоматизировать капчи с помощью Python?

Капчи специально разработаны так, чтобы их решение было сложно автоматизировать, и в Python нет простой возможности их решения. Однако вы можете попытаться автоматизировать решение капч, используя один или оба из следующих двух подходов:

  • Избежание отображения капчи: имитируйте поведение человека в контролируемом браузере с помощью реального цифрового отпечатка, чтобы не привлечь внимание антиботов и снизить вероятность появления капчи.
  • Доверьтесь сервисам решения капчи: передайте решение капч на аутсорсинг онлайн-сервисам премиум-класса, использующим искусственный интеллект, передовые инструменты автоматизации и/или людей для решения проблем, связанных с капчами.

Какой инструмент вам нужен для использования этих двух методов? Средство решения и/или обхода капч на Python!

Аспекты, которые следует учитывать при оценке решений Python для обхода капч

Вот основные моменты, которые следует учитывать при сравнении лучших на рынке сервисов Python для обхода капч:

  • Возможности: функции и функционал, предоставляемые решением.
  • Сущность: является ли инструмент бесплатным или платным.
  • Время безотказной работы: процент доступности, гарантированный поставщиком.
  • Коэффициент успеха: способность решать задачи капчи, выраженная в процентах.
  • Стратегия обхода капчи: позволяет ли решение избегать капчи, решать их или и то, и другое.
  • Поддерживаемые поставщики капч: список всех поставщиков капч, с которыми может работать сервис.
  • Оценка на Trustpilot: средняя оценка по отзывам, оставленным пользователями на Trustpilot.
  • Цена: стоимость средства решения капч.

Обход капчи в Python: 5 лучших подходов

Пора ознакомиться со списком 5 лучших решений для обхода капч в Python, отобранных и ранжированных по указанным выше критериям!

1. CAPTCHA Solver от Web Unlocker

Страница CAPTCHA Solver от Bright Data

CAPTCHA Solver — это решение от Bright Data, позволяющее легко обходить капчи длинного списка поставщиков. Этот инструмент имитирует человеческое поведение и цифровые отпечатки браузера, чтобы обойти капчи, и использует алгоритмы на базе искусственного интеллекта для их решения.

CAPTCHA Solver является частью Web Unlocker, универсального API для разблокировки веб-страниц со следующими функциями:

  • Ротация IP-адресов: динамическое изменение IP-адресов во избежание обнаружения и блокировки.
  • Автоматические повторные попытки: обеспечивает успешные результаты, повторяя запросы несколько раз.
  • JavaScript-рендеринг: обработка динамических сайтов с использованием JavaScript для извлечения данных.
  • Глобальный охват: доступ к локализованному контенту из любого географического местоположения.
  • Высокая масштабируемость: поддержка крупномасштабных операций по парсингу данных.
  • Реферальные заголовки: симуляция трафика с надежных сайтов, задавая реальные реферальные заголовки.
  • Обработка файлов сookie: управление файлами cookie с целью предотвратить блокировку из-за связанных с ними факторов.

При использовании Web Unlocker с CAPTCHA Solver в качестве API, к нему можно получить доступ из любого браузера или HTTP-клиента на любом языке программирования, включая Python. Узнайте, как обходить капчи с помощью Web Unlocker.

Эти возможности делают CAPTCHA Solver лучшим решением для обхода капч в Python. Вы можете попробовать его бесплатно или приобрести один из доступных планов по цене от 3 $ за минуту (0,003 $ за вызов API). Обратите внимание, что с вас взимается плата только за успешные запросы, и почти все это благодаря впечатляющему коэффициенту успеха в 99%.

Благодаря этим решениям Bright Data обеспечивает эффективные и этичные методы для веб-парсинга без перерывов и ограничений.

  • Возможности: решение капч, обход защиты от ботов, управление цифровыми отпечатками браузера, ротация IP-адресов с помощью интеграции с прокси-серверами, автоматический повтор запросов, автоматическая ротация пользовательских агентов, обработка файлов cookie, автоматическая настройка заголовков рефералов, геоохват по всему миру, рендеринг JavaScript, проверка целостности данных и многое другое
  • Сущность: премиум-API для облачной веб-разблокировки, который интегрируется с любым HTTP-клиентом на любом языке программирования
  • Время безотказной работы: 99,9%.
  • Показатель успешности: 99,9%.
  • Стратегия обхода капч: предотвращение отображения капч с помощью эмуляции пользователя и управления отпечатками пальцев + решение капчи
  • Поддерживаемые поставщики капч: reCAPTCHA, Click Captcha, hCaptcha, PerimeterX, SimpleCaptcha, FunCaptcha, Cloudflare Turnstile, AWS WAF Captcha, GeeTest CAPTCHA, KeyCAPTCHA, Puzzle Captcha, Yandex Captcha, Image Captcha, Text Captcha и многие другие.
  • Оценка на Trustpilot: 4,5/5.
  • Цена: доступна бесплатная пробная версия, затем 3 $ за тысячу.

2. Playwright Extra с плагином Stealth

Плагин Stealth для Playwright

Playwright Extra поддерживает плагины и является специальной версией Playwright — популярного инструмента для автоматизации браузера и веб-парсинга. В частности, playwright-stealth — это плагин Python для Playwright Extra, который делает автоматизированные браузеры менее заметными для механизмов защиты от ботов. 

Созданный на основе плагина Puppeteer Extra Stealth, Playwright Stealth переопределяет некоторые настройки браузера, чтобы сделать его более оригинальным. Конечная цель — избежать отображения капч и обойти другие меры по борьбе с ботами. Ознакомьтесь с нашим руководством о том, как избежать обнаружения ботов с помощью Playwright Stealth.

Прочтите наше руководство о том, как обойти капчи с помощью Playwright

  • Возможности: полный API автоматизации браузера, поддержка JavaScript и Python, обход защиты от ботов, API тестирования E2E, поддержка плагинов, возможности отладки и многое другое.
  • Сущность: открытый исходный код.
  • Время безотказной работы: не применимо.
  • Коэффициент успеха: неизвестен.
  • Стратегия обхода капч: предотвращение появления капч с помощью эмуляции пользователя и настройки цифровых отпечатков, похожих на отпечатки действий реального человека.
  • Поддерживаемые поставщики капч: базовые капчи анти-ботов.
  • Оценка на Trustpilot: не применимо.
  • Цена: бесплатно.

3. AntiCaptcha

Изображение сервиса AntiCaptcha

AntiCaptcha — известный сервис обхода капч, работающий с 2007 года. Он предлагает широкий спектр услуг по разгадке капчи, доступных через оконечные устройства Интернета. Поставщик предлагает надежный API, удобную интеграцию плагинов для браузера и поддержку таких инструментов автоматизации, как Selenium и Puppeteer.

Все капчи решаются людьми, а интеграция на нескольких языках программирования доступна в официальных библиотеках. В частности, python-anticaptcha является решением AntiCaptcha для Python. Обратите внимание, что последний выпуск библиотеки вышел в 2022 году, бесплатная пробная версия недоступна, а коэффициент успеха не раскрывается.

  • Возможности: решение капчи, браузерный плагин для автоматического решения капчи, API для получения полезной статистики и отчетов. 
  • Сущность: премиум-API для обхода капч для PHP, Python, Java, C#, JavaScript, Go, Ruby.
  • Время безотказной работы: 99,99%.
  • Показатель успешности: не сообщается.
  • Стратегия обхода капч: разгадка капч с помощью сотрудников.
  • Поддерживаемые поставщики капч: универсальная капча-изображение, reCAPTCHA v2, reCAPTCHA v3, reCAPTCHA Enterprise v2/v3, hCaptcha, GeeTest, Arkose Labs, Cloudflare Turnstile
  • Оценка на Trustpilot: 4,8/5.
  • Цена: от 0,50 $ до 2 $ за тысячу.

4. Selenium с библиотекой Stealth

Stealth-библиотека для Selenium

Selenium — мощный инструмент автоматизации браузера, широко используемый для тестирования и веб-парсинга. Он предоставляет последовательный и полный API для автоматизации браузеров и имитации поведения пользователей. Однако технологии защиты от ботов часто обнаруживают Selenium из-за особенностей настройки браузеров.

selenium-stealth — это пакет Python, специально разработанный для того, чтобы сделать Selenium более скрытным. Библиотека настраивает Chrome таким образом, чтобы избежать большинства случаев обнаружения, что обеспечивает более плавную автоматизацию и более высокие показатели успеха при выполнении нескольких задач автоматизации. Одним из распространенных вариантов использования Selenium Stealth является обход капч в Python.

Узнайте больше в нашем руководстве о том, как обходить капчи с помощью Selenium в Python.

  • Возможности: полный API автоматизации браузера, обход защиты от ботов, API тестирования E2E и многое другое
  • Сущность: открытый исходный код.
  • Время безотказной работы: не применимо.
  • Коэффициент успеха: неизвестен.
  • Стратегия обхода капч: предотвращение появления капч с помощью эмуляции пользователя и настройки цифровых отпечатков, похожих на отпечатки действий реального человека.
  • Поддерживаемые поставщики капч: базовые капчи анти-ботов.
  • Оценка на Trustpilot: не применимо.
  • Цена: бесплатно.

5. 2Captcha

Изображение сервиса 2Captcha

2Captcha — это сервис разгадывания капч с помощью людей, предназначенный для автоматизации обхода капч. Он решает широкий спектр задач и работает путем передачи капч сотрудникам, которые решают их в режиме реального времени. 

2Captcha предлагает интеграцию API с официальными библиотеками для различных языков программирования. В частности, пакет 2Captcha для обхода капч Python имеет вид 2captcha-python.

Обратите внимание, что поставщик не предлагает бесплатного тестирования или пробного периода. Таким образом, если вы хотите протестировать его услуги, вам нужно сразу заплатить не менее 1 $. Кроме того, на Trustpilot есть несколько тревожных отзывов, а процент успеха и время безотказной работы не раскрываются.

  • Возможности: решение капч.
  • Сущность: премиум-API для обхода капч для Python, PHP, Java, C++, C#, Go и Ruby.
  • Время безотказной работы: не сообщается.
  • Показатель успешности: не сообщается.
  • Стратегия обхода капч: разгадывание капч с помощью сотрудников.
  • Поддерживаемые поставщики капч: обычная капча, обычная текстовая капча, обычная капча с кликом, обычная капча с поворотом, обратный вызов reCAPTCHA V2, KeyCAPTCHA, reCAPTCHA V2 Invisible, капча-головломка Capy, Cloudflare Turnstile, капча Amazon, звуковая капча, MTCaptcha, DataDome CAPTCHA, CyberSiARA CAPTCHA, Cutcaptcha, Friendly Captcha, русская капча, китайская капча, цифровая капча, математическая капча, капча-ползунок, капча Tencent и atbCAPTCHA.
  • Оценка на Trustpilot: 4,0/5.
  • Цена: от 0,50 $ до 50 $ за тысячу.

Лучшее средство решения капч на Python

В приведенной ниже сводной таблице представлены лучшие средства решения капч в Python:

Сервис Особенности Языки программирования Время безотказной работы Показатель успешности Уклонение от капчи Решение капчи Оценка по отзывам Бесплатная пробная версия Цена
CAPTCHA Solver от Bright Data Великое множество Любая 99.9% 99.9% ✔️ ✔️ 4,5 из 5 галочка 3 $ за тыс.
Playwright Stealth Множество Python, JavaScript Неизвестно ✔️ Бесплатно
AntiCaptcha Немногие Python, PHP, Java, C#, JavaScript, Go, Ruby 99.99% Не сообщается ✔️ 4,8 из 5 крестик От 0,50 $ до 2 $ за тыс.
Selenium Stealth Множество Python Неизвестно ✔️ Бесплатно
2Captcha Очень мало Python, PHP, Java, C++, C#, Go, Ruby Не сообщается Не сообщается ✔️ 4 из 5 крестик 0,50–50 $ за тыс.

Заключение

Из этой статьи вы узнали, почему капчи представляют собой проблему для автоматизированного программного обеспечения и возможна ли автоматизация решения капч в Python. Вы также ознакомились со списком лучших средств решения капч в Python.

Как указано выше, Web Unlocker — лучший API разблокировки для получения HTML-кода без капчи с любой веб-страницы. Этот API для парсинга обрабатывает цифровые отпечатки браузера, выполняет автоматические повторные попытки и интегрирует прокси-серверы для ротации исходных IP-адресов при каждом запросе, а также решает капчи вместо вас. Автоматизация решения капч в Python еще никогда не была такой простой!

Хотите полностью избавиться от хлопот? Посетите торговую площадку наборов данных и скачайте бесплатные образцы. Зарегистрируйтесь сейчас и начните бесплатное опробование уже сегодня.

Кредитная карта не требуется