Как парсить Google Картинки с помощью Python

Пошаговое руководство по парсингу Google Картинок с помощью Python и Selenium, от настройки до сохранения изображений.
10 min read
How to Scrape Google Images blog image

Google Картинки — один из самых сложных сайтов для парсинга в Интернете. Он явно не блокирует парсеры, но на самом деле заставляет вас постараться, чтобы извлечь данные… Вы это действительно должно быть очень нужно!

От динамических селекторов CSS до кодировки Base64 парсинг Google Картинок гораздо больше похож на решение головоломки, чем на парсинг обычного HTML.

Предварительные условия

Чтобы работать с Google Картинками вместе с нами, вы должны иметь базовые знания о Python и Selenium. Вам нужно убедиться, что у вас установлен Selenium. Мы предлагаем вам при необходимости узнать больше о парсинге веб-страниц с помощью Python и Selenium.

Сначала убедитесь, что у вас установлены ChromeDriver и Chrome. Последнюю версию можно скачать здесь.

При загрузке ChromeDriver убедитесь, что вы получаете версию, соответствующую вашей версии Chrome.

Вы можете проверить версию Chrome с помощью следующей команды.

google-chrome --version

Результат должен быть таким же, как показано ниже.

Google Chrome 131.0.6778.139 

Получив их, вы можете установить Selenium с помощью pip.

pip install selenium

Что парсить

Мы не можем просто сразу же перейти к программированию. Нам нужно лучше понять, что мы собираем и как его извлекать. Как мы уже говорили ранее, парсинг Google Картинок похож на решение головоломки.

Давайте рассмотрим одно из изображений от Google. На самом деле это изображение встроено в специальный HTML-тег под названием g-img. Нам нужно найти все эти элементы g-img.

Проверка изображения в Google Картинок

Как только мы найдем все теги g-img, нам нужно извлечь их элементы img. Один из них вы можете увидеть ниже.

Анализ элемента img

Если вы внимательно рассмотрели img, вы, должно быть, заметили нечто очень странное. src представляет собой причудливую строку из, казалось бы, случайных символов.



В начале этой строки содержится ключ ко всему: data:image/jpeg; base64,jpeg говорит нам, что это файл JPEG. base64 сообщает нам, что он закодирован с использованием Base64. Когда мы декодируем эту строку, мы фактически получаем двоичный код изображения. На самом деле мы не можем отследить истинный источник изображения, поскольку его двоичный код на самом деле находится внутри веб-страницы. Однако мы можем записать этот двоичный код в файл и воссоздать образ.

Парсинг Google Картинок с помощью Python

Теперь, когда мы знаем, чего хотим, пришло время начать программировать наш парсер. В следующих нескольких разделах мы соберем скрепер и рассмотрим, что именно делает код.

С чего начать

Создайте новый файл Python. Мы начнем только с нашего базового импорта и структуры.

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()

"""
Our actual scraping logic will go here
"""


if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Мы импортируем webdriver и By из Selenium. webdriver используется для управления нашим браузером. By используется для поиска элементов на странице.
  • Мы используем sleep , чтобы приостановить работу парсера на некоторое время. Например, если мы хотим, чтобы парсер подождал одну секунду, мы используем sleep(1).
  • Как вы уже догадались, base64 будет декодировать двоичные файлы наших изображений.
  • Путь будет использоваться для записи изображений в папку с результатами.
  • options = webdriver.ChromeOptions() позволяет нам использовать собственные настройки в Selenium. В первую очередь это запуск Selenium в headless-режиме. Этот режим позволяет нам запускать парсер без отображения реального браузера на компьютере. Это экономит ценные ресурсы.

Парсинг Google Картинок

Далее мы напишем нашу функцию парсинга. В приведенном ниже коде содержится весь наш парсер. Обратите особое внимание на scrape_images().

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()


def scrape_images(keyword, batch_size, headless=True):
    if headless:
        options.add_argument("--headless")

    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)

    result_count = 0

    driver = webdriver.Chrome(options=options)
    driver.get(f"https://www.google.com/search?q={formatted_keyword}")
    sleep(1)

    list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
    list_items[1].click()

    while result_count < batch_size:
        driver.execute_script("window.scrollBy(0, 300);")
        sleep(1)

        img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
        for img_tag in img_tags:
            src = img_tag.get_attribute("src")
            if not src or not src.startswith("data:image/"):
                continue

            base64_binary = src.split("base64,")[-1]
            mime_type = src.split(";")[0].split(":")[1]
            file_extension = mime_type.split("/")[-1]
            if file_extension == "gif":
                continue
            
            alt_text = img_tag.get_attribute("alt") or "image"
            filename = f"{alt_text}-{result_count}.{file_extension}"

            image_binary = base64.b64decode(base64_binary)
            output_path = output_folder.joinpath(filename)
            
            with open(output_path, "wb") as file:
                file.write(image_binary)
            result_count+=1
            print(f"Saved: {filename}")
            
    driver.quit()

if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Мы задали по умолчанию значение True  для  headless. Если пользователь задаст значение False, запустится настоящий браузер, который вы увидите на экране. Это полезно для целей отладки.
  • Мы создаем formatted_keyword и folder_name , удалив пробелы из нашего фактического ключевого слова. Это позволяет нам сохранять файлы без проблем.
  • Мы запускаем наш браузер с помощью WebDriver.Chrome(options=options).
  • driver.get(f"https://www.google.com/search?q={formatted_keyword}") приводит нас к результатам поиска Google по ключевому слову.
  • Теперь нам нужно нажать на вкладку изображений. Для этого мы находим все элементы div с ролью listitemlist_items [1].click() нажимает на второй элемент, вкладку изображений.
  • Мы используем цикл while , чтобы снова и снова запускать код парсинга, пока не найдем все нужные изображения.
  • driver.execute_script("window.scrollby (0, 300);") запускает JavaScript для прокрутки страницы вниз на 300 пикселей. После прокрутки мы активируем sleep() на одну секунду, пока содержимое загружается.
  • driver.find_elements(By.CSS_SELECTOR, "g-img > img") используется для поиска всех тегов img, которые вложены в g-img.
  • Далее мы переходим к найденным элементам img.
  • Если img не начинается с data:image/, мы используем continue , чтобы пропустить его. В противном случае мы извлекаем его атрибут src.
  • Мы используем базовое разделение строк для извлечения закодированного двоичного файла и расширения файла (JPEG, PNG и т. д.). Если расширение представляет собой GIF, мы его пропускаем. По какой-то причине GIF-файлы не отображаются при записи в файл.
  • base64.b64decode (base64_binary) декодирует наше изображение в реальный машиночитаемый двоичный файл.

Если вы запустите код, в папке проекта появится новая папка. Оно должно быть заполнено изображениями.

Папка результатов, полная файлов.png

Рассмотрите возможность использования Bright Data

Наш API SERP анализирует изображения Google, поэтому вам не нужно этого делать. Он даже находит метаданные изображения, поэтому наши изображения будут иметь реальные имена. Конечно, API полностью масштабируется и может обрабатывать огромное количество запросов.

Сначала зарегистрируйтесь в нашем SERP API.

Когда будете готовы, завершите создание зоны.

Завершение создания зоны

В разделе «Сведения о доступе» вы увидите свои учетные данные.

Ваши учетные данные SERP API

Скопируйте и вставьте приведенный ниже код в файл Python. Замените учетные данные в proxy_auth своими собственными, и все готово.

import requests
import base64
from pathlib import Path
import json

proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"


def scrape_images(keyword):
    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"serp-results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)
    url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"

    response = requests.get(
        url,
        proxies={"http": proxy_url, "https": proxy_url},
        verify=False
    )

    images = response.json()["images"]

    result_count = 0
    for image in images:    
        image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
        title = image["title"].replace(" ", "-").replace("/", "").strip(".")
        file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
        if file_extension == "gif":
            continue
        filename = f"{title}.{file_extension}"

        with open(output_folder.joinpath(filename), "wb") as file:
            file.write(image_binary)
            print(f"Saved: {filename}")

if __name__ == "__main__":
    scrape_images("linux penguin")

Если вы запустите код, вы снова получите кучу изображений, но на этот раз у всех будут имена.

Результаты изображения с использованием SERP API

Заключение

В заключение, извлечение изображений из Google похоже на попытку решить головоломку без всех кусочков. Наш API Google Картинок находит метаданные и устраняет необходимость в Selenium!

Если вам нужно собрать изображения из других источников, у нас также есть API изображений Instagram, парсер Shutterstock и различные структурированные наборы данных. Зарегистрируйтесь сейчас и найдите идеальный продукт, соответствующий вашим потребностям, включая бесплатную пробную версию!

Кредитная карта не требуется