Google Картинки — один из самых сложных сайтов для парсинга в Интернете. Он явно не блокирует парсеры, но на самом деле заставляет вас постараться, чтобы извлечь данные… Вы это действительно должно быть очень нужно!
От динамических селекторов CSS до кодировки Base64 парсинг Google Картинок гораздо больше похож на решение головоломки, чем на парсинг обычного HTML.
Предварительные условия
Чтобы работать с Google Картинками вместе с нами, вы должны иметь базовые знания о Python и Selenium. Вам нужно убедиться, что у вас установлен Selenium. Мы предлагаем вам при необходимости узнать больше о парсинге веб-страниц с помощью Python и Selenium.
Сначала убедитесь, что у вас установлены ChromeDriver и Chrome. Последнюю версию можно скачать здесь.
При загрузке ChromeDriver убедитесь, что вы получаете версию, соответствующую вашей версии Chrome.
Вы можете проверить версию Chrome с помощью следующей команды.
google-chrome --version
Результат должен быть таким же, как показано ниже.
Google Chrome 131.0.6778.139
Получив их, вы можете установить Selenium с помощью pip
.
pip install selenium
Что парсить
Мы не можем просто сразу же перейти к программированию. Нам нужно лучше понять, что мы собираем и как его извлекать. Как мы уже говорили ранее, парсинг Google Картинок похож на решение головоломки.
Давайте рассмотрим одно из изображений от Google. На самом деле это изображение встроено в специальный HTML-тег под названием g-img
. Нам нужно найти все эти элементы g-img
.
Как только мы найдем все теги g-img
, нам нужно извлечь их элементы img
. Один из них вы можете увидеть ниже.
Если вы внимательно рассмотрели img
, вы, должно быть, заметили нечто очень странное. src
представляет собой причудливую строку из, казалось бы, случайных символов.

В начале этой строки содержится ключ ко всему: data:image/jpeg; base64,
. jpeg
говорит нам, что это файл JPEG. base64
сообщает нам, что он закодирован с использованием Base64. Когда мы декодируем эту строку, мы фактически получаем двоичный код изображения. На самом деле мы не можем отследить истинный источник изображения, поскольку его двоичный код на самом деле находится внутри веб-страницы. Однако мы можем записать этот двоичный код в файл и воссоздать образ.
Парсинг Google Картинок с помощью Python
Теперь, когда мы знаем, чего хотим, пришло время начать программировать наш парсер. В следующих нескольких разделах мы соберем скрепер и рассмотрим, что именно делает код.
С чего начать
Создайте новый файл Python. Мы начнем только с нашего базового импорта и структуры.
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path
options = webdriver.ChromeOptions()
"""
Our actual scraping logic will go here
"""
if __name__ == "__main__":
scrape_images("linux penguin", 100)
- Мы импортируем
webdriver
иBy
из Selenium.webdriver
используется для управления нашим браузером.By
используется для поиска элементов на странице. - Мы используем
sleep
, чтобы приостановить работу парсера на некоторое время. Например, если мы хотим, чтобы парсер подождал одну секунду, мы используемsleep(1)
. - Как вы уже догадались,
base64
будет декодировать двоичные файлы наших изображений. Путь
будет использоваться для записи изображений в папку с результатами.options = webdriver.ChromeOptions()
позволяет нам использовать собственные настройки в Selenium. В первую очередь это запуск Selenium в headless-режиме. Этот режим позволяет нам запускать парсер без отображения реального браузера на компьютере. Это экономит ценные ресурсы.
Парсинг Google Картинок
Далее мы напишем нашу функцию парсинга. В приведенном ниже коде содержится весь наш парсер. Обратите особое внимание на scrape_images()
.
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path
options = webdriver.ChromeOptions()
def scrape_images(keyword, batch_size, headless=True):
if headless:
options.add_argument("--headless")
formatted_keyword = keyword.replace(" ", "+")
folder_name = keyword.replace(" ", "-")
output_folder = Path(f"results-{folder_name}")
output_folder.mkdir(parents=True, exist_ok=True)
result_count = 0
driver = webdriver.Chrome(options=options)
driver.get(f"https://www.google.com/search?q={formatted_keyword}")
sleep(1)
list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
list_items[1].click()
while result_count < batch_size:
driver.execute_script("window.scrollBy(0, 300);")
sleep(1)
img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
for img_tag in img_tags:
src = img_tag.get_attribute("src")
if not src or not src.startswith("data:image/"):
continue
base64_binary = src.split("base64,")[-1]
mime_type = src.split(";")[0].split(":")[1]
file_extension = mime_type.split("/")[-1]
if file_extension == "gif":
continue
alt_text = img_tag.get_attribute("alt") or "image"
filename = f"{alt_text}-{result_count}.{file_extension}"
image_binary = base64.b64decode(base64_binary)
output_path = output_folder.joinpath(filename)
with open(output_path, "wb") as file:
file.write(image_binary)
result_count+=1
print(f"Saved: {filename}")
driver.quit()
if __name__ == "__main__":
scrape_images("linux penguin", 100)
- Мы задали по умолчанию значение
True
дляheadless
. Если пользователь задаст значениеFalse
, запустится настоящий браузер, который вы увидите на экране. Это полезно для целей отладки. - Мы создаем
formatted_keyword
иfolder_name
, удалив пробелы из нашего фактическогоключевого слова
. Это позволяет нам сохранять файлы без проблем. - Мы запускаем наш браузер с помощью
WebDriver.Chrome(options=options)
. driver.get(f"https://www.google.com/search?q={formatted_keyword}")
приводит нас к результатам поиска Google поключевому слову
.- Теперь нам нужно нажать на вкладку изображений. Для этого мы находим все элементы
div
с рольюlistitem
.list_items [1].click()
нажимает на второй элемент, вкладку изображений. - Мы используем цикл
while
, чтобы снова и снова запускать код парсинга, пока не найдем все нужные изображения. driver.execute_script("window.scrollby (0, 300);")
запускает JavaScript для прокрутки страницы вниз на 300 пикселей. После прокрутки мы активируемsleep()
на одну секунду, пока содержимое загружается.driver.find_elements(By.CSS_SELECTOR, "g-img > img")
используется для поиска всех теговimg
, которые вложены вg-img
.- Далее мы переходим к найденным элементам
img
. - Если
img
не начинается сdata:image/
, мы используемcontinue
, чтобы пропустить его. В противном случае мы извлекаем его атрибутsrc
. - Мы используем базовое разделение строк для извлечения закодированного двоичного файла и расширения файла (JPEG, PNG и т. д.). Если расширение представляет собой GIF, мы его пропускаем. По какой-то причине GIF-файлы не отображаются при записи в файл.
base64.b64decode (base64_binary)
декодирует наше изображение в реальный машиночитаемый двоичный файл.
Если вы запустите код, в папке проекта появится новая папка. Оно должно быть заполнено изображениями.
Рассмотрите возможность использования Bright Data
Наш API SERP анализирует изображения Google, поэтому вам не нужно этого делать. Он даже находит метаданные изображения, поэтому наши изображения будут иметь реальные имена. Конечно, API полностью масштабируется и может обрабатывать огромное количество запросов.
Сначала зарегистрируйтесь в нашем SERP API.
Когда будете готовы, завершите создание зоны.
В разделе «Сведения о доступе» вы увидите свои учетные данные.
Скопируйте и вставьте приведенный ниже код в файл Python. Замените учетные данные в proxy_auth
своими собственными, и все готово.
import requests
import base64
from pathlib import Path
import json
proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"
def scrape_images(keyword):
formatted_keyword = keyword.replace(" ", "+")
folder_name = keyword.replace(" ", "-")
output_folder = Path(f"serp-results-{folder_name}")
output_folder.mkdir(parents=True, exist_ok=True)
url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"
response = requests.get(
url,
proxies={"http": proxy_url, "https": proxy_url},
verify=False
)
images = response.json()["images"]
result_count = 0
for image in images:
image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
title = image["title"].replace(" ", "-").replace("/", "").strip(".")
file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
if file_extension == "gif":
continue
filename = f"{title}.{file_extension}"
with open(output_folder.joinpath(filename), "wb") as file:
file.write(image_binary)
print(f"Saved: {filename}")
if __name__ == "__main__":
scrape_images("linux penguin")
Если вы запустите код, вы снова получите кучу изображений, но на этот раз у всех будут имена.
Заключение
В заключение, извлечение изображений из Google похоже на попытку решить головоломку без всех кусочков. Наш API Google Картинок находит метаданные и устраняет необходимость в Selenium!
Если вам нужно собрать изображения из других источников, у нас также есть API изображений Instagram, парсер Shutterstock и различные структурированные наборы данных. Зарегистрируйтесь сейчас и найдите идеальный продукт, соответствующий вашим потребностям, включая бесплатную пробную версию!
Кредитная карта не требуется