Zero-Shot Learning: обучение ИИ без данных

Попробуйте поговорить с LLM о том, с чем он никогда не сталкивался. Сможет ли он догадаться? Это часто рассматривается как истинная проверка интеллекта. Когда модель использует умозаключения и обобщения для обучения без обучающих данных, это называется обучением с нулевым результатом.

Традиционно моделям ИИ требуются огромные наборы данных с помеченными примерами. Нулевое обучение предполагает, что модель может обучаться “на лету”, без обучающих данных. Zero-shot learning не является заменой стандартного обучения. Zero-shot используется для того, чтобы вывести предварительно обученные модели на новый уровень. Вы можете бросить ИИ в то, чего он никогда не видел, и он все равно будет работать хорошо.

Следуйте за ним и узнайте все тонкости обучения с нуля.

Где используется обучение Zero-Shot?

Вам когда-нибудь требовалось, чтобы кто-то посмотрел на вашу работу с другой стороны? Вот тут-то и приходит на помощь “нулевой выстрел”. При нулевом обучении модель ИИ получает данные, обрабатывает их и выдает свое мнение без какого-либо обучения. Это дает многообещающие результаты во всех видах промышленности. Когда вы просите ИИ обработать неизвестные данные и получаете результат, это и есть обучение с нулевым результатом в действии.

Здравоохранение: При диагностике редких или невиданных заболеваний модели используют нулевые снимки для диагностики редких и невиданных медицинских состояний. В таких ситуациях данные скудны или даже отсутствуют.
Фармацевтика: Модели могут анализировать ранее невидимые данные, чтобы предсказать эффективность соединений, которые еще не существуют.
Обработка естественного языка: Большие языковые модели (LLM) разговаривают с людьми без остановки каждый день. Когда появляется новый сленг или кто-то рассказывает о своих индивидуальных проблемах, модели используют нулевую скорость, чтобы делать выводы и обобщения, как это сделал бы обычный человек.
Компьютерное зрение и робототехника: Практически невозможно обучить модель на каждом изображении, которое может встретиться ей в реальном мире. Модели распознают новые изображения и решают, что с ними делать. Самодвижущийся автомобиль останавливается на перекрестке, которого никогда не видел. Пылесос Roomba видит вашу мебель и избегает ее.
Развлечения и творческие индустрии: Zero-shot позволяет моделям создавать уникальных игровых персонажей. DALL-E и подобные модели создают уникальные произведения искусства, которые никто никогда не видел раньше.

Нулевое обучение уже используется во всем мире. Чем больше будет внедряться ИИ, тем больше будет расти нулевое обучение.

Нулевой выстрел в сравнении с другими парадигмами

Приходилось ли вам работать на работе с ужасным руководством и отсутствием реального обучения? Если да, то вы использовали нулевое обучение. Обучение с нулевым результатом является частью более широкой парадигмы, называемой “n-выборочным” обучением. N – это количество помеченных примеров. Нулевое обучение подразумевает отсутствие предыдущего обучения. Традиционное машинное обучение использует гигантские наборы данных с помеченными примерами.

Одномоментное обучение: Модель обучается на данных, содержащих только один помеченный образец для каждого класса.
Обучение за несколько кадров: Модель обучается на небольшом количестве помеченных примеров.
Традиционное машинное обучение: При традиционном обучении модель тренируется на огромных наборах данных с помеченными примерами. Это противоположно нулевому обучению.
Обучение с нулевым результатом: Модель видит то, чего никогда не видела и чему ее раньше не учили. Ее просто бросают в смесь и ждут, что она сама разберется и научится.

Обучение с нуля сравнимо с обучением на лету в реальном мире. Ваш босс бросает вас на произвол судьбы и просто ждет, что вы разберетесь в ситуации.

Традиционное обучение с нулевым выстрелом (ZSL)

Ищете фонтан бесполезной информации для ответа на единственный практический вопрос? LLM может сделать это для вас. LLM – это классический пример обычной ZSL. Эти модели предварительно обучаются на большем количестве данных, чем вы или я можем себе представить. Вспомните всю Википедию, все социальные сети, которые компания сочтет нужными, тысячи книг – и многое, многое другое.

Когда вы формально обучаете ИИ, ему дается ряд занятий. Если мы хотим обучить ИИ лошадям, мы можем дать ему картинки и книги о лошадях. При этом мы создаем класс: “Лошадь”. Затем модель вырабатывает внутренние правила и обобщения для обработки информации, относящейся к классу лошадей.

После того как модель прошла соответствующее предварительное обучение, она может получать новые данные и создавать свои собственные классы. Если мы дадим нашей модели, обученной работе с лошадьми, изображение зебры, она сможет сделать вывод, что лошадь с полосками – это зебра. Несмотря на то что модель не обучалась на зебрах, она достаточно умна, чтобы создать новый внутренний класс Zebra и начать вырабатывать правила, как обращаться с зебрами.

Из-за больших требований к предварительному обучению ZSL обходится довольно дорого. Наша модель может понимать зебру, но для этого мы обучили ее на половине мира! Из-за предварительного обучения ZSL не очень эффективна. В следующий раз, когда вы спросите ChatGPT о чем-то бессмысленном, подумайте о том, через что пришлось пройти машине, чтобы ответить на ваш простой вопрос.

Обобщенное обучение с нулевым результатом (GZSL)

GZSL берет концепции из ZSL и упрощает их, чтобы сделать более эффективными. В GZSL мы используем хаос, чтобы упростить процесс обучения. Обобщенное обучение с нулевым результатом включает в процесс обучения множество неизвестных. Затем модель использует обобщения для создания внутренних классов и правил на основе этих неизвестных.

Вместо того чтобы предварительно обучать нашу модель на лошадях, почему бы не дать ей одну картинку с лошадьми и зеброй? Мы также можем снабдить ее небольшим текстом: “На картинке, которую я вам даю, есть несколько лошадей и зебра. Зебра – это лошадь с полосами”.

Модель может использовать это краткое описание и единственное изображение для создания класса лошадей и класса зебр.

Класс лошадей: Модель создаст класс лошадей и будет хранить данные о не полосатых лошадях на картинке.
Класс “Зебра”: Он создаст класс зебры, используя только наше краткое описание и полосатую лошадь с картинки.

Это значительно сокращает объем обучающих данных. Теперь мы обучили нашу модель распознавать несколько лошадей и зебру по одному изображению с текстом. Если наша средняя картинка занимает примерно 4 кб, то обучение на четырех лошадях даст нам минимальный набор данных в 16 кб. Когда мы добавляем немного хаоса и включаем всех животных в одну картинку, наш набор данных для обучения составляет всего 4 кб. С помощью GZSL мы предоставляем более компактные и качественные данные, что ускоряет процесс обучения и уменьшает размер модели.

Как работает обучение с нуля

Давайте препарируем мозг нашего гипотетического LLM, чтобы понять, что происходит на самом деле. Мы знаем, что модель получает входные данные. Затем она самостоятельно создает новые правила и классы. Давайте лучше поймем, как она это делает.

Ярлыки

Предварительное обучение – это что-то вроде школы. Модель учится основам обработки информации и “мышления”. Когда предварительное обучение завершено, модель узнала от нас всевозможные маркированные классы и правила. На этом этапе мы предоставляем модели классы и метки. К моменту окончания обучения она уже знает, как учиться. Нам не нужно продолжать кормить ее с ложечки, как мы делали это в самом начале.

Наша модель не ждет, пока мы предоставим ярлыки. Помните наш предыдущий пример с лошадью и зеброй? Модель создает классы и помечает их без нашей помощи. Это экономит наше драгоценное время на обучение и позволяет модели проявить некоторую самостоятельность.

Трансферное обучение

Модели делают выводы. Когда наша модель, обученная на лошади, узнает зебру, она перенесет многие (если не все) существующие правила из класса лошадей в новый класс зебр. Обучение передается от одной части модели к другой.

Представьте, что вы обучаете модель скрести данные об отелях из Google (научиться делать это вручную можно здесь). Затем вы учите ее скрести Booking.com (о том, как скрести его вручную, вы можете узнать здесь). Когда модель будет скрести Booking.com, она будет использовать свои знания об отелях Google, чтобы помочь ей скрести новые отели с Booking.com.

Рассуждения

В основе обучения с нуля лежит способность рассуждать. Когда вас бросили на ужасную работу без подготовки и опыта, как вы выжили? Скорее всего, вы решили это с помощью рассуждений и здравого смысла. Представьте, что мы даем нашему ИИ-малышу набор данных “Посмотри и скажи”. Мы зададим классы и правила для каждого класса. Подумайте: “Корова говорит “му”!”. Мы создадим класс “Корова” и напишем правило, согласно которому она говорит “му”.

Когда наш ИИ повзрослеет, нам не нужно будет этого делать. Наша модель видит фотографию курицы с плохими подписями вроде “кудахтанье” или “перья”. Используя эти простые подсказки, предварительно обученная модель понимает, что это курица. Затем она создает класс курицы с такими правилами, как “кудахтанье” и “перья”. Когда она рассуждает, наша модель использует здравый смысл и уличную смекалку для решения реальных проблем (независимо от того, насколько они связаны с фермой).

Предварительно обученные базовые модели

Наша модель вначале очень похожа на новорожденного ребенка. Она совершенно беспомощна и ничего не может сделать сама. Предварительное обучение – это то, как наша модель растет, чтобы думать самостоятельно. Прежде чем она сможет обучаться с помощью нулевого выстрела, модель должна “научиться учиться”.

Все люди делают это, когда растут. Сначала мы учимся кормить. Затем мы учимся есть твердую пищу и сидеть. Примерно в год мы учимся ходить и говорить. Вместо того чтобы учиться ходить, говорить и ходить на горшок, модели ИИ начинают с изучения таких базовых вещей, как математика и обработка языка. Затем они учатся воспринимать данные.

Как только модель научится обрабатывать данные, мы скормим ей все данные, которые сможем найти. Затем мы скармливаем ей еще больше данных! В конце концов она научится обращаться к своим внутренним классам. Как только модель научится читать и записывать классы, она начнет делать обобщения, которые со временем перерастут в рассуждения. При эффективном предварительном обучении модели могут использовать “нулевые кадры” для самостоятельного обучения.

Методы обучения с нулевым результатом

Со стороны обучение с нулевым результатом выглядит как волшебство. Но, как и любой другой фокус, это всего лишь иллюзия. Модели ИИ опираются на очень специфический набор навыков. Сырые данные берутся и преобразуются в реальные ответы, которые мы можем прочитать или прослушать. Давайте посмотрим, что происходит, прежде чем кролик будет вытащен из шляпы.

Атрибуты

Наша модель расшифровывает различных животных с помощью признаков, или атрибутов. Атрибуты так же просты, как и звучат. Когда наша модель смотрит на картинку с различными животными, она использует их признаки, чтобы понять, что это за животные.

Лошадь: “Ней”, 4 ноги, копыта.
Цыпленок: Клюв, 2 ноги, крылья.
Корова: Му, 4 ноги, копыта.

Атрибуты позволяют машине делать обоснованные предположения – точно так же, как это сделал бы человек.

Встраивания

Машины не воспринимают данные так, как мы с вами. Вместо этого они хранят числовые списки данных, называемые матрицами. Давайте представим, что мы хотим переписать атрибуты лошади, курицы и коровы в виде чисел.

Животные	Звук	Ноги	Характеристики
Лошадь	Neigh	4	Копыта
Курица	Клак	2	Крылья
Корова	Му	4	Копыта

Каждая строка этой таблицы может быть представлена в виде списка.

Лошадь: [клич, 4, копыта].
Цыплята: [кудахтанье, 2, крылья].
Корова: [Му, 4, копыта].

Однако приведенные выше списки пока не поддаются машинному чтению. Машины лучше всего понимают числа. Для звуков мы закодируем 1, 2 и 3, чтобы обозначить “neigh”, “cluck” и “moo”. Поскольку нас волнуют только два признака (копыта и крылья), 1 будет обозначать копыта, а 2 – крылья.

Вот как наша модель может увидеть эту информацию.

Лошадь: [1, 4, 1]
Цыпленок: [2, 2, 2]
Корова: [3, 4, 1]

Вкладывая в наши данные числа, модели ИИ могут эффективно обрабатывать их, чтобы обнаружить взаимосвязи и правила. Это является основой обобщения и способности к рассуждениям. Узнайте больше о вкраплениях в ML.

Генеративный

Модели изобретают новые классы из воздуха. Генеративные методы позволяют модели сделать вывод, увидев взаимосвязи во встроенных атрибутах. Когда наша модель идентифицирует зебру без обучения, это генеративный метод. Модель увидела, что это полосатая лошадь. Затем она сделала вывод, что полосатая лошадь – это зебра.

Если вы собираете данные об отеле, но у вас нет рейтинга, модель искусственного интеллекта может создать его на основе предоставленной информации. Модели ИИ используют свое воображение для создания новых данных. Модель может решить, что если в номере есть большая кровать и гидромассажная ванна, то он заслуживает 5 звезд. Это невероятно мощный инструмент, но он также может привести к галлюцинациям.

При использовании генеративных методов важно соблюдать осторожность. Прекрасно, если модель может присваивать рейтинги отелям. Если вы спросите свою модель: “Что последнее написал Конфуций в 2025 году?” Конфуций мертв уже тысячи лет, однако модели ИИ редко скажут вам “я не знаю”. Есть вероятность, что вы получите ответ, подобный приведенному ниже.

Приведенный выше вывод на самом деле скорее даосский, чем конфуцианский. Современные ИИ имеют довольно сильные средства защиты от галлюцинаций. На самом деле мне пришлось дать ChatGPT разрешение на галлюцинации! Если вы когда-нибудь захотите поэкспериментировать с воображением модели, скажите ей “полностью сойти с ума” и наблюдайте, как она впадает в полное безумие.

Контрастивное обучение

Как искусственный интеллект может отличить кошку от собаки без обучения? Ответ кроется в контрастном обучении. Ниже мы разделим собаку и кошку на атрибуты, как мы делали это ранее с другими животными.

Собака: Гав, 4 ноги, лапы
Кошка: мяу, 4 ноги, лапы

Животные, представленные выше, почти одинаковые, но не совсем. Эти животные издают контрастные звуки. Собака говорит “гав”, а кошка – “мяу”. Модель преобразует эти данные в числа. Затем она быстро находит разницу между двумя животными. Используя нулевую дробь, модели ИИ быстро фильтруют свои вложения в поисках контрастной информации.

Prompt Engineering

Оперативное проектирование – это искусство общения с искусственным интеллектом. Когда вы знаете, что сказать, вы можете заставить модель генерировать именно тот результат, который вам нужен. В предыдущей статье о веб-скреппинге с помощью Claude я использовал следующую подсказку.

"""Hello, please parse this chunk of the HTML page and convert it to JSON.  Make sure to strip newlines, remove escape characters, and whitespace:  {response.text}"""

Подсказка понятна, и модель точно знает, чего я от нее хочу. Она выдает список цитат со страницы. Вот только фрагмент.

"quotes": [
    {
      "text": "The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.",
      "author": "Albert Einstein",
      "tags": ["change", "deep-thoughts", "thinking", "world"]
    },
    {
      "text": "It is our choices, Harry, that show what we truly are, far more than our abilities.",
      "author": "J.K. Rowling",
      "tags": ["abilities", "choices"]
    },

Если бы я не указал формат данных, он, скорее всего, выдал бы мне все данные в формате обычного текста. Обычный текст хорош для удобства чтения, но если вы пишете программу, то JSON гораздо лучше для работы. Модель дает мне то, что я хочу, потому что я написал подсказку так, чтобы она выдавала именно то, что я хочу. Инженерия подсказок заставляет генеративный вывод быть фактическим и правильно отформатированным.

Проблемы и ограничения обучения с нуля

За обучение с нуля приходится платить. Как мы уже говорили, нулевое обучение оставляет место для галлюцинаций. Модели ИИ не любят говорить “я не знаю” или признавать, что они ошибаются.

Чтобы уберечься от галлюцинаций, мы в значительной степени полагаемся на предварительное обучение. Данные для обучения дорогостоящие и часто беспорядочные. Если вы собираете данные самостоятельно, вам потребуется создать конвейер ETL. ETL расшифровывается как “Extract, Transfer, Load”. При больших масштабах ETL – это не прогулка по парку. Вам нужно собрать терабайт за терабайтом соответствующих данных. Затем их нужно очистить и отформатировать (перенести). И наконец, загрузить их в модель. Узнайте больше о подводных камнях в искусственном интеллекте.

В Bright Data мы предлагаем чистые, предварительно подготовленные наборы данных. Они могут поднять ваше предварительное обучение на новый уровень и сэкономить вам часы (даже дни) на извлечение, очистку и форматирование. Взгляните на наши структурированные наборы данных.

Заключение

Обучение с нулевым результатом революционизирует ИИ, позволяя моделям обрабатывать новую информацию без предварительной подготовки. С ростом внедрения ИИ эта техника станет еще более необходимой в различных отраслях.

Готовы обеспечить свой ИИ высококачественными данными? Начните бесплатную пробную версию Bright Data и получите доступ к первоклассным наборам данных уже сегодня!

Свяжитесь с нами Пробная версия