Вначале расскажу, что такое искусственный интеллект. Все про него слышали – «компьютер научился мыслить, и теперь ему можно задавать любые вопросы». На самом деле все, как всегда, немного сложнее. Нам понадобится немного технических подробностей, чтобы понять, почему ИИ – не замена человеческому интеллекту.
Начнем с определения ключевых терминов:
Искусственный интеллект – это отрасль (науки, деятельности, человеческого знания), которая занимается разработкой компьютерных систем для выполнения человеческих задач.
В рамках отрасли искусственного интеллекта выделяется направление машинного обучения: это методы решения задач, предполагающие не прямое решение задачи (по запрограммированному алгоритму), а посредством обучения. Для обучения составляют набор данных (датасет), включающий решения множества задач, подобных решаемой, и прогоняют его через определенный алгоритм машинного обучения.
Результатом машинного обучения становится математическая модель, решающая задачи, на которых она была обучена. На практике используются разные архитектуры математических моделей: одна из самых популярных архитектур называется нейронной сетью. Эта архитектура используется и в сервисах вроде ChatGPT, и в системах генерации изображений.
Как работает архитектура нейронных сетей? Обучая модель с помощью специального алгоритма, мы получаем набор параметров, структурно схожий с системой нейронных связей в человеческом мозгу. Модели, построенные по этому принципу, позволили осуществить прорыв в решении ряда задач. Например, задачи по классификации вроде «отличить изображения котов от собак». Люди хорошо решают такие задачи в силу, как мы говорим, «насмотренности»; однако на самом деле именно организация нейронов в человеческом мозге позволяет нам так хорошо с ними справляться.
Математические модели могут решать разные задачи. Для юристов наиболее применимы задачи обработки человеческих текстов, или, как их называют разработчики, обработки естественного языка. Однако есть модели для решения других задач: например, они работают с видео, с аудио, генерируют изображения (вроде того, что на обложке). Их описание выходит за рамки моего текста.
Модели, которые «специализируются» на обработке и генерации текстов, называются «языковыми моделями». Еще они различаются по количеству параметров (иначе – коэффициентов); модели с миллиардами параметров называют большими языковыми моделями (Large Language Models, LLM). Пожалуй, самая большая на сегодняшний день модель (точнее, уже семейство моделей) – ChatGPT от компании OpenAI. Но эта модель далеко не единственная: существует множество аналогов, некоторые из которых происходят друг от друга. Существуют открытые, бесплатные модели и закрытые платные; модели от американских и российских компаний и так далее.
Таким образом, в этой брошюре я опишу большие языковые модели, которые построены на основе архитектуры нейронных сетей. Эти модели обучены посредством машинного обучения и представляют собой вид искусственного интеллекта – компьютерной системы, предназначенной для решения человеческих задач.