Уходящий год ознаменовался важным достижением в сфере искусственного интеллекта: нейросети научились генерировать поражающие воображение картинки по текстовому запросу пользователей. Но это лишь видимая часть по-настоящему тектонических сдвигов в этой области технологий.
В конкурсе рисунков побеждает робот
Журнал Science включил «креативность ИИ» в список прорывов года. «Искусственный интеллект проникает в области, которые считались исключительно человеческими, включая художественное самовыражение и научные открытия», — пишут авторы статьи. По их словам, «вторжение машин» сначала шло медленно, но теперь приобрело лавинообразный характер.
Соцсети пестрят высококачественными картинками, сгенерированными кодом. Работают так называемые модели преобразования текста в изображение. С помощью машинного обучения нейросеть анализирует текст и визуальные материалы, выявляя шаблоны, на основе которых затем создает собственные произведения.
В 2021-м исследовательская лаборатория OpenAI представила программную систему DALL-E, запомнившуюся милыми рисунками по запросу вроде «кресло в форме авокадо».
Весной 2022-го OpenAI выпустила DALL-E 2. В системе реализовали метод машинного обучения, известный как обратная диффузия. Качественное изображение поэтапно превращается в случайный шум. Используя датасет таких пар нормальных и испорченных картинок, нейросеть учится совершать обратное — формировать из хаоса четкие образы. Благодаря текстовым подсказкам результат становится более реалистичным и художественно убедительным.
В свободном доступе несколько диффузионных моделей. Одна из них — Midjourney, генерирующая изображения по запросу на английском языке. Чем подробнее расписана задача, тем точнее результат, который можно усовершенствовать с помощью специальных настроек.
Несмотря на существенный качественный прогресс, картины ИИ по-прежнему неидеальны. Однако уже сейчас нейросети способны выполнять значительную часть работы за художников и дизайнеров — тем остается лишь довести продукт до совершенства вручную. Так, Джейсон Аллен получил приз на конкурсе изящных искусств за произведение, созданное вместе с Midjourney.
По его словам, ему потребовалось несколько недель и более сотни попыток задать нужное описание. Получившуюся композицию он обрабатывал в фоторедакторе.
Муссолини на скейтборде
Еще более существенный прогресс в текстовом формате. Та же OpenAI представила ChatGPT — чат-бот, выполняющий запросы пользователя.
Он умеет создавать базовый программный код, писать стихи и песни, рефераты практически на любую тему (чем уже к неудовольствию учителей пользуются школьники), давать персональные советы, в том числе медицинские, причем, по словам врачей, довольно точные (хотя бот предупреждает, что все равно необходимо обратиться к специалисту).
В одном из экспериментов ChatGPT попросили доказать некую теорему. В ответ бот написал научную статью по всей форме — с соблюдением структуры и ссылками. Разумеется, теорему он не доказал. С научной точки зрения текст представлял собой белиберду, однако неспециалист не заметил бы подвоха.
Кроме того, программа способна учиться на ходу и за счет этого вести увлекательные разговоры.
Иногда чат-бот дает убедительные, но неверные ответы. Например, в придуманном по просьбе пользователя некрологе о фашистском диктаторе Бенито Муссолини программа упоминает его любовь к скейтбордингу. А для задачи типа “Клюшка и шайба стоят вместе один доллар десять центов. Клюшка дороже шайбы на доллар. Сколько стоит шайба?» предлагает интуитивно очевидное, однако неправильное решение: “Десять центов”. И тем не менее, по словам экспертов, еще недавно разговорный бот такой сложности казался совершенно невероятным.
«Эта технология, вероятно, станет благом для программистов, исследователей, ученых, политиков, журналистов и многих других. Если, конечно, не лишит их всех работы», — пишет Bloomberg.
Программирование и математика
Другие нейросети решают более фундаментальные задачи. Компания DeepMind, чей продукт AlphaFold произвел сенсацию в 2021-м, предсказав пространственную структуру белка, выпустила инструмент под названием AlphaTensor. Он выполняет сложнейшую математическую операцию — умножение матриц. Оперировать этими числовыми блоками приходится при разработке физических моделей (например, при моделировании погодных условий) или тех же нейронных сетей.
А AlphaCode пишет программы. Впрочем, журнал Science оценивает способности этой нейросети как «средние».
«Помимо философских споров о том, можно ли считать эти кремниевые подвиги настоящим творчеством, возникают практические и этические дилеммы. Некоторые наблюдатели опасаются, что искусственные программисты и художники будут нарушать авторские права, закреплять стереотипы, распространять дезинформацию или сокращать рабочие места», — предупреждают авторы Science.
Однако они не сомневаются: люди станут использовать эти инструменты для расширения возможностей собственного творчества, как это произошло в прошлом, когда появились «ткацкие станки, фотоаппараты и другие некогда пугающие изобретения».
Обсуждение