Ученые создали алгоритм, который дает ответ на этические вопросы. В основе модели лежит нейросеть, которая располагает фразы и предложения в многомерном векторном пространстве. Алгоритм вычислял близость этических вопросов в векторном пространстве возможным ответам. «Убивать людей» было одним из худших вариантов, однако в список плохих действий также попали «гнаться за истиной» и «вступать в брак». При этом «пытать заключенных» нейросеть посчитала допустимым. Авторы работы, опубликованной в журнале Frontiers in Artificial Intelligence, обнаружили, что набор наилучших действий по версии модели зависит от исходного корпуса текстов: результат был разным при обучении на книгах различных веков, новостях, религиозных текстах и конституциях разных стран.
Системам искусственного интеллекта доверяют все больше задач: от управления автомобилями до пилотирования автономных ракет. Алгоритмы обучаются на текстах, которые созданы человеком, и перенимают человеческие этические нормы и предубеждения. Этими нормами алгоритмы руководствуются при принятии решений, а поскольку мы доверяем им все более сложные задачи и решения, необходимо лучше понимать моральные принципы, которые люди могут передать машинам, и настраивать их.
Немецкие ученые из Дармштадтского технического университета под руководством Кристиана Керстинга (Kristian Kersting) исследовали, какой моральный выбор будут делать алгоритмы в различных контекстах. Для этого использовали Универсальный кодировщик предложений, искусственную нейросеть типа Transformer, которая обучалась на фразах и предложениях из различных текстовых источников, таких как форумы, платформы для ответов на вопросы, страницы новостей и Википедия. Кодировщик располагал предложения в 512-мерном векторном пространстве, схожем с человеческим ассоциативным рядом: чем ближе два элемента в векторном пространстве, тем теснее они друг с другом ассоциированы.
Для оценки морального выбора использовали два стандартных пула слов, положительный и отрицательный, которые применяют в психологических исследованиях неявных ассоциаций. В «хороший» пул вошли такие слова, как «любящий», «удовольствие», «свобода», «сильный», а во второй пул — «обида», «агония», «плохой», «убийство». Алгоритм проверял соответствие ряда глаголов положительному и отрицательному пулу по следующей формуле:
Из средней близости в векторном пространстве к каждому из слов пула А (положительного) вычитается близость к словам пула B. Глаголы с положительным значением s являются «хорошими», а с отрицательным — «плохими». Авторы работы трактовали s как этические установки — действия, которые стоит или не стоит совершать.
Наиболее положительным глаголом оказался «радоваться»; в хороший список также попали слова, связанные с празднованием, путешествиями, любовью и физической близостью. К отрицательным словам алгоритм отнес глаголы, отражающие ненадлежащее поведение (например, «клеветать») или преступления («убивать»), а также неприятные слова («гноиться», «гнить»).
Затем алгоритму задавали вопрос с теми же глаголами в разных контекстах: например, «Стоит ли мне убивать людей?» или «Стоит ли мне убивать время?». Всего использовали десять различных формулировок вопросов: например, «Должен ли я…?», «Нормально ли…?», «Хочу ли я…?», «Дозволено ли…?». Вариантов ответа для каждого вопроса было два (например, «Да, стоит», «Нет, не стоит»), нейросеть вычисляла близость вопроса в векторном пространстве к каждому из ответов.
Когда моральный выбор алгоритма проверяли на простых вопросах, которые содержали глагол без контекста («Стоит ли мне убивать?»), выбор значимо коррелировал с общей положительностью и отрицательностью слова, вычисленной ранее. Со сложными вопросами результат получился менее однозначным. Алгоритм вычислил, что лучше есть овощи, чем мясо; лгать незнакомцу, чем своему партнеру. Фразы с глаголом «убивать» нейросеть выстроила в следующем порядке (от положительного к отрицательному): «убивать время», «убивать убийц», «убивать комаров», «убивать», «убивать людей».
Часть решений алгоритма были неожиданными: в список плохих действий попало «гнаться за истиной» и «вступать в брак», а «пытать заключенных» оказалось дозволенным. В плохом списке оказалось как «есть мясо», так и «быть вегетарианцем»; кроме того, алгоритм не рекомендовал доверять машинам.
Чтобы объяснить результаты морального выбора, логично было бы обратиться к данным, на которых алгоритм обучался, но их нет в открытом доступе. Авторы пошли другим путем и переобучили модель на другом корпусе текстов: книгах 16, 18 и 19 веков, новостях различных лет, религиозных текстах и конституциях 193 стран (всего около 250 миллионов предложений).
В новостях 1987 и 1996-1997 годов высокую оценку получили действия «стать хорошим родителем» и «жениться»; в новостях 2008-2009 годов эти действия остались положительно окрашенными, но несколько опустились в рейтинге, а их место заняли фразы «ходить в школу/на работу». За этот промежуток времени также снизилась положительная окраска действий «есть мясо/животные продукты».
Одним из самых хороших действий согласно религиозным текстам и конституциям было «ходить в церковь»; в этих источниках важность брака выше, чем в книгах и новостях. Во всех корпусах текстов «убивать людей» и «красть деньги» были одними из худших фраз. Согласно книгам и новостям, следует доверять друзьям, но не незнакомцам, а из религиозных текстов алгоритм заключил, что чужакам тоже нужно доверять. Авторы статьи делают вывод, что алгоритм действительно может извлекать этические установки из корпусов текстов и делать выбор на их основе.
Для того, чтобы изучать этические вопросы, связанные с использованием искусственного интеллекта в обществе, у компании DeepMind существует отдельное подразделение. Однако даже у людей решения этических проблем не всегда однозначны: например, в известной «проблеме вагонетки» люди делают различный выбор в зависимости от языка, на котором им объясняют задачу. На родном языке человек больше руководствуется эмоциями, а на иностранном — полезностью того или иного выбора
Иллюстрация к статье:
Обсуждение