
Мы формулируем три задачи, используя более десяти лет конкурсов подписей New Yorker: модели должны 1) распознавать подпись, написанную о мультфильме (по сравнению с вариантами, которые не были); 2) оценить «качество» этой подписи, поставив ей более высокую оценку, чем у нефиналиста/непобедителя того же конкурса; и 3) объяснить, почему шутка смешная. Предоставлено: мультфильм Дрю Дернавича, победившая подпись Беннета Элленбогена.
Большие нейронные сети, форма искусственного интеллекта, могут генерировать тысячи шуток на тему «Почему курица перешла дорогу?» Но понимают ли они, почему они смешные?
Используя в качестве испытательного стенда сотни работ из конкурса Cartoon Caption Contest, проводимого журналом New Yorker, исследователи поставили перед моделями ИИ и людьми три задачи: сопоставить шутку с мультфильмом; определение выигрышной надписи; и объясняя, почему выигрышная подпись забавна.
Во всех задачах люди демонстративно справились с задачами лучше, чем машины, даже несмотря на то, что достижения в области искусственного интеллекта, такие как ChatGPT, сократили разрыв в производительности. Итак, машины начинают «понимать» юмор? Короче говоря, они делают некоторый прогресс, но еще не совсем там.
«Люди проверяют модели ИИ на предмет понимания, создавая для них тесты — тесты с множественным выбором или другие оценки с оценкой точности, — говорит Джек Хессель, доктор философии. 20 лет, научный сотрудник Алленовского института искусственного интеллекта (AI2). «И если модель в конечном итоге превосходит то, что люди получают в этом тесте, вы думаете: «Хорошо, значит ли это, что она действительно понимает?» Это правильная позиция, чтобы сказать, что ни одна машина не может по-настоящему «понимать», потому что понимание — это человеческая вещь. Но независимо от того, понимает машина или нет, все равно впечатляет, насколько хорошо они справляются с этими задачами».
Хессель является ведущим автором статьи «Смеются ли андроиды над электрическими овцами? Показатели понимания юмора» по итогам конкурса New Yorker Caption Contest, которая получила награду за лучшую статью на 61 ежегодном собрании Ассоциации компьютерной лингвистики, состоявшемся в июле. 9-14 в Торонто.
Для своего исследования исследователи собрали результаты конкурсов подписей журнала New Yorker за 14 лет — всего более 700 конкурсов. В каждый конкурс входили: мультфильм без субтитров; записи той недели; три финалиста, выбранные редакторами New Yorker; и, для некоторых конкурсов, оценка качества толпы для каждого представления.
Для каждого конкурса исследователи протестировали два вида ИИ — «из пикселей» (компьютерное зрение) и «из описания» (анализ человеческого резюме мультфильмов) — для трех задач.


