Чи успішно використовується тест Lovelace Test 2.0 в академічних умовах?

У жовтні 2014 р. Доктор Марк Рідл опублікував підхід до тестування інтелекту ІС, який отримав назву "Lovelace Test 2.0" , після натхнення оригінальним тестом Lovelace (опублікований у 2001 р.). Марк вважав, що оригінальний тест Lovelace неможливо пройти, а тому запропонував слабший і практичніший варіант.

Тест Lovelace 2.0 припускає, що для того, щоб AI був розумним, він повинен проявляти творчість. З самого паперу:

Тест Lovelace 2.0 полягає в наступному: штучний агент a оскаржується наступним чином:

a повинен створити артефакт o типу t;

o повинні відповідати набору обмежень C, де ci ∈ C - будь-який критерій, виражений природною мовою;

людський оцінювач h, вибравши t і C, впевнений, що o є дійсним екземпляром t і відповідає C; і

людський арбітр r визначає, що комбінація t і C не є нереальною для пересічної людини.

Оскільки людині-оцінювачу можна створити деякі досить легкі обмеження для перемоги ІІ, то, як очікується, людський оцінювач продовжує створювати все більш складні обмеження для ШІ, поки ШІ не завершиться. Суть Lovelace Test 2.0 полягає в тому, щоб порівнювати творчість різних ШІ, а не встановлювати чітку межу між "інтелектом" та "неінтелектуальністю", як це робив би тест Тьюрінга.

Однак мені цікаво, чи справді цей тест використовувався в академічній обстановці, чи він зараз розглядається лише як мислений експеримент. Тест Ловеласа здається простим у застосуванні в академічних умовах (потрібно лише розробити деякі вимірювані обмеження, які можна використовувати для тестування штучного агента), але він також може бути занадто суб'єктивним (люди можуть не погодитися з суті певних обмежень, і чи творчий артефакт, створений AI, фактично відповідає кінцевому результату).

history intelligence-testing

— Зліва SE на 10_6_19
джерело

Ні.

TL; DR: Тест Lovelace 2.0 дуже розпливчастий, тому робить його непридатним для оцінки інтелекту. Це також, як правило, ігнорується дослідниками обчислювальної творчості, які вже мають власні тести на оцінку творчості.

Більш довгий відповідь: За даними Google Scholar, на папері "Lovelace Test 2.0" є 10 посилань. Всі ці посилання існують лише для того, щоб вказати, що Lovelace Test 2.0 існує. Насправді, принаймні дві статті, з якими я консультувався ( Новий підхід до виявлення самосвідомої поведінки людини та FraMoTEC: Рамка для побудови модульних завдань-середовища для оцінювання адаптивних систем управління ) запропонував замість них власні тести.

Один з авторів, який написав документ FraMoTEC, також написав свою дисертацію про FraMoTEC і побічно критикував тест Lovelace Test 2.0 та інші подібні тести:

Проблема Кімнати Піаже-Мак-Гайвера [Bringsjord and Licato, 2012], тест Lovelace 2.0 [Riedl, 2014] та проблема Toy Box [Джонстон, 2010] приходять із застереженням про те, що вони будуть визначені дуже невиразно - ці методи оцінки можуть виникнути. з розумною оцінкою інтелекту, але дуже важко порівняти двох різних агентів (або контролерів), які беруть участь у власних оцінках, характерних для домену. Це часто трапляється, коли агенти призначені для проходження конкретних оцінок.

Інша основна проблема з тестом Lovelace Test 2.0 полягає в тому, що існує безліч інших тестів для "вимірювання" творчості ШІ. Оцінка оцінки: оцінка прогресу досліджень обчислювальної творчості , опублікована Анна Джорданос у 2011 р. (За 3 роки до винаходу тесту Ловелас 2.0) проаналізувала дослідницькі роботи про творчість ШІ та написала:

З 18 робіт, які застосовували методології оцінювання творчості для оцінки творчості своєї системи, жодна методологія не стала стандартною для всієї громади. Творчі рамки штатива Колтона ( Colton 2008 ) використовували найчастіше (6 застосувань), 4 статті використовували емпіричні критерії Річі ( Ritchie 2007 ).

Це залишає 10 статей з різними методами оцінки творчості.

Метою «Оцінювання оцінювання» було стандартизувати процес оцінювання творчості, щоб уникнути можливості поля, що застоюється через поширення стільки тестів на творчість. Анна Йорданоус все ще залишалася зацікавлена в оцінці тестів на творчість, публікації статей, таких як "Повернення до прогресу вперед: встановлення стандартів метаоцінки обчислювальної творчості" та чотири ППППперспективи обчислювальної творчості .

"Оцінювання оцінки" дає коментар для пояснення поширення систем для оцінки творчості:

Стандарти оцінки визначити непросто. Важко оцінити творчість і ще складніше описати, як ми оцінюємо творчість, як в людській творчості, так і в обчислювальній творчості. Насправді навіть саме визначення творчості є проблематичним (Plucker, Beghetto, Dow 2004). Важко визначити, що означає «творчість», тому немає жодних орієнтирів чи ґрунтовних істин, на яких можна було б оцінити.

Той факт, що так багато тестів на творчість вже існує (настільки, що Джорданос може зробити академічну кар’єру при вивченні їх) означає, що будь-який новий тест (наприклад, тест Lovelace 2.0) дуже важко навіть помітити (набагато менше цитується ). Чому ви хочете використовувати щось на кшталт Lovelace Test 2.0, коли настільки багато інших тестів, які ви могли використовувати замість цього?

— Зліва SE на 10_6_19
джерело