Чи можна навчити глибокі мережі для доведення теорем?


21

Припустимо, що у нас є велика кількість доказів першого предикатного обчислення. Припустимо, у нас є також аксіоми, наслідки та теореми в цій галузі математики.

Розглянемо кожне твердження, яке було доведено, та сукупність існуючої теорії, що стосується конкретного пропозиції, як приклад у навчальному наборі та відомий хороший доказ твердження як пов’язані мітки. Тепер розглянемо глибоку штучну мережу, розроблену спеціально для тренування цього прикладу, і гіперпараметри, встановлені правильно для цього.

Чи можливо навчити глибоку штучну мережу таким чином, щоб представлення нової пропозиції та існуючої навколо неї теорії, представленої в першому порядку, прогнозує обчислення на вході, дасть доказ на виході?

(Звичайно, такі докази слід перевірити вручну.)

Якщо частка надійних доказів була достатньо високою, чи можливо було б створити генетичний алгоритм, який пропонує пропозиції до навченої глибокої мережі, створюючи таким чином докази?

Це можливо?

Чи можна було б використовувати такий глибокий дизайн мережі для вирішення гіпотези Колатца чи гіпотези Рімана або принаймні переставити шаблони таким чином, щоб математики могли більше отримати законний доказ?


5
Наскільки я можу подумати, що "чудовий" немає, NN корисні лише для наближення функції (дуже добре) ... мовляв, NN може робити те, що, на вашу думку, це може зробити, робить основне припущення, що всі докази якимось чином функціонують probelms, varibales або інші речі ... і я не знаю, чи хтось так сказав
DuttaA

2
@DouglasDaseeco майже всі докази - це математики, які уявляють щось абстрактне "інтуїтивно", а потім віддають це в життя .... тоді як НН точно не здатний до цього ... вони зможуть лише довести дріб'язкові або подібні теореми, наприклад, пошук випадків винятку і таким чином спростувати чи щось подібне
DuttaA

1
@DuttaA, інтуїцію набагато простіше навчити нейронної мережі, ніж логіці. Штучні мережі можуть сортувати неоднозначно адресовану пошту без механізму роботи з правилами. Вилучення можливостей та безпідставна категоризація також ближче до інтуїції. Логічні операції, такі як множення пар, непереборні. У психології розвитку інтуїтивне привернення уваги дорослої людини відбувається за роки до логічної концепції ІЛІ та АБО. Діти не думають причинно: "Якщо я скуголю, мама зірветься і дасть мені цукор". Вони виконують функцію, а не план. У моїй відповіді тут перші два пункти найскладніші.
Фахристиян

2
Можливо, я б запропонував використовувати NN для орієнтування традиційної теореми. Звичайний доказ теореми представляє можливості мережі, і NN просто повинен вибрати одну. Таким чином, не потрібно вивчати, що є, а чи не логічна логіка, лише те, що цікаво.
PyRulez

Відповіді:


6

Існуючі виробничі системи, розроблені протягом останніх кількох десятиліть, містять у них закодовані правила виводу. Вони ґрунтуються на баченні Лейбніца про те, що вся класична логіка може бути закодована в символічну мову та оброблена механічно. Була розроблена логіка предикатів першого порядку та формалізована номенклатура.

Хоча бачення автоматичного доведення теореми було суттєво оскаржене двома теоремами про незавершеність Геделя, робота Тюрінга про повноту та розбудову архітектури для його практичного втілення фон Нойманом пожвавила роботу над автоматизацією механічного процесу виведення.

AI лабораторія MIT за часів Мінського була жива від таких зусиль, але те, що вони назвали комбінаційним вибухом, показало, що недостатньо доступних обчислювальних ресурсів для пошуку простору, необхідного для автоматичного доказування довільних теорем нетривіальної складності. Для подолання проблеми комбінаційного вибуху були застосовані великі паралельні комп'ютери, які називали машини підключення та різні схеми, використовуючи мета правила та евристичні підходи.

Штучні мережі були введені, і ідея, що вони можуть конкурувати з виробничими машинами, стримувала спільноту LISP, коли вона була запропонована. Однак, в умовах значних успіхів у збільшенні обчислювальних ресурсів та останніх досягнень у машинному навчанні, багато хто почав задавати питання, що були прихованими у ХХ столітті.

Ми вже знаємо, що штучні мережі можуть вивчати довільні логічні та алгебраїчні функції, багато з яких є PAC Learnable. 1 З огляду на належне навчальне середовище, логічне висновок - це явно те, що може зробити кора головного мозку в її сучасний момент еволюції. Чи будуть нейронні мережі досягати такого рівня пізнання - питання відкрите.

Те, що основні дослідження ІІ та машинного навчання не зосереджуються на штучному придбанні мережевими правилами логічного виводу, значною мірою тому, що програмування їх у такій системі, як DRools та інші широко використовувані виробничі системи, здається, більш раціональний підхід не означає, що це завжди буде. Питання полягає в тому, чи є достатня рентабельність інвестицій, щоб зробити те, що може бути цікаво, але, безумовно, дорого, коли інші рішення вже існують.

Це запитання схоже на інше питання обміну стека штучного інтелекту щодо того, наскільки хороший AI в математиці. Один з наведених відповідей є застосовним тут.

Важливо не відмовлятися від будь-якого підходу в цей проміжок часу, оскільки останнім часом інтерес до ШІ не лише відновлював державні витрати, але й комерційні витрати. Ці витрати збільшують персонал, обчислювальну потужність та стимули подолати перешкоди, які, можливо, раніше вважалися непереборними.


Виноски

[1] Навчання PAC є основою для визначення практичної обчислюваності алгоритмів навчання, враховуючи особливості класу гіпотез, які можна вивчити за допомогою даної моделі та очікувану точність та впевненість процесу навчання.


1

Ваша ідея може бути здійсненною в цілому, але нейронна мережа, ймовірно, є неправильним інструментом високого рівня , який використовується для дослідження цієї проблеми.

Міцність нейронної мережі полягає у пошуку внутрішніх уявлень, які дозволяють отримати сильно нелінійне рішення під час відображення входів на виходи. Коли ми тренуємо нейронну мережу, ці відображення вивчаються статистично шляхом повторення прикладів. Це, як правило, створює моделі, які добре інтерполюють, коли дані дані схожі на навчальний набір, але які екстраполюють погано.

Моделям нейронної мережі також не вистачає контексту, так що якщо ви використовували генеративну модель (наприклад, RNN, що навчається на послідовностях, які створюють вагомі чи цікаві докази), то це може легко створити статистично приємний, але безглуздий сміття.

Вам знадобиться якийсь організаційний принцип, який дозволяє вивчити та підтвердити докази комбінаторно. Насправді щось подібне до вашої ідеї вже робилося не раз, але наразі я не в змозі знайти посилання.

Ніщо з цього не зупиняє вас на використанні нейронної мережі в ІІ, який шукає докази. Можуть бути місця в математичному ІІ, де вам потрібна хороша евристика для керівництва пошуковими запитами, наприклад - наприклад, у контексті X є субдоказ Y, який може бути цікавим або релевантним. Оцінка ймовірності - це те, що нейронна мережа може зробити в рамках більш широкої схеми ШІ. Це схоже на те, як нейронні мережі поєднуються з навчанням підкріплення.

В принципі, можливо, побудувати свою ідею повністю з нейронних мереж. Зрештою, є вагомі причини підозрювати, що міркування людини аналогічно використовують біологічні нейрони (не доведено, що штучні можуть відповідати цьому будь-яким чином). Однак архітектура такої системи виходить за рамки будь-якого сучасного проекту NN або навчальної установки. Це, безумовно, не буде лише додаванням достатньої кількості шарів, а потім подачею даних.


Макс не шукає інструменту. Він почав із: "Уявіть, у мене є список усіх проблем і доказів", у питанні перед редакцією ". Надмірне редагування приховало це перше слово. Він думає про доцільність, яка є законною дослідницькою діяльністю. Дослідження зазвичай починаються з уявлення та здійсненність. Макс не єдиний, хто визнає важливість свого питання. Є сотні, які знають, що може бути спосіб навчити мережу довести, оптимізувавши застосування правил виводу. Навчена інтуїція. Цитується NietzscheanAI. Гофстадтер обговорює саме це
Фокхристиян

@FauChristian Я читав "чи можливо", як це можна досягти, використовуючи відомі в даний час методи, і як можна було б знову розпочати такі дослідження, використовуючи існуючі підходи. Я погоджуюся, що можна відповісти, використовуючи більш теоретичний кут. Це може бути цікавим питанням мета, як ОП може визначити різницю, і як ми можемо підтвердити наміри
Ніл Слейтер

1

Що ми знаємо

Згідно зі сторінкою Світового банку , "Сьогодні у світі є близько 200 мільйонів студентів вищої освіти, що перевищує 89 мільйонів у 1998 році". Щонайменше 1 на 100, як вимога математики, повинен був розробити доказ теореми і прожити принаймні 40 років після цього.

Хоча є щонайменше 20 мільйонів нейронних мереж, які можуть довести теорему, вони не відповідають прикладам, які б відповіли на це питання ствердно. Ці нейронні мережі є біологічними, а не штучними, і вони здебільшого мають перевірені раніше доведені теореми, а не гіпотеза Коллаца чи гіпотеза Рімана.

У що деякі вірять

Ті, хто вірять, що пристрої глибокого Q-навчання та уваги приєднаються до інших конструкцій системи навчання до тих пір, поки здібності людського мозку не будуть імітовані та, можливо, перевершені, ймовірно, включатимуть теорему, що є однією з цих можливостей людини. Вони, ймовірно, оголошують логіку і умовивід предикатів лише черговою складною пізнавальною функцією, яка буде досягнута у штучних системах.

Ті, хто вважає, що деякі можливості занурені в людину і є зарезервованими можливостями, можуть оголосити логіку і умовивід предикату зарезервованими лише для людей.

Поточний стан прогресу

Немає академічних статей, які б вказували на здатність доводити навіть найпростіші докази, використовуючи логіку предикатів та умовиводи. Можливо, що уряд чи приватне підприємство досягли певного рівня успіху в цьому, але такого не було розголошено.

Ідея про те, що штучні мережі, якщо вони будуть розвинені помітно, можуть перевершити виробничі системи, системи ШІ, що базуються на виробництві чи правилах, у своїх областях найбільшої ефективності була запропонована ще на початку розвитку ШІ. Тоді це було спірним та оспорюваним зараз, однак аргументи не є математичними, тому немає чітких ознак того, що це неможливо.

Безумовно, інші когнітивні аспекти людської думки є важливими цілями досліджень ШІ. Діалог, автоматизована освіта, планування, стратегічний аналіз та пілотування транспортних засобів - це всі аспекти вищої думки, які тепер можуть забезпечити більше, ніж DQN та мережеві підходи, орієнтовані на увагу, але зусилля в цих областях помітні та добре фінансуються.

Потенційний підхід

Дослідження логічних пізнавальних здібностей повинні почати докази, які вже знають, набагато простіші, ніж вигадки, згадані у питанні. Наприклад, доведено, що сума двох невід’ємних цілих чисел повинна бути іншим негативним цілим числом. У обчисленні предиката це може бути представлено у вигляді рядка символів.

аС,бС:с=а+бсС

У ньому йдеться про те, що a і b є членами множини підрахунку чисел, що s, визначена як сума двох, також повинна бути членом набору підрахунку чисел. Її доказ може бути також представлений як послідовність символьних рядків предикатного числення першого порядку.

Жодного невеликого дослідницького проекту

Такий приклад може здатися простим тому, хто пройшов роки математичних курсів і створив докази. Для дитини це непросто, і дуже важко отримати штучну мережу для сходження до функції, яка застосовує всі правила логічного умовиводу і містить мета-правила для отримання доказів для такої формальної системи, як арифметика цілих чисел.

Наявність повних мереж, таких як RNN, безумовно, матиме переваги перед MLP (багатошарові перцептрони). Мережі на основі уваги можуть бути розумним варіантом дослідження. Є й інші, зазначені в посиланнях нижче.

Для дослідження була б потрібна паралельна обчислювальна платформа, оскільки вхідний вектор може становити сотні Кбайт. Розміри прикладів і скільки їх потрібно буде складно оцінити, не потрапляючи на рік або два в процес дослідження.

Визначення підрахунку чисел, знаку плюс та знаку рівності спочатку слід визначити, а ці визначення та ряд аксіом, постулатів, лем та наслідків повинні бути частиною вхідного прикладу у формальній формі, як пропозиція бути Доведено вище, разом із цією пропозицією.

І ось робота над підготовкою лише одного прикладу. Вам знадобляться тисячі, щоб навчити інтуїтивно зрозумілим правилам висновку в глибоку мережу. (Я вибрав слово INTUITIVE дуже навмисно з теоретичних причин, для того, щоб пояснити добре, потрібно щонайменше сто сторінок.)

Це не маленький проект, оскільки приклад набору даних повинен мати принаймні кілька тисяч випадків, і кожен випадок, хоча він може поділяти певну теорію, повинен бути налаштований так, щоб пропозиція була сформована ідеально і також був представлений необхідний теоретичний масив у ідеальній формі на вході для кожної тренувальної ітерації.

Я гадаю, що знадобиться команда яскравих дослідників з відповідним розумінням глибоких мереж, конвергенції та прогнозування обчислення приблизно десять років, щоб навчити мережу давати життєздатні докази у відповідь на прості математичні пропозиції.

Але це не було б маленьким досягненням

Це може здатися абсурдним починанням для деяких, але це був би перший випадок, коли хтось навчав комп’ютер, як бути логічним. Природа взяла природу трохи під земним віком, щоб навчити логічному висновку організму Сократу.

Люди припускають, що оскільки комп’ютер складається з цифрових мікросхем, які виконують логіку за конструкцією, то комп'ютери є логічними. Кожен, хто десятиліттями займається розробкою програмного забезпечення, схильний мислити глибше, ніж хакерство заради розваги чи грошей, знає інакше. Навіть після ретельного програмування комп'ютери не моделюють логічне умовивід і не можуть виправити власну програмовану поведінку для будь-якої довільної помилки. Насправді, більшість розробників програмного забезпечення сьогодні - це виправлення помилок.

Моделювання логічної думки було б головним кроком до моделювання пізнання та широкого кола людських можливостей.


Список літератури

Навчитися складати нейронні мережі для відповідей на Джекоб Андреас, Маркус Рорбах, Тревор Даррелл та Ден Клейн UC, Берклі 2016 https://arxiv.org/pdf/1601.01705.pdf

Вивчення декількох рівнів представництва Джеффрі Е. Хінтона Кафедра комп'ютерних наук, Університет Торонто 2007 http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf

Нейронна машина Тьюрінга (слайд-шоу) Автор: Алекс Грейвс, Грег Уейн, Іво Даніелька Представлено: Tinghui Wang (Стів) https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf

Нейронні машини твердіння (папір) Алекс Грейвс, Грег Уейн, Іво Даніелка https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf 2014

Навчання підкріпленню, машини нейронного твердіння Войцех Заремба, конференція ICLR Іллі Суцкевера https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer 2016

Динамічна машина нейронного твердіння з безперервними та дискретними схемами адресації Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yushua Bengio1 https://arxiv.org/pdf/1607.00036.pdf 2017

Інтерактивна самоконструювальна нейронна нечітка, виводна мережа та її програми Chia-Feng Juang та Chin-Teng Lin IEEE, транзакції в нечітких системах, v6, n1 1998 https://ir.nctu.edu.tw/bitstream/11536/ 32809/1 / 000072774800002.pdf

Нейронні мережі графічних послідовностей Юджія Лі та Річард Земель, конференція ICLR на конференцію 2016 року https://arxiv.org/pdf/1511.05493.pdf

Будівельні машини, які навчаються та думають, як люди Бренден Лейк, Томер Д. Улман, Джошуа Б. Тененбаум та Самюель Дж. Гершман з питань поведінки та мозку 2016 https://arxiv.org/pdf/1604.00289.pdf

Контекстно-залежні попередньо навчені глибокі нейронні мережі для розпізнавання мови великого словника Джордж Е. Даль, Донг Ю, Лі Денг та Алекс Асеро IEEE з трансляції аудіо, мови та мови 2012 https://s3.amazonaws.com/ academia.edu.documents / 34691735 / dbn4lvcsr-transaslp.pdf? AWSAccessKeyId = AKIAIWOWYYGZ2Y53UL3A & Expires = 1534211789 & Signature = 33QcFP0JGFeA% 2FTsqjQZpp_e_e_e_e_e_ec_e_ec_ec_ec_ec_ec_ec_ec_ec_ec_ec_ec_ec_ec_e_ec_ecd_pxYeeeeeeeeeeeeeeee 10%

Включення об'єктів та зв'язків для навчання та виведення з баз знань Бішан Ян1, Вень-Тау Ііх2, Сяодун Хе2, Цзянфен Гао2 та Лі Денг2 Конференційний документ ICLR 2015 https://arxiv.org/pdf/1412.6575.pdf

Алгоритм швидкого вивчення мереж глибокої віри Джеффрі Е. Гінтон, Саймон Осіндеро, Ей-Уай Тех (повідомлення: Ян Ле Кун) Нейрові обчислення 18 2006 року http://axon.cs.byu.edu/Dan/778/papers/Deep % 20Мережі / hinton1 * .pdf

FINN: Структура для швидкого, масштабованого бінарного нейромережі Яман Умуроглу та ін. 2016 https://arxiv.org/pdf/1612.07119.pdf

Від машинного навчання до машинного розуму Леона Ботто 2/8/2011 https://arxiv.org/pdf/1102.1808.pdf

Поглиблене навчання Yann LeCun1,2, Yoshua Bengio3 та Geoffrey Hinton4,5 Nature vol 521 2015 https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf


-1

Це можливо, але, мабуть, не дуже гарна ідея.

Логічне підтвердження є однією з найдавніших областей ШІ, і є спеціально побудовані методи, яким не потрібно навчатись, і які є більш надійними, ніж підхід нейронної мережі, оскільки вони не покладаються на статистичні міркування , а замість цього використовуйте друга математика: дедуктивне міркування.

Головне поле називається " Автоматизоване доведення теореми ", і воно досить старе, щоб воно було трохи кальцифіковане як дослідницька область. Інновацій не так багато, але деякі люди все ще працюють над цим.

Основна ідея полягає в тому, що доведення теореми - це просто класичний або евристичний керований пошук: ви починаєте зі стану, що складається з набору прийнятих передумов. Тоді ви застосовуєте будь-яке дійсне логічне правило висновку для створення нових приміщень, які також повинні бути істинними, розширюючи набір знань, які ви маєте. Врешті-решт, ви можете довести бажану передумову чи через чисельні пошукові запити, наприклад, перший пошук по ширині, або ітеративне поглиблення , або через щось на зразок A * із евристикою домену. Багато вирішувачів також використовують лише одне логічне правило ( уніфікація) ), оскільки воно є повним і зменшує розгалужувальний фактор пошуку.


Брак людей, які все ще працюють над цим, може бути причиною браку інновацій. Ми не повинні переконувати Макса так швидко, тим більше, що автоматизована теорема, що підтверджує роботу в перші дні LISP, не застосовувала більш широкий спектр наявних методів. Чому? Про це я говорив в іншому коментарі. Люди виробничої системи мало взаємодіяли з перцептроном. Були образи, але залучені університети видалили їх із публічного зору.
Фахристиян
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.