Чи вразливий штучний інтелект до злому?


27

У статті Обмеження глибокого навчання в налаштуваннях змагань досліджується, як нейронні мережі можуть бути пошкоджені зловмисником, який може маніпулювати набором даних, з яким тренується нейронна мережа. Експерименти з нейронною мережею мали на меті читати рукописні цифри, підриваючи її здатність до читання, спотворюючи зразки рукописних цифр, з якими навчається нейронна мережа.

Мене хвилює, що злісні актори можуть спробувати зламати ШІ. Наприклад

  • Дурення автономних транспортних засобів для неправильного тлумачення знаків зупинки проти обмеження швидкості.
  • Оминаючи розпізнавання обличчя, наприклад, для банкоматів.
  • Обхід спам-фільтрів.
  • Аналіз дурних настроїв на огляди фільмів, готелів тощо.
  • Обхід двигунів виявлення аномалії.
  • Підробка голосових команд.
  • Неправильне класифікація машинного навчання на основі медичних прогнозів.

Який змагальний ефект може порушити світ? Як ми можемо це запобігти?


6
Вважайте, що людський інтелект вразливий для злому
Гай

Цікаво. Вас цікавлять "моделі ризикових змагань щодо налаштувань" чи щось наближене до традиційної відповіді на кібербезпеку, але все одно прямо про AI? Найкращі побажання.
Тавтологічні Одкровення

Відповіді:


19

ШІ вразливий з двох перспектив безпеки, як я це бачу:

  1. Класичний метод використання відвертих програмних помилок для досягнення певного виконання коду на машині, на якій працює AI або для вилучення даних.

  2. Випробування через еквівалент AI оптичних ілюзій для конкретної форми даних, з якою система розроблена.

Перший слід пом'якшити так само, як і будь-яке інше програмне забезпечення. Я не впевнений, чи AI на цьому фронті є більш вразливим, ніж інше програмне забезпечення, я схиляюся до думки, що складність може трохи збільшити ризик.

Другий, мабуть, найкраще пом'якшується як ретельним вдосконаленням системи, як зазначається в деяких інших відповідях, а також, роблячи систему більш чутливою до контексту; багато змагальних методик покладаються на оцінку введення у вакуумі.


1
Розділення між вразливими кодами та вразливими місцями використання є хорошими. Однак уразливість коду, як правило, є незначною в AI. Складність ШІ полягає в даних, чи то ваги вузлів у нейромережі чи дерева у випадковому лісі. Існує лише невеликий шматочок коду для живлення ШІ, і головний ризик у тому, щоб не перегодувати його - класичний ризик переповнення буфера, який легко пом'якшується методами кінця 20 століття.
MSalters

@MSalters Я думаю, що важко зробити загальний висновок, оскільки складність коду може сильно відрізнятися між різними типами AI-агентів (я думаю, ваш коментар значною мірою точний для нейронних мереж). Крім того, хоча дані та маніпулювання ними, мабуть, є більшою поверхнею атаки, було б нерозумно знижувати таку ж атаку, яка дозволила віддаленому виконанню коду через компрометовані файли зображень у минулому, які використовували недоліки в програмах перегляду зображень. Вектор - це дані, які передаються, але поведінка все ще підпадає під заголовок вразливості коду, я думаю.
Крістофер Гріффіт

7

Програміст проти програміста

Це "війна нескінченності": програмісти проти програмістів. Все може бути зламаним. Профілактика пов'язана з рівнем знань професіонала, відповідального за безпеку, та програмістів із захисту додатків.

наприклад, існує декілька способів визначити користувача, який намагається зіпсувати показники, створені за допомогою аналізу сентимента, але є також способи обійти ці кроки. Це досить нудна бійка.

Агент проти агента

Цікавим моментом, який підняв @DukeZhou, є еволюція цієї війни, за участю двох штучних інтелекту (агентів). У цьому випадку битва є однією з найбільш обізнаних. Яка ти найкраще навчена модель, ти знаєш?

Однак, щоб досягти досконалості в питанні вразливості, штучний інтелект або штучний супер інтелект перевершують здатність обійти людину. Начебто знання всіх хакерів до цього дня вже існували в свідомості цього агента, і він почав розробляти нові способи обійти власну систему і розвинути захист. Складні, правда?

Я вважаю, що важко мати ШІ, який думає: "Чи буде людина використовувати фотографію замість того, щоб визначити своє обличчя?"

Як ми можемо це запобігти

Завжди мати людину, яка керує машиною, і все ж це не буде 100% ефективною. Це ігнорування можливості того, що агент може вдосконалити власну модель самостійно.

Висновок

Тому я думаю, що сценарій працює таким чином: програміст намагається обійти валідації AI, а розробник IA, що здобуває знання за допомогою журналів і тестів, намагається створити розумнішу і безпечнішу модель, намагаючись зменшити шанси на збій.


3
Чудова відповідь. (imo, має бути прийнятою відповіддю, але вам потрібно надати певну підтримку чи посилання.) Незалежно, ваша логіка правильна, хоча я думаю, що це почне поширюватися поза програмістом проти програміста до агента проти агента, оскільки нові алгоритми збільшуватимуться у витонченість, і виконувати ці стратегії без спонукань людини.
DukeZhou

1
Оновлено! Гарна точка @DukeZhou
ІА

6

Як ми можемо це запобігти?

Існує кілька робіт про верифікацію AI. Автоматичні верифікатори можуть довести властивості нейромереж. Це означає, що якщо вхід X NN обурений не більше, ніж на заданій межі ε (в деякій метриці, наприклад L2), то NN дає ту саму відповідь на нього.

Такі перевірки виконуються:

Цей підхід може допомогти перевірити стійкість властивостей нейронних мереж. Наступним кроком є ​​побудова такої нейронної мережі, яка потребує надійності. Деякі з наведених вище статей містять також методи, як це зробити.

Існують різні методи підвищення надійності нейронних мереж:

Принаймні, останній може зробити NN більш надійним. Більше літератури можна знайти тут .


2
Це звучить як неможлива претензія ... хіба що мова йде про якісь конкретні входи X, а не про загальні входи X? У такому випадку, здається, це майже нічого не говорить про хакерство, оскільки введення даних не повинно обмежуватися обуренням тих, хто навчається?
Мехрдад

1
@Mehrdad: Це, ймовірно, можливо в імовірнісному сенсі, якщо вхідний простір достатньо структурований, що ви можете його вибірково відібрати. Тобто, напевно, можна встановити, що для 95% можливих входів 95% порушень, менших за ε, не впливають на марку класу. Це еквівалентно встановленню того, що межа між класами виводу у просторі вводу є гладкою, або що найбільша частина вхідного простору не лежить біля межі класу. Очевидно, що частина вхідного простору повинна лежати біля класової межі.
MSalters

Я не впевнений, що це застосовуватиметься у випадку "змагальності", описаному в статті: Там (IIRC) додається зворотний розповсюджений градієнт до всієї картини, тому зміна на повний вклад може бути досить великою - навіть якщо зміна кожного окремого пікселя ледь помітна.
Нікі

@MSalters: Гадаю, так. Але тоді це, здається, девальвує це неабияк, якщо ви насправді не зможете показати фотографії, які знаходяться на класовому кордоні, насправді повинні бути на класовій межі ...
Мехрдад

Речення "Наступним кроком є ​​побудова такої нейромережі, яка потребує стійкості". Взагалі, дуже важко позбутися проблеми NN-ненадійності. Але можна посилити стійкість шляхом змагальних тренувань (див., Наприклад, А. Куракін та ін., ICLR 2017 ), оборонної дистиляції (див., Наприклад, N. Papernot et al., SSP 2016 ), оборони MMSTV ( Maudry et al., ICLR 2018 ). Принаймні, останній може зробити NN більш надійним.
Ілля Палачев

4

Я вважаю, що це не так, жодна система не є безпечною, проте я не впевнений, чи можу я все-таки це сказати після 20-30 років розвитку / еволюції ШІ. У будь-якому разі є статті, які показали, що люди обдурюють AI (Computer Vision).

https://www.theverge.com/2018/1/3/16844842/ai-computer-vision-trick-adversarial-patches-google

https://spectrum.ieee.org/cars-that-think/transports/sensors/slight-street-sign-modifications-can-fool-machine-learning-algorithms


4

Чи вразливий штучний інтелект до злому?

На хвилину переверніть своє запитання і подумайте:

Що б зробило AI меншим ризиком злому в порівнянні з будь-яким іншим типом програмного забезпечення?

Зрештою, програмне забезпечення - це програмне забезпечення, і завжди будуть проблеми та проблеми із безпекою. ШІ піддаються ризику всіх проблем, яким не загрожує програмне забезпечення, яке не належить до ІП, оскільки AI не надає йому якогось імунітету.

Що стосується фальсифікацій, пов'язаних зі ІІ, то АІ ризикує подати неправдиву інформацію. На відміну від більшості програм, функціональність AI визначається даними, які він споживає.

На прикладі реального світу, кілька років тому Microsoft створила AI-чат під назвою Tay. Люди Твіттера знадобилися менше 24 годин, щоб навчити його говорити "Ми збираємося будувати стіну, а Мексико збирається платити за це":

Ми збираємось будувати стіну, а Мексико збирається за це заплатити

(Зображення взято із статті, присвяченої Verge нижче, я не претендую на це.)

І це лише верхівка айсберга.

Деякі статті про Тей:

А тепер уявіть, що це не бот-чат, уявіть, що це був важливий фрагмент ШІ з майбутнього, коли AI відповідає за такі речі, як не вбивство пасажирів автомобіля (тобто автомобіль, що керує авто), або не вбивство пацієнта на операційний стіл (тобто якесь обладнання для медичної допомоги).

Зрозуміло, можна сподіватися, що такі ШІ будуть краще захищені від таких загроз, але припустимо, що хтось знайшов спосіб подати таку масу неправдивої інформації, не помітивши (адже найкращі хакери не залишають сліду), що справді може означати різниця між життям і смертю.

Скориставшись прикладом автомобіля, що керує самостійно, уявіть, чи неправдиві дані можуть змусити машину подумати, що потрібно зробити аварійну зупинку під час руху на автостраді. Одним із застосувань для медичного ШІ є рішення про смерть або смерть у ЕР, уявіть, якби хакер міг нахилити ваги на користь неправильного рішення.

Як ми можемо це запобігти?

Зрештою, масштаб ризику залежить від того, наскільки надійні люди стають на ШІ. Наприклад, якби люди приймали судження про ІП і ніколи його не ставили під сумнів, вони відкривали б собі всілякі маніпуляції. Однак, якщо вони використовують аналіз ІІ як лише одну частину головоломки, було б легше помітити, коли ІП помиляється, будь то випадковими або зловмисними засобами.

Що стосується лікаря, який приймає рішення, не вірите лише ШІ, проводьте фізичні випробування і отримайте також думки людини. Якщо два лікарі не згодні з ШІ, викиньте діагноз ШІ.

Що стосується автомобіля, одна з можливостей - мати кілька зайвих систем, які по суті повинні "голосувати" про те, що робити. Якщо автомобіль мав кілька ІС на окремих системах, які повинні проголосувати за те, які дії потрібно вжити, хакеру доведеться вивезти більше ніж один ІС, щоб отримати контроль або викликати тупик. Важливо, що якщо AI працювали в різних системах, однакова експлуатація, що використовується на одній, не могла бути здійснена в іншій, що ще більше збільшило навантаження хакера.


1
Мені подобається ідея наявності декількох окремих ШІ систем, які повинні досягти згоди як техніка пом'якшення наслідків. Хоча тоді ви повинні бути впевнені, який механізм голосування, який вони використовували, не міг би містити підробку рішення.
Крістофер Гріффіт

@ChristopherGriffith Щоправда, це ризик. У випадку з автомобілем найкращий спосіб пом'якшити - це спроектувати систему так, щоб зловмиснику був потрібен фізичний доступ для маніпулювання нею та ускладнення її доїзду, щоб людині довелося зайти до машини, щоб отримати доступ до неї. Тримання системи в режимі офлайн - це, як правило, хороший контрмер, хоча не завжди ідеальний.
Фарап

1

Я погоджуюсь з Akio, що жодна система не є повністю безпечною, однак AI-системи є менш схильними до атак при порівнянні зі старими системами через здатність постійно вдосконалюватися.

З плином часу все більше людей потраплять у поле, приносячи нові ідеї та обладнання, вони покращуватимуться, щоб вони були "сильним AI".


1

Чи вразливий штучний інтелект до злому?

натяк; якщо ви скажете, що AI вразливий, то я не згоден з вами тут таким твердженням. Штучний інтелект розділений на три категорії, ні фази, які ми повинні пройти, тобто.

  • штучний вузький інтелект

  • штучний загальний інтелект

  • штучний супер інтелект

Тому, згідно з вашою заявою; "Мене турбує, що злісні актори можуть спробувати зламати ШІ ..."

Наведений прикладами у вашому повідомленні, ми перебуваємо на рівні штучного вузького інтелекту, де хакер може скрутити свій / шкідливий код для вторгнення в такі програми на цьому рівні. Однак, якщо ми перейдемо прямо до кінцевого рівня Штучного Інтелект; то будь-якими способами; людина не може вторгнутись і не зламати супер інтелігентну програмну програму чи високотехнологічний супер інтелігентний агент. Наприклад; людський хакер, робить одне по одному, ніщо не може зупинити штучний інтелект, що розділяє його фокус і робить багато співробітників одночасно, це важко другим здогадатися розум, який працює точно так

до твого відома

не сприймайте те, що в ЗМІ про АІ загалом говорять, просто тому, що вони не знають, що найголовніше - це нові види, які конкурують з людьми

просто уявіть собі життя в новому суспільстві, яке є високотехнологічним. Перевірте кібер-грандіозний виклик

Якщо ви пропустили цю подію, то мені шкода.


Я б міг уявити, що навіть у світі з штучно над інтелектуальними творами все ще знайдуться способи зламати ці системи, використовуючи високоспеціалізовані інструменти, які можуть просто перевершити узагальнені системи ШІ при конкретних завданнях.
krowe2

1

Інтелект будь-якого типу вразливий для злому, незалежно від ДНК чи штучного характеру. Спочатку визначимося злом. У цьому контексті хакерство - це використання слабких сторін для досягнення конкретних цілей, які можуть включати статус, фінансову вигоду, зрив бізнесу чи уряду, інформацію, яка може бути використана для вимагання, перевага в діловій угоді або виборах чи інша форма контролю чи маніпуляцій.

Ось приклади стратегій злому мозку та їх загальних цілей. Кожен з них має еквівалент цифрової системи.

  • Урядова пропаганда - передбачувана відповідність
  • Шахраї - гроші
  • Підробка - жартівлива реакція громадськості
  • Рольова гра - завоюйте довіру, щоб отримати доступ або маніпулювати
  • Больові центри - експлуатують залежність для збільшення доходу

Деякі стурбовані тим, що називалося Сингулярністю, де інтелектуальні програми програмного забезпечення можуть мати змогу зламати людей та їхні соціальні структури, щоб досягти власних цілей. Те, що люди можуть зламати розумних агентів інших людей, - це ще одна очевидна можливість. Я не думаю, що дані тренувань є єдиною точкою нападу.

  • Матриці параметрів можна перезаписати так, що важко виявити.
  • Сигнали посилення можуть бути підроблені.
  • Можуть бути використані відомі кишені помилок у вхідних перестановках.
  • Детермінований характер цифрових систем може бути використаний іншими глибокими учнями, дублюючи підготовлену систему та шукаючи точки вразливості в режимі офлайн, перш ніж виконувати їх по мережі

Перелічені у питанні можливості заслуговують на розгляд, але це моя версія списку.

  • Вбивство через несправність АВ або підробку систем ідентифікації в аптеках чи лікарнях
  • Перенаправлення великої кількості відвантаженого товару одержувачу, який не оплатив їх
  • Соціальний геноцид шляхом маргіналізації конкретних груп людей

Єдиний спосіб запобігти цьому - дочекатися глобальної події вимирання, але можливі способи її пом'якшення. Так само, як сатана програми був написаний для пошуку вразливостей в системах UNIX, інтелектуальні системи можуть бути розроблені для пошуку вразливостей в інших інтелектуальних системах. Звичайно, подібно до того, як моделі програмування та звичайні інформаційні системи можуть бути розроблені з урахуванням безпеки, зменшуючи вразливості настільки, наскільки це можливо, з першого дня, системи ІІ можуть бути розроблені з цією метою.

Якщо ви слідуєте інформаційному шляху будь-якої системи та розглядаєте способи зчитування або запису сигналу в будь-якій точці шляху, ви можете попередньо захиститись від цих точок доступу. Очевидно, що обережність при отриманні даних, що використовуються для навчання, є ключовою у випадку, зазначеному в цьому питанні, і потрібне правильне шифрування за інформаційними шляхами, а також забезпечення того, що фізичному доступу не надається сторонній персонал, але я передбачаю сутички між заходами та контрзаходи, що випливають із цих проблем та можливостей.


0

Існує багато способів зламати ШІ. У дитинстві я зрозумів, як побити шаховий комп’ютер. Я завжди дотримувався однієї і тієї ж схеми, як тільки ти дізнаєшся, ти можеш її використовувати. Найкращий у світі хакер - чотирирічний, який хоче щось, він спробує різні речі, поки він не встановить зразок у своїх батьків. У будь-якому разі, отримайте Ай, щоб дізнатися схеми ІС і за даною комбінацією ви можете визначити результат. Також у коді є цілком прості недоліки або задні двері, або спеціально, або випадково. Також є можливість, щоб AI зламав себе. Це називається нехорошо, згадайте про маленьку дитину знову ...

BTW простий спосіб - зробити AI завжди виходить з ладу ... щось, що люди забувають.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.