Нижня межа для тестової близькості в нормі ?


11

Мені було цікаво, чи існує якась нижня межа (з точки зору складності вибірки) для наступної проблеми:

Дано зразок доступу Oracle до двох невідомих дистрибутивів , на , перевірити (whp) чиD1D2{1,,n}

  • D1=D2
  • абоd2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Бату та ін. [BFR + 00] показав, що зразки O(1ϵ4) були достатніми, але я не знайшов жодної згадки про нижню межу?

Я вважаю, що завжди можна показати нижню межу Ω(1ϵ2) , зменшивши завдання розрізнити справедливу проти ϵ -мобільну монету до цієї проблеми (імітуючи розподіл, підтримуваний лише на двох балів та відповіді на запити тестера відповідно до кидання монети iid), але це все ще залишає квадратичний проміжок ...

(Ще один момент, який мене зацікавив би - нижня межа оцінки (до добавки ϵ ) цієї відстані L2 - знову ж таки, я не знайшов посилання на такий результат у літературі)

Спасибі за вашу допомогу,


Ця проблема обіцянок здається дуже схожою на ту, що називається статистичною різницею Сахая та Вадхана, що є повною проблемою для класу SZK (статистичні нульові знання); однак вони використовують відстань . cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (Редагувати: також я думаю, що вони припускають, що у вас є схема, що обчислює розподіли, а не доступ до оракула.)L1
usul

Привіт, як згадувалося в іншому коментарі, різниця між нормою та тут насправді вирішальна - далі, у цій статті вони встановлюють явний (а не довільний) поріг (в одному із зауважень, вони пояснюють, що цей поріг потребує задоволення певного обмеження); і хочете розрізняти проти (що дещо ближче до толерантного тестування / оцінки відстані, ніж "звичайне тестування", де ви хочете перевірити проти (але для будь-якого фіксованого )). L2L1τ=1/3d1τd21τd2=0d2ϵϵ
Климент К.

Відповіді:


6

Здається, що зразків - як показано усул нижче - достатньо для тестування, так що складність вибірки є точно ; насправді, виявляється, що ця кількість зразків нам навіть достатня для вивчення до добавки wrt норми .O(1/ϵ2)Θ(1/ϵ2) DϵL2


Нехай - емпірична функція густини, отримана шляхом малювання iid зразків та встановлення Тоді де . D^ms1,,smD

D^(k)=def1m=1m1{s=k},k[n]
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
Xk=def=1m1{s=k}Bin(m,D(k))Xk's (для ) не є незалежними, але ми можемо записати так, що для , і застосовуючи нерівність Маркова k[n]
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
m3ϵ2
EDD^22ϵ23
P{DD^2ϵ}13.

(Я мав на увазі відповідь usul, починаючи з "Я спробую спокутувати попередню помилку, показавши щось протилежне [...]" - що насправді вище цього. Я цього не очікував :)) Щодо навчання Верхня межа, можна показати, що найбільш наївний алгоритм (тобто той, який малює зразки і видає емпіричну щільність, яку це визначає) дає розподіл який з постійною ймовірністю -закрити на на відстані . m=O(1/ϵ2)D^ϵDL2
Климент К.

@DW Я щойно відредагував свою відповідь.
Климент К.

3

Я спробую спокутувати попередню помилку, показавши щось протилежне - що достатньо зразків (нижня межа майже щільно)! Подивіться, що ви думаєте….Θ~(1ϵ2)1/ϵ2

Ключова інтуїція починається з двох спостережень. По-перше, для того, щоб розподіли мали відстань , повинні бути точки з високою ймовірністю ( ). Наприклад, якби у нас був точки ймовірності , ми мали б .L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

По-друге, розглянемо рівномірні розподіли з відстані . Якби у нас були точки ймовірності , то вони відрізнялися б від а зразків було б достатньо. З іншого боку, якби у нас були точки , вони повинні відрізнятись від і знову зразків (постійне число в бал) достатньо. Таким чином, ми можемо сподіватися, що серед згаданих раніше точок високої ймовірності завжди є якийсь момент, що відрізняється «достатньою», що малює його.L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

Алгоритм. Враховуючи і параметр довіри , нехай . Намалюйте зразки з кожного розподілу. Нехай - відповідна більша, менша кількість зразків для точки . Якщо є якась для якої і , оголосимо розподіли різні. В іншому випадку заявляйте їх однаково.ϵMX=Mlog(1/ϵ2)Xϵ2ai,biii[n]aiX8aibiaiX4

Межі правильності та достовірності ( ) залежать від наступної леми, яка говорить про те, що всі відхилення відстані походять від точок, ймовірності яких відрізняються від .1eΩ(M)L2Ω(ϵ2)

Претензія. Припустимо . Нехай. Нехай . Тоді D1D22ϵδi=|D1(i)D2(i)|Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

Доказ . Маємо Зв’яжемо другу суму; ми хочемо максимізувати умови . Оскільки функція суворо опукла і збільшується, ми можемо збільшити ціль, взявши будь-який і збільшивши на , зменшивши на . Таким чином, ціль буде максимально досягнута якомога більше термінів при їх максимальних значеннях, а решта -

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δiδjδiγδjγ0. Максимальне значення кожного терміна - , і є щонайбільше умови цього значення (оскільки вони становлять щонайбільше ). Тож ϵ2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

Претензія . Нехай . Якщо , існує принаймні одна точка з і .pi=max{D1(i),D2(i)}D1D22ϵi[n]pi>ϵ24δiϵpi2

Доказ . По-перше, всі точки в мають за визначенням (і не може бути порожнім для за попередньою заявою).Skpiδi>ϵ2kSkk>2

По-друге, тому що , ми маємо або, переставляючи, тому нерівність містить щонайменше одну точку в . Тепер виберіть . ipi2

iSkδi2ϵ2(121k)iSkpi,
iSk(δi2piϵ2(121k))0,
δi2piϵ2(121k)
Skk=4

Претензія (помилкові позитиви) . Якщо , наш алгоритм оголошує їх різними з вірогідністю не більше .D1=D2eΩ(M)

Ескіз . Розглянемо два випадки: і . У першому випадку кількість зразків не перевищуватиме від будь-якого розподілу: Середня кількість зразків а пов'язаний хвіст говорить про те, що з ймовірністю , зразки не перевищують середнього значення за добавкою ; якщо ми обережні, щоб утримувати значення у хвостовому зв’язку, ми можемо об'єднати прив’язані до них незалежно від того, скільки таких точок є (інтуїтивно, обмеження зменшується експоненціально у кількості можливих точок).pi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

У випадку , ми можемо використати обмеження Черноффа: Це говорить про те, що, коли ми беремо вибірок і точка складається з ймовірністю , ймовірність відрізняється від її середньої на - це не більше . Нехай , тому ймовірність обмежена .piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

Тож з ймовірністю , (для обох розподілів) кількість зразків знаходиться в межах його середнього . Таким чином, наш тест не набере цих балів (вони дуже близькі один до одного), і ми можемо об'єднати всі з них. 1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

Претензія (хибні негативи) . Якщо , наш алгоритм оголошує їх однаковими з ймовірністю не більше .D1D22ϵϵ2eΩ(M)

Ескіз . Існує деякий момент з і . Той самий зв’язаний Чернофф, як і в попередній претензії, говорить про те, що з вірогідністю кількість зразків відрізняється від його середнього не більше . Це для (WLOG) розподілу який має ; але існує ще менша ймовірність кількості зразків від розподілуipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2 відрізняється від середнього значення цією кількістю добавки (оскільки середнє значення та дисперсія нижчі).

Тож з великою часткою ймовірності кількість зразків з кожного розподілу знаходиться в межах його середнього значення; але їхні ймовірності різняться на , тому їхні значення різняться на ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

Тож з великою ймовірністю для точки кількість зразків відрізняється щонайменше . i#samples(1)X4

Для завершення ескізів нам потрібно більш жорстко показати, що для досить велика кількість зразків досить близька до його середнього значення, що коли алгоритм використовує а не , це нічого не змінює (що повинно бути прямо, залишивши в константах певну кімнату).Mi#samplesmean


Привіт, спасибі за це - у мене є кілька запитань щодо алгоритму та аналізу (щодо пари балів, які я не впевнений): припускаючи, що я хочу лише в кінці постійної ймовірності успіху, це означає, що постійна, якщо я правильно розумію (якщо я не зрозуміла, що таке )? Тож у цьому випадку, звернувшись до : згідно алгоритму це стає - це правильно? 2/3MMXΘ(log1ϵ)
Климент К.

@ClementC. Вибачте, я був не дуже зрозумілий! Твердження полягає в тому, що якщо ми намалюємо зразки , то ймовірність помилятися - , так що постійна ймовірність помилятися, його вибірки. 1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
usul

Гаразд, ось що я зібрав. Я буду враховувати це на увазі - ще раз дякую за витрачений на це час!
Климент К.

1

Ви можете почати, намагаючись вирішити це для випадку . Я впевнений , що в цьому випадку зразки будуть необхідними та достатніми.n=2Θ(1/ϵ2)

Можливо, вам може бути корисно подивитися на перетворення між відстані та відстані (загальна відстань варіації).L2L1

  • Відомо, що з одного зразка, якщо відомі розподіли, загальна відстань варіації чудово характеризує ту перевагу, за якою можна відрізнити від . Таким чином, якщо загальна відстань варіації велика і розподіли відомі, можна побудувати тест, правильний з великою ймовірністю; якщо загальна відстань варіації невелика, не можна. Я не знаю, що можна сказати про випадок, коли загальна відстань варіації велика, але розподіли невідомі.D1D2

  • Далі ви можете переглянути дистрибуції продуктів, та . Використовуючи загальну відстань варіації (відстань ), здається, немає хороших меж, що стосуються до . Однак, використовуючи відстань , я вважаю, що є хороші оцінки як функції . (На жаль, я, здається, не можу викопати конкретні посилання на ці оцінки / межі, тому, сподіваюся, я не помиляюся.) Також відомі межі, які дозволяють оцінити відстань як функцію відстані .D1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • Отже, одним із підходів, який ви можете спробувати, було б зв'язати , то від цього отримати обмеження на .||D1nD2n||2||D1nD2n||1

Я не знаю, чи це призведе кудись добре чи ні; це просто ідея. Ймовірно, автори статті, яку ви цитуєте, вже спробували чи розглянули щось подібне.

Можливо корисні посилання:


Привіт, Дякую за Вашу відповідь! Однак мене цікавить нижня межа асимптотики, коли . Зокрема, співвідношення норм та включає фактор - це означає, що вони дійсно еквівалентні постійним, але асимптотично дуже різними; використання речовини як проксі - це не варіант, наскільки я можу сказати (що стосується тестування близькості на відстані , точна складність, як відомо, є [BFR + 10 , Val11 ]nL2L1nnL1L1Θ(n2/3/poly(ϵ))
Климент К.

0

EDIT: це неправильно! Дивіться дискусію в коментарях - я зазначу недолік нижче.

Я думаю, ми можемо сказати, що потрібно.1ϵ4

Встановіть . Нехай - рівномірний розподіл (ймовірність кожної точки ), і нехай відрізняється від рівномірного за додатковою сумою у кожній точці. Перевірте, чи відстань .n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

Отже, ми повинні відрізняти сторонню справедливу монету від однобічної -безпечної монети. Я думаю , що це повинно бути по крайней мере , так само важко , як розповідає односторонній монету з односторонній -biased монети, що вимагало б . Редагувати: це неправильно! Монета адитивно -захищена, але вона зміщується мультиплікативно постійним коефіцієнтом. Як вказує DW, це означає, що постійне число зразків на бал відрізняє від .nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


Зауважте, що настільки, наскільки ми можемо просунути цей рядок аргументів. Конкретно, припустимо, ми намагалися збільшити до, скажімо, . При рівномірному розподілі кожна точка має ймовірність . Але в нам потрібно, щоб кожна точка відрізнялася від рівномірної на . Це неможливо, оскільки .1ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

Більш абстрактно, припустимо, ми хочемо, щоб кожна точка відрізнялася від рівномірної на . Тоді найбільше ми можемо встановити було б . Щоб отримати відстань , нам потрібно переконатися, що квадратний корінь суми відстаней дорівнює , тому , так так , і отримуємо .ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

Крім того, я думаю, той самий аргумент говорить про те, що якщо нас цікавить відстань з , нам потрібен , тому ми виберемо , тож кількість зразків складе . Я думаю, що це має сенс як пов'язана, незалежна від . Він наближається до нескінченності як . Якби ви намагалися розрізнити два розподіли на відстані не пов'язаних з , я зробив би безмежно великим і розклав різницю довільно тонкими, щоб ви ніколи не могли їх розрізнити (Lpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnnтобто фіксованої кількості зразків не вистачає для всіх ). Він також наближається до як ; це має сенс як обмежений, оскільки для норми ми можемо встановити і нехай кожна точка відрізняється на ; нам потрібно відібрати певний момент щоб переконатися, що він відрізняється від рівномірного, який буде приймати зразки.n1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. Ви дійсно маєте на увазі, що відрізняється від рівномірного на у кожній точці? Я підозрюю, що це помилка, і ви мали на увазі . D2±1/ϵ2±ϵ2
DW

1
2. Я не купую, що для розрізнення від потрібно зразка. Мені здається, що зразків достатньо. Пояснення (інтуїція): припустимо, ми наберемо вибірки і порахуємо, скільки разів виникає кожне можливе значення. Якщо вони походили з , кожен повинен відбуватися 100 разів (з std dev 10). Якщо вони походили з , кожен з них повинен відбуватися 200 разів (std dev 14) для половини з них, / 0 разів (std dev 0) для другої половини. Це досить легко, щоб розрізнити це двоє, якщо ви знаєте, що маєте справу з або або . D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
ДВ

@DW (1) ти маєш рацію! Виправлено. (2) Як ви сказали, я згоден, але я думаю, що з різним вибором констант важче. Я зображую щось подібне: , тому ставить ймовірність у кожній точці. Тоді відрізняється на у кожній точці (перевірте, чи відстань ), тому він ставить ймовірність або у кожній точці. n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
usul

1
Я думаю, що зразків все ще достатньо. Зберіть зразків і порахуйте, скільки разів виникає кожне можливе значення. Для кожен повинен виникати 1 000 000 разів (std dev ). Для кожен має відбуватися 900 000 разів (std dev ) або 1,100,000 разів (std dev ). Це досить легко, щоб розрізнити два, якщо ми знаємо, що ми маємо справу або з або з , тому що різниця між 1 000 000 до 1100 000 становить 100 стандартних відхилень, тобто величезна. O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@DW Я подумав про це більше - ти маєш рацію. Якщо їхні засоби відрізняються постійним мультиплікативним коефіцієнтом, то слід відрізняти постійну кількість зразків на бал. Це важливий мультиплікативний не адитивний фактор. Тоді цей підхід дає лише нижню межу . 1/ϵ2
usul
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.