Конкретне розуміння різниці між визначеннями PP та BPP

9

Мене бентежить питання про визначення ПП та БПП . Припустимо, що є характерною функцією для мови . Я повинен бути вірогідною машиною Тюрінга. Чи правильні такі визначення: $\chi$ $\mathcal{L}$
$BPP =\{\mathcal{L} :Pr[\chi(x) \ne M(x)] \geq \frac{1}{2} + \epsilon \quad \forall x \in \mathcal{L},\ \epsilon > 0 \}$
$PP =\{\mathcal{L} :Pr[\chi(x) \ne M(x)] > \frac{1}{2} \}$

Якщо визначення неправильне, будь ласка, спробуйте внести мінімальні зміни, щоб зробити їх правильними (тобто не дайте іншого еквівалентного визначення, яке використовує лічильну машину чи якусь модифіковану модель). Я не можу належним чином виділити умови щодо ймовірності в обох означеннях.

Деякі конкретні приклади з чітким розумінням тонких моментів були б дуже корисними.

— ДургаДатта
джерело

10

Це мені здається правильним. Різниця між BPP та PP полягає в тому, що для BPP вірогідність повинна бути більшою за на постійну , тоді як для PP вона може бути . Отже, для проблем з BPP ви можете зробити посилення ймовірності з невеликою кількістю повторень, тоді як для загальних проблем з ПП ви не можете. $1/2$ $1/2+ 1/2^n$

— adrianN
джерело

12

Відповідь Вор дає стандартне визначення. Дозвольте спробувати пояснити різницю трохи інтуїтивніше.

Нехай - алгоритм поліноміально-часової помилки з обмеженою помилкою для мови який відповідає правильно з вірогідністю принаймні . Нехай - вхід, а - розмір введення. $M$ $L$ $p\geq\frac{1}{2}+\delta$ $x$ $n$

Що відрізняє довільний алгоритм з алгоритму є позитивним розривом між ймовірністю прийняття і ймовірності прийняти . $\mathsf{PP}$ $\mathsf{BPP}$ $x\in L$ $x\notin L$ Найважливіше в полягає в тому, що розрив становить принаймні . Я спробую пояснити, чому ця відмінність є істотною і дозволяє нам вважати вважати ефективними алгоритмами (навіть передбачається, що вони рівні ), тоді як вважається неефективним (насправді містить $\mathsf{BPP}$ $n^{-O(1)}$ $\mathsf{BPP}$ $\mathsf{P}$ $\mathsf{PP}$ $\mathsf{PP}$ $\mathsf{NP}$ ). Все це випливає з цього розриву.

Для початку поглянемо на уважніше. $\mathsf{PP}$

Зауважте, що якщо алгоритм використовує щонайбільше випадкових бітів під час його виконання, а ймовірність помилки менша ніж то ймовірність помилки насправді , не може бути обраний випадкових бітів зробити неправильний відповідь алгоритму. $r(n)$ $2^{-r(n)}$ $0$

Крім того, алгоритм із часом виконання не може використовувати більше, ніж випадкових бітів, тому якщо помилка ймовірнісного алгоритму з найгіршим випадком часу краще, ніж $t(n)$ $t(n)$ $t(n)$

З аналогічним аргументом ми можемо показати, що випадок, коли різниця між ймовірністю прийняття та ймовірністю прийняття занадто мала, аналогічний випадку, коли у нас майже немає різниці як у випадку . $x\in L$ $x\notin L$ $\mathsf{PP}$

Перейдемо тепер до . $\mathsf{BPP}$

У імовірнісних алгоритмах ми можемо збільшити ймовірність правильної відповіді. Скажімо, ми хочемо збільшити вірогідність коректності до для ймовірності помилки (експоненціально мала помилка). $1-\epsilon$ $\epsilon=2^{-n}$

Ідея проста: запустіть кілька разів і прийміть відповідь більшості. $M$

Скільки разів нам слід запустити щоб отримати максимум ймовірності помилки ? разів. Доказ наведено внизу цієї відповіді. $M$ $\epsilon$ $\Theta(\delta^{-1} \lg \epsilon)$

Тепер візьмемо до уваги, що алгоритми, про які ми обговорюємо, повинні бути багаточленними. Це означає, що ми не можемо виконувати більше, ніж поліноміально багато разів. Іншими словами, , або простіше кажучи $M$ $\Theta(\delta^{-1} \ln \epsilon) = n^{O(1)}$

δ^{- 1} \lg ϵ = n^{O (1)}

$\delta^{-1} \lg \epsilon = n^{O(1)}$

Це відношення класифікує обмежені ймовірнісні алгоритми помилок на класи залежно від їх ймовірності помилок. Немає різниці між тим, що ймовірність помилки є або позитивною константою (тобто не змінюється на ) або . Ми можемо перейти від однієї до іншої, залишаючись всередині поліноміального часу. $\epsilon$ $2^{-n}$ $n$ $\frac{1}{2}-n^{O(1)}$

Однак якщо занадто мала, скажімо, , або навіть тоді ми не можемо збільшити ймовірність правильності та достатньо зменшити ймовірність помилок до потрапити в . $\delta$ $0$ $2^{-n}$ $n^{-\omega(1)}$ $\mathsf{BPP}$

Тут головним є те, що в ми можемо ефективно зменшити ймовірність помилок в експоненціальній формі, тому ми майже впевнені у відповідях, і саме це змушує нас розглядати цей клас алгоритмів як ефективні алгоритми. Ймовірність помилок може бути настільки зменшена, що швидше за все є апаратний збій або навіть падіння метеора на комп'ютер швидше, ніж помилка за імовірнісним алгоритмом. $\mathsf{BPP}$

Це не вірно для , ми не знаємо жодного способу зменшення ймовірності помилок, і нам залишається майже так, як ніби ми відповідаємо, кинувши монету, щоб отримати відповідь (ми не повністю, ймовірності є не половина і половина, але це дуже близько до тієї ситуації). $\mathsf{PP}$

Цей розділ дає доказ того, що для отримання ймовірності помилок коли ми починаємо з алгоритму з розривом ми повинні запустити разів. $\epsilon$ $(\frac{1}{2}-\delta,\frac{1}{2}+\delta)$ $M$ $\Theta(\delta^{-1} \lg \epsilon)$

Нехай - алгоритм, який виконує для разів, а потім відповідає відповідно до відповіді більшості. Для простоти припустимо, що непарне, тому у нас немає зв’язків. $N_k$ $M$ $k$ $k$

Розглянемо випадок, . Випадок аналогічний. Тоді Для аналізу ймовірності правильності нам потрібно оцінити ймовірність більшості в пробіги прийняти. $x \in L$ $x \notin L$

P r {M (x) accepts} = p \geq \frac{1}{2} + δ

$\mathsf{Pr}\{M(x) \text{ accepts}\} = p \geq \frac{1}{2} + \delta$

N_{k}

$N_k$

k

$k$

Нехай дорівнює 1, якщо значення $X_i$ $i$ th біг приймає і бути $0$ якщо він відкидає. Зауважте, що кожен запуск незалежний від інших, оскільки вони використовують незалежні випадкові біти. Таким чином $X_i$ s - незалежні булеві випадкові величини де

E [X_{i}] = P r {X_{i} = 1} = P r {M (x) accepts} = p \geq \frac{1}{2} + δ

$\mathbb{E}[X_i] = \mathsf{Pr}\{X_i=1\} = \mathsf{Pr}\{M(x)\text{ accepts}\} = p \geq \frac{1}{2}+\delta$

Дозволяє $Y = \Sigma_{i=1}^k X_i$ . Нам потрібно оцінити ймовірність, яку приймає більшість, тобто ймовірність цього $Y\geq\frac{k}{2}$ .

P r {N_{k} (x) accepts} = P r {Y \geq \frac{k}{2}}

$\mathsf{Pr}\{N_k(x) \text{ accepts}\} = \mathsf{Pr}\{Y \geq \frac{k}{2}\}$

Як це зробити? Ми можемо використовувати граничну форму Черноффа, яка говорить нам про концентрацію ймовірності поблизу очікуваного значення. Для будь-якої випадкової величини $Z$ з очікуваною вартістю $\mu$ , ми маємо

P r {| Z - μ | > α μ} < e^{\frac{α^{2}}{4} μ}

$\mathsf{Pr}\{|Z-\mu| > \alpha\mu\} < e^{\frac{\alpha^2}{4}\mu}$

що говорить, що ймовірність того $Z$ є далеко від очікуваного значення експоненціально зменшується, оскільки збільшується. Ми будемо використовувати його для обмеження ймовірності . $\alpha\mu$ $\mu$ $\alpha$ $Y < \frac{k}{2}$

Зауважимо, що за лінійністю очікування маємо

E [Y] = E [Σ_{i = 1}^{k} X_{i}] = Σ_{i = 1}^{k} E [X_{i}] = k p \geq \frac{k}{2} + k δ

$\mathbb{E}[Y] = \mathbb{E}[\Sigma_{i=1}^k X_i] = \Sigma_{i=1}^k \mathbb{E}[X_i] = kp \geq \frac{k}{2} + k\delta$

Тепер ми можемо застосувати обмежений зв'язок Чорноффа. Ми хочемо верхньої межі ймовірності . Межа Чорноффа дасть верхню межу щодо ймовірності якої достатньо. Ми маємо $Y< \frac{k}{2}$ $|Y-(\frac{k}{2}+k\delta)| > k\delta$

P r {| Y - k p | > α k p} < e^{- \frac{α^{2}}{4} k p}

$Pr\{|Y - kp| > \alpha kp\} < e^{-\frac{\alpha^2}{4}kp}$

і якщо ми виберемо так, що ми закінчили, то виберемо . $\alpha$ $\alpha kp = k\delta$ $\alpha = \frac{\delta}{p} \leq \frac{2\delta}{2\delta+1}$

Тому ми маємо

P r {Y < \frac{k}{2}} \leq P r {| Y - (\frac{k}{2} + k δ) | > k δ} \leq P r {| Y - k p | > α k p} < e^{- \frac{α^{2}}{4} k p}

$Pr\{Y < \frac{k}{2} \} \leq Pr\{|Y - (\frac{k}{2}+k\delta)| > k\delta\} \leq Pr\{|Y - kp| > \alpha kp\} < e^{-\frac{\alpha^2}{4}kp}$

і якщо ви зробите розрахунки, ви побачите це

\frac{α^{2}}{4} k p \leq \frac{δ^{2}}{4 δ + 2} k = Θ (k δ)

$\frac{\alpha^2}{4}kp \leq \frac{\delta^2}{4\delta+2}k = \Theta(k\delta)$

ми маємо

P r {Y < \frac{k}{2}} < e^{- Θ (k δ)}

$Pr\{Y < \frac{k}{2} \} < e^{-\Theta(k\delta)}$

Ми хочемо, щоб помилка була не більше , тому ми хочемо $\epsilon$

e^{- Θ (k δ)} \leq ϵ

$e^{-\Theta(k\delta)} \leq \epsilon$

або іншими словами

Θ (δ^{- 1} \lg ϵ) \leq k

$\Theta(\delta^{-1} \lg \epsilon) \leq k$

Один важливий момент в тому , що в процесі ми будемо використовувати набагато більше випадкових бітів , а також час роботи збільшиться, тобто найгірший приработку час буде приблизно разів перевищує обкатки час . $N_k$ $k$ $M$

Тут була середня точка розриву $\frac{1}{2}$ . Але загалом це не повинно бути так. Ми можемо прийняти подібний метод для інших цінностей, взявши інші фракції замість більшості для прийняття.

— Каве
джерело

7

Використання позначень:

$BPP =\{L : \exists$ вірогідна поліномальна машина Тьюрінга $M,$ і костант $0 < c \leq 1/2$ такий як $\forall x \; Pr[\chi_L(x) = M(x)] \geq \frac{1}{2} + c\}$

$PP =\{L : \exists$ вірогідна поліномальна машина Тьюрінга $M$ такий як $\forall x \; Pr[\chi_L(x) = M(x)] > \frac{1}{2}\}$

Різниця вказала adrianN, і ви також можете подивитися на Вікіпедія PP проти BPP

— Vor
джерело