Межі на


21

Якщо f - опукла функція, то нерівність Дженсена визначає, що f(E[x])E[f(x)] , а mutatis mutandis, коли f увігнута. Очевидно, що в гіршому випадку ви не можете встановити верхню межу E[f(x)] з точки зору f(E[x]) для опуклого f , але чи існує межа, яка йде в цьому напрямку, якщо fє опуклим, але "не надто опуклим"? Чи є якась стандартна межа, яка дає умови для опуклої функції f (і, можливо, і розподілу, якщо це необхідно), що дозволить зробити висновок, що E[f(x)]φ(f)f(E[x]) , де φ(f) - деяка функція кривизни / ступеня опуклості f ? Щось схоже на стан Ліпшиця, можливо?


Голосування закрити як поза темою. math.stackexchange.com можливо?
Ар'ябхата

7
Я думаю, що це питання має залишатися відкритим; це така нерівність, яку багато працюючих теоретиків вважають корисними регулярно.
Аарон Рот

10
Я знаю, що це ближче до чистої математики, ніж більшість питань, розміщених до цих пір, але я б стверджував, що це актуально, оскільки подібні речі часто трапляються при аналізі рандомізованих алгоритмів (що є у мене в застосуванні розум). Я думаю, що математику, яка широко використовується в інформатиці, слід вважати чесною грою на питання.
Ян

6
голосувати за те, щоб залишатись відкритими. напевно на тему
Суреш Венкат

1
Я також голосую за те, щоб залишатися відкритими.
Jeffε

Відповіді:


21

EDIT: в оригінальній версії пропущено абсолютне значення. вибачте !!

Привіт, Іне. Я коротко охарактеризую дві вибіркові нерівності: одна використовує ліпшицьку зв'язану, інша з використанням пов'язаної на другій похідній, а потім обговорюю деякі труднощі у цій проблемі. Хоча я є зайвим, оскільки підхід із використанням однієї похідної пояснює, що відбувається з більшою кількістю похідних (через Тейлора), виявляється, що друга версія похідних є досить приємною.

По-перше, з ліпшицьким зв’язком: просто переробіть стандартну нерівність Дженсена. Цей же трюк застосовується: обчислити розширення Тейлора за очікуваним значенням.

Зокрема, нехай має відповідну міру μ , а m : = E ( x ) . Якщо f має постійну Ліпшица L , то за теоремою ТейлораXμm:=E(x)fL

f(x)=f(m)+f(z)(xm)f(m)+L|xm|,

де (зауважте, що x m і x > m можливі). Використовуючи це і переробляючи доказ Дженсена (я параноїк і перевірив, що стандартний дійсно є у Вікіпедії),z[m,x]xmx>m

E(f(X))=f(x)dμ(x)f(m)dμ(x)+L|xm|dμ(x)=f(E(X))+LE(|XE(X)|).

Тепер припустимо . В цьому випадку,|f(x)|λ

f(x)=f(m)+f(m)(xm)+f(z)(xm)22f(m)+f(m)(xm)+λ(xm)22,

і так

E(f(X))f(m)+f(m)(E(X)m)+λE((Xm)2)2=f(E(X))+λVar(X)2.

Я хотів би коротко згадати кілька речей. Вибачте, якщо вони очевидні.

Одне полягає в тому, що ви не можете просто сказати "wlog ", змістивши розподіл, оскільки ви змінюєте співвідношення між f і μ .E(X)=0fμ

Далі, що пов'язане має певним чином залежати від розподілу. Щоб побачити це, уявіть, що і f ( x ) = x 2 . Яким би не було значення σ , ви все одно отримаєте f ( E ( X ) ) = f ( 0 ) = 0 . З іншого боку, E ( f ( X ) ) = E ( XXGaussian(0,σ2)f(x)=x2σf(E(X))=f(0)=0 . Таким чином, змінивши σ , ви можете зробити проміжок між двома величинами довільним! Інтуїтивно більшу масу відштовхують від середнього значення, і, таким чином, для будь-якої строго опуклої функції E ( f ( X ) ) зросте.E(f(X))=E(X2)=σ2σE(f(X))

Нарешті, я не бачу, як отримати мультиплікативну межу, як ви пропонуєте. Все, що я використовував у цій публікації, є стандартним: теорема Тейлора та похідні межі - це хліб та масло в межах статистики, і вони автоматично дають додаткові, а не мультиплікативні помилки.

Я подумаю про це, хоча і опублікую щось. Неясна інтуїція полягає в тому, що їй потрібні дуже жорсткі умови як функціонування, так і розподілу, і те, що пов'язана з добавкою реально лежить в основі її.


Щоразу, коли я редагую, відповідь натрапляє. Тож я зазначу: друга прив’язка похідних є тісною для прикладу, який я дав.
матус

Я думаю, що ти маєш рацію в тому, що границі адитивів є найкращими без особливо сильних умов функціонування.
Ян

f(E(X))=0E(f(X))>0
matus

@Ian: Докази нерівностей Чорноффа та Азума-Гоффдінга використовують аргументи, що нагадують про це, тож ви можете прочитати їх для натхнення. Див., Наприклад, книгу Міценмахера та Упфала про рандомізацію в обчислювальній техніці.
Воррен Шуді

3

Для ознайомлення розглянемо розподіл, зосереджений на двох значеннях; скажімо, з однаковою ймовірністю 1/2, що вона дорівнює 1 або 3, звідки Е[х]=2. БратиN>>0 і ϵ>0. Розглянемо функціїf для котрого f(1)=f(3)=Nϵ and f(E[x])=f(2)=ϵ. By making ϵ sufficiently small and connecting f continuously among these three points we can make the curvature of f as small as desired. Then

E[f(x)]=Nϵ, yet

N=Nϵ/ϵ=E[f(x)]/f(E[x])φ(f).

This shows φ(f) must be arbitrarily large.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.