EDIT: в оригінальній версії пропущено абсолютне значення. вибачте !!
Привіт, Іне. Я коротко охарактеризую дві вибіркові нерівності: одна використовує ліпшицьку зв'язану, інша з використанням пов'язаної на другій похідній, а потім обговорюю деякі труднощі у цій проблемі. Хоча я є зайвим, оскільки підхід із використанням однієї похідної пояснює, що відбувається з більшою кількістю похідних (через Тейлора), виявляється, що друга версія похідних є досить приємною.
По-перше, з ліпшицьким зв’язком: просто переробіть стандартну нерівність Дженсена. Цей же трюк застосовується: обчислити розширення Тейлора за очікуваним значенням.
Зокрема, нехай має відповідну міру μ , а m : = E ( x ) . Якщо f має постійну Ліпшица L , то за теоремою ТейлораXμm:=E(x)fL
f(x)=f(m)+f′(z)(x−m)≤f(m)+L|x−m|,
де (зауважте, що x ≤ m і x > m можливі). Використовуючи це і переробляючи доказ Дженсена (я параноїк і перевірив, що стандартний дійсно є у Вікіпедії),z∈[m,x]x≤mx>m
E(f(X))=∫f(x)dμ(x)≤f(m)∫dμ(x)+L∫|x−m|dμ(x)=f(E(X))+LE(|X−E(X)|).
Тепер припустимо . В цьому випадку,|f′′(x)|≤λ
f(x)=f(m)+f′(m)(x−m)+f′′(z)(x−m)22≤f(m)+f′(m)(x−m)+λ(x−m)22,
і так
E(f(X))≤f(m)+f′(m)(E(X)−m)+λE((X−m)2)2=f(E(X))+λVar(X)2.
Я хотів би коротко згадати кілька речей. Вибачте, якщо вони очевидні.
Одне полягає в тому, що ви не можете просто сказати "wlog ", змістивши розподіл, оскільки ви змінюєте співвідношення між f і μ .E(X)=0fμ
Далі, що пов'язане має певним чином залежати від розподілу. Щоб побачити це, уявіть, що і f ( x ) = x 2 . Яким би не було значення σ , ви все одно отримаєте f ( E ( X ) ) = f ( 0 ) = 0 . З іншого боку, E ( f ( X ) ) = E ( XX∼Gaussian(0,σ2)f(x)=x2σf(E(X))=f(0)=0 . Таким чином, змінивши σ , ви можете зробити проміжок між двома величинами довільним! Інтуїтивно більшу масу відштовхують від середнього значення, і, таким чином, для будь-якої строго опуклої функції E ( f ( X ) ) зросте.E(f(X))=E(X2)=σ2σE(f(X))
Нарешті, я не бачу, як отримати мультиплікативну межу, як ви пропонуєте. Все, що я використовував у цій публікації, є стандартним: теорема Тейлора та похідні межі - це хліб та масло в межах статистики, і вони автоматично дають додаткові, а не мультиплікативні помилки.
Я подумаю про це, хоча і опублікую щось. Неясна інтуїція полягає в тому, що їй потрібні дуже жорсткі умови як функціонування, так і розподілу, і те, що пов'язана з добавкою реально лежить в основі її.