Розуміння доказів леми, що використовується в нерівності Гоффдінга


11

Я вивчаю лекції Ларрі Вассермана щодо статистики, в яких основним текстом використовується Казелла та Бергер. Я працюю над його конспектом лекцій 2 і застряг у виведенні леми, що використовується в нерівності Геффдінга (с. 2-3). Я відтворюю доказ у примітках нижче, а після підтвердження я зазначу, де я застряг.


Лема

Припустимо, що і . Тоді .х б Е ( е т Х ) е т 2 ( б - ) 2 / 8E(X)=0aXbE(etX)et2(ba)2/8

Доказ

Оскільки , ми можемо записати X як опуклу комбінацію a і b , а саме X = \ alpha b + (1 - \ alpha) a де \ alpha = \ frac {Xa} {ba} . За опуклості функції y \ to e ^ {ty} маємоaXbXabX=αb+(1α)aα=Xabayety

etXαetb+(1α)eta=Xabaetb+bXbaeta

Візьміть очікування обох сторін і використовуйте факт E(X)=0 щоб отримати

E(etX)abaetb+bbaeta=eg(u)

де u=t(ba) , g(u)=γu+log(1γ+γeu) та γ=a/(ba) . Зауважимо, що g(0)=g(0)=0 . Також g(u)1/4 для всіх u>0 .

За теоремою Тейлора є ε(0,u) такий, що g(u)=g(0)+ug(0)+u22g(ε)=u22g(ε)u28=t2(ba)28

Отже, E(etX)eg(u)et2(ba)28 .


Я міг би дотримуватися доказів до

u,g(u),γE(etX)abaetb+bbaeta=eg(u) але я не можу зрозуміти, як вивести .u,g(u),γ


3
Цікаво, що максимальне значення - і таким чином результат є ефективно який виглядає занадто звично, щоб виникати з-за чистого збігу. Я підозрюю, що може бути інший, можливо, простіший спосіб отримати результат через імовірнісний аргумент. σ 2 макс = ( б - ) 2 / 4 Е [ е т Х ] е σ 2 макс т 2 / 2var(X)σmax2=(ba)2/4
E[etX]eσmax2t2/2
Діліп Сарват

@DilipSarwate Моє розуміння полягає в тому, що максимальна дисперсія виникає для рівномірної випадкової величини . Дисперсія дорівнює . Чи можете ви пояснити, як ви отримали ? X V a r ( X ) = ( b - a ) 2XU(a,b)X (б-а)2Var(X)=(ba)212(ba)24
Ананд

Концентруючи масу на кінцевих точках ...
Елвіс,

@DilipSarwate Я додав декілька коментарів у доказ, які можуть уточнити біт лійт, чому найгірший випадок - максимальна дисперсія.
Елвіс

1
@DilipSarwate - Див лемму 1 і вправу 1 тут: terrytao.wordpress.com/2010/01/03 / ... . Здається, існує більш просте виведення, покладаючись на нерівність Дженсена та розширення Тейлора. Але подробиці цього мені незрозумілі. Можливо, хтось може це зрозуміти. (виведення від (9) до (10) та вправа 1)
Лев

Відповіді:


17

Я не впевнений, що я правильно зрозумів ваше запитання. Я спробую відповісти: спробуйте написати як функцію : this природно, як ви хочете пов'язати в .u=t(b-a)e u 2

abaetb+bbaeta
u=t(ba)eu28

За допомогою досвіду ви дізнаєтесь, що краще вибрати його записати у формі . Тоді призводить до з . e g ( u ) = - aeg(u) g ( u )

eg(u)=abaetb+bbaeta
γ=- a
g(u)=log(abaetb+bbaeta)=log(eta(abaet(ba)+bba))=ta+log(γeu+(1γ))=γu+log(γeu+(1γ)),
γ=aba

Це те, про що ви просили?

Редагувати: кілька коментарів до доказу

  1. Перший трюк заслуговує уважного уваги: ​​якщо - опукла функція, а - централізована випадкова величина, то де - дискретна змінна, визначена Отже, ви отримуєте, що є центральна змінна з підтримкою в яка має найбільшу дисперсію: Зауважте, що якщо ми встановимо ширину опориa X b E ( ϕ ( X ) ) - aϕaXbX0P(X0=a)
    E(ϕ(X))abaϕ(b)+bbaϕ(a)=E(ϕ(X0)),
    X0X0[a,b]Var(X)=E(X2)E(X)
    P(X0=a)=bbaP(X0=b)=aba.
    X0[a,b]( b - a ) ( b - a ) 2
    Var(X)=E(X2)E(X02)=ba2ab2ba=ab.
    (ba), це менше, ніж як каже Діліп у коментарях, це тому, що ; пов'язана досягається для . ((ba)24(ba)2+4ab0a=b
  2. Тепер перейдемо до нашої проблеми. Чому можна отримати зв'язану залежно лише від ? Інтуїтивно зрозуміло, що це лише питання зміни шкали : якщо у вас є зв'язаний для випадку , то загальна межа можна отримати, взявши . Тепер подумайте про набір централізованих змінних з підтримкою ширини 1: свободи не так багато, тому повинна існувати така пов'язана, як . Інший підхід полягає в тому, щоб сказати просто, що згідно з вищевказаною лемою про , то загальніше , що залежить лише від іu=t(ba)XE(etX)s(t)ba=1s(t(ba))s(t)

    E(ϕ(X))E(ϕ(tX))E(ϕ(tX0))uγ : якщо ви виправите та , і нехай змінюється, є лише одна ступінь свободи, і , , . Отримуємо Вам просто потрібно знайти обв’язку, що включає лише .u=u0=t0(b0a0)γ=γ0=a0b0a0t,a,bt=t0αa=αa0b=αa0

    abaϕ(tb)+bbaϕ(ta)=a0b0a0ϕ(tb0)+b0b0a0ϕ(a0).
    u
  3. Тепер ми переконані, що це можна зробити, це має бути набагато простіше! Вам не обов'язково думати , щоб почати с. Справа в тому, що ви повинні написати все як функцію і . Спочатку зауважте, що , , та . Тоді Зараз ми знаходимось у конкретному випадку ... I думаю, ти можеш закінчити.guγ

    γ=aba1γ=bbaat=γubt=(1γ)u

    E(ϕ(tX))abaϕ(tb)+bbaϕ(ta)=γϕ((1γ)u)+(1γ)ϕ(γu)


    ϕ=exp

Я сподіваюся, що я це трохи уточнив.


ось саме те, що я шукав. Дуже дякую.
Ананд

1
@Anand Я знаю, що важко дотримуватися порад, однак я думаю, що не слід починати з фокусування на технічних деталях, а намагатися розібратися, чому таке обмеження може існувати ... тоді доказ повинен з’явитися простішим. Я спробував показати вам, чому у другій частині додали сьогодні вранці (вам потрібно спати на таке питання - принаймні мені це потрібно). Я думаю, що жахливо, як подібні інтуїції не з'являються в більшості підручників ... навіть якщо ви отримаєте технічну частину, доки у вас немає ідей, все виглядає магічно. Дякую вам і CrossV, що надали мені можливість детально продумати це!
Елвіс

1
Оце Так! +1 для редагування Дякую. Але як би не було добре, якби можна було отримати щось на зразок
E[etX]eE[t2X2/2]=e(t2/2)E[X2]=e(t2/2)var(X)et2σmax2/2?
Діліп Сарват

@Elvis Дякуємо за поради та за те, що ви зайняли час, щоб написати інтуїтивну частину. Мені потрібно витратити трохи часу, щоб зрозуміти це!
Ананд

1
@Elvis Займаючись інтуїцією, я хочу уточнити своє розуміння. Щоб отримати чіткіші межі, потрібні більш високі моменти. Марков використовує перший момент, Чебишев другий момент, а Гефдінг використовує мг. Це правильно? Якщо хтось може розширити та уточнити цю частину, було б чудово.
Ананд
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.