Після спрощення проблеми за допомогою рутинних процедур її можна вирішити, перетворивши її в програму подвійного мінімізації, яка має добре відому відповідь з елементарним доказом. Можливо, ця дуалізація - це "тонкий крок", про який йдеться у питанні. Нерівність також може бути встановлена суто механічним шляхом, максимізуючичерез множники Лагранжа.|Ti|
По-перше, я пропоную більш елегантне рішення, засноване на геометрії найменших квадратів. Це не вимагає попереднього спрощення і є майже негайним, забезпечуючи пряму інтуїцію результату. Як запропоновано в питанні, проблема зводиться до нерівності Коші-Шварца.
Геометричне рішення
Розглянемо як -вимірний вектор в евклідовому просторі зі звичайним точковим добутком. Нехай стати базисний вектор і . Запишіть та для ортогональних проекцій та в ортогональний додаток . (У статистичній термінології вони є залишками щодо засобів.) Тоді, оскільки іx=(X1,X2,…,Xn)ny=(0,0,…,0,1,0,…,0)ith1=(1,1,…,1)x^y^xy1Xi−X¯=x^⋅yS=||x^||/n−1−−−−−√ ,
|Ti|=n−1−−−−−√|x^⋅y|||x^||=n−1−−−−−√|x^⋅y^|||x^||
- компонент у напрямку . За Коші-Шварцем максимально точно, коли паралельний , для яких QED.y^x^x^y^=(−1,−1,…,−1,n−1,−1,−1,…,−1)/n
Ti=±n−1−−−−−√y^⋅y^||y^||=±n−1−−−−−√||y^||=±n−1n−−√,
Між іншим, це рішення забезпечує вичерпну характеристику всіх випадків, колиє максимальним: вони всі форми|Ti|
x=σy^+μ1=σ(−1,−1,…,−1,n−1,−1,−1,…,−1)+μ(1,1,…,1)
для всіх справжніх .μ,σ
Цей аналіз легко узагальнюється у випадку, коли замінюється будь-яким набором регресорів. Очевидно, що максимум пропорційний довжині залишків ,.{1}Tiy||y^||
Спрощення
Оскільки є інваріантним при зміні місця розташування та масштабу, ми можемо без втрати загальності вважати, що дорівнює нулю, а їхні квадрати - . Це ідентифікуєз, оскільки (середній квадрат) дорівнює . Максимізація його рівнозначна максимальному . Жодна загальність не втрачається, приймаючи , оскільки є обмінними.TiXin−1|Ti||Xi|S1|Ti|2=T2i=X2ii=1Xi
Розчин за допомогою подвійної рецептури
Подвійна проблема полягає у фіксації значення і запитання, які значення решти потрібні для мінімізації суми квадратів враховуючи, що . Оскільки задано , це проблема мінімізації враховуючи, що .X21Xj,j≠1∑nj=1X2j∑nj=1Xj=0X1∑nj=2X2j∑nj=2Xj=−X1
Рішення легко знайти багатьма способами. Одне з найелементарніших - писати
Xj=−X1n−1+εj, j=2,3,…,n
для якого . Розширення цільової функції та використання цієї ідентичності сума-нуль для її спрощення виробляє∑nj=2εj=0
∑j=2nX2j=∑j=2n(−X1n−1+εj)2=∑(−X1n−1)2−2X1n−1∑εj+∑ε2j=Constant+∑ε2j,
негайно показавши унікальне рішення - для всіх . Для цього рішенняεj=0j
(n−1)S2=X21+(n−1)(−X1n−1)2=(1+1n−1)X21=nn−1X21
і
|Ti|=|X1|S=|X1|n(n−1)2X21−−−−−−−√=n−1n−−√,
QED .
Рішення за допомогою машини
Повернення до спрощеної програми ми почали з:
Maximize X21
на тему
∑i=1nXi=0 and ∑i=1nX2i−(n−1)=0.
Метод множників Лагранжа (який майже чисто механічний і прямолінійний) прирівнює нетривіальну лінійну комбінацію градієнтів цих трьох функцій до нуля:
(0,0,…,0)=λ1D(X21)+λ2D(∑i=1nXi)+λ3D(∑i=1nX2i−(n−1)).
Компонент за складовою, ці рівняння єn
0000=2λ1X1+==⋯=λ2λ2λ2+2λ3X1+2λ3X2+2λ3Xn.
Останній з них означає або або . (Ми можемо виключити останній випадок, тому що тоді перше рівняння передбачає , тривіалізуючи лінійну комбінацію.) Обмеження суми до нуля виробляє . Обмеження суми квадратів забезпечує два рішенняn−1X2=X3=⋯=Xn=−λ2/(2λ3)λ2=λ3=0λ1=0X1=−(n−1)X2
X1=±n−1n−−√; X2=X3=⋯=Xn=∓1n−−√.
Вони обоє поступаються
|Ti|=|X1|≤|±n−1n−−√|=n−1n−−√.