Те, що ви хочете зробити, не існує, оскільки це є відсутністю кращого слова.
Але спершу наголошу, чому я вважаю, що передумови вашого питання є здоровими. Потім я спробую пояснити, чому я вважаю, що висновки, які ви робите з них, спираються на нерозуміння логістичної моделі, і, нарешті, я запропоную альтернативний підхід.
Позначу вашихnспостережень (сміливіші літери позначають вектори), які лежать уpрозмірному просторі (перший запис x{ ( ххi, уi) }нi = 1нp дорівнює 1) зp<n, y i ∈[0,1]і f( xххip < nуi∈ [ 0 , 1 ] - монотонна функція xf( ххi) = f( хх'iββ) , скажімо, яклогістична кривадля фіксації ідей. Для доцільності, я просто припущущо п єдоситьвеликийпорівнянні з р .хх'iββнp
Ви впевнені, що якщо ви плануєте використовувати TVD в якості критерію для оцінки пристосованої моделі, то розумно очікувати, що ваша відповідність оптимізує той самий критерій серед усіх можливих кандидатів за вашими даними. Звідси
ββ∗= аргхвββ∈ Rp| | уу- f( хх'iββ) | |1
Проблема - термін помилки :
і якщо ми застосуємо E ( ϵϵi= уi- f( хх'iββ) (ми просто хочемо, щоб наша модель була асимптотичнонеупередженою), тоді, ϵ я мушубутигетерокедастичною. Це тому, що y я може приймати лише два значення, 0 і 1. Отже, задано
xЕ( ϵϵ )=0ϵi уi , ϵ я також може приймати лише два значення:1-f( xххiϵi коли y i = 1 , що відбувається з ймовірністю f ( x1 - f( хх'iββ)yi=1 , і - f ( xf(xx′iββ) при y i = 1 , що відбувається з вірогідністю 1 - f ( x−f(xx′iββ)yi=1 .1−f(xx′iββ)
Ці міркування разом означають, що:
var(ϵϵ)=E(ϵϵ2)=(1−f(xx′ββ))2f(xx′ββ)+(−f(xx′ββ))2(1−f(xx′ββ))=(1−f(xx′ββ))f(xx′ββ)=E(yy|xx)E(1−yy|xx)
звідси не є постійною, а увігнутою параболою і максимізується при хvar(ϵϵ) такий, що E ( y | xxx .E(y|xx)≈.5
Ця властива гетерокедастичність залишків має наслідки . Це передбачає, серед іншого, що, мінімізуючи функцію втрат , ви є асимптотичною частиною вашої вибірки. Тобто придатний βl1 взагалі не підходить для даних, але лише його частина, яка згрупована навколо місць, де xββ∗ такий, що E ( yxx . На думку, ценайменш інформативні точки даних у вашій вибірці: вони відповідають тим спостереженням, для яких компонент шуму найбільший. Отже, ваш притягнення тягнеться до βE(yy|xx)≈.5 , наприклад зробив невідповідним.ββ∗=ββ:f(xx′ββ)≈.5
Одне з рішень, як видно з викладеного вище, полягає у відміні вимоги неупередженості. Популярний спосіб зміщення оцінювача (із доданою байєсівською інтерпретацією) - включення терміна усадки. Якщо ми змінимо масштаб відповіді:
y+i=2(yi−.5),1≤i≤n
а для обчислювальної доцільності замініть іншою монотонною функцією g ( xf(xx′ββ) - це буде зручно для подальшого позначення першого компонента вектора параметра як c, а решта p - 1 одиниць γg(xx,[c,γγ])=xx′[c,γγ]cp−1γγ-- and include a shrinkage term (for example one of the form ||γγ||2), the resulting optimization problem becomes:
[c∗,γγ∗]=argmin[[c,γγ]∈Rp∑i=1nmax(0,1−y+ixx′i[[c,γγ])+12||γγ||2
Note that in this new (also convex) optimization problem, the penalty for a correctly classified observations is 0 and it grows linearly with xx′[[c,γ] for a miss-classified one --as in the l1 loss. The [c∗,γγ∗] solution to this second optimization problem are the celebrated linear svm (with perfect separation) coefficients. As opposed to the ββ∗, it makes sense to learn these [c∗,γγ∗]з даних із штрафом типу TVD ("тип" через термін зміщення). Отже, це рішення широко впроваджується. Дивіться, наприклад, пакет R LiblineaR .