Що означає оцінка інформаційного критерію Akaike (AIC) моделі?


34

Я бачив тут декілька запитань щодо того, що це означає в простому розумінні, але це занадто непросто для моєї мети. Я намагаюся математично зрозуміти, що означає оцінка AIC.

Але в той же час я не хочу жорсткого доказу, який би змусив мене не бачити більш важливих моментів. Наприклад, якби це було обчислення, я був би задоволений нескінченними тваринами, і якби це була теорія ймовірностей, я був би щасливий без теорії міри.

Моя спроба

читаючи тут , і деякий власний позначення цукру, є критерієм AIC моделі на наборі даних таким чином: , де це число параметрів моделі , а є функцією максимального правдоподібності значення модельного від набору даних .AICm,DmAIC m , D = 2 k m - 2 ln ( L m , D ) k m m L m , D m DD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

Ось моє розуміння того, що означає вище:

m=arg maxθPr(D|θ)

Сюди:

  • km - кількість параметрів m .
  • Lm,D=Pr(D|m)=L(m|D) .

Тепер перепишемо AIC:

AICm,D=2km2ln(Lm,D)=2km2ln(Pr(D|m))=2km2loge(Pr(D|m))

Очевидно, Pr(D|m) - ймовірність спостереження набору даних D за моделлю m . Отже, чим краще модель m вписується в набір даних D , тим більшим стає Pr(D|m) і тим менше стає термін 2loge(Pr(D|m)) .

Так чітко AIC нагороджує моделі, що відповідають їх наборам даних (тому що менший AICm,D краще).

З іншого боку, термін 2km чітко карає моделі з більшою кількістю параметрів, збільшуючи AICm,D .

Іншими словами, АПК здається мірою, що:

  • Нагороджуйте точні моделі (ті, що краще відповідають D ) логарифмічно. Наприклад, це винагороджує збільшення фітнесу з 0.4 до 0.5 більше, ніж винагороджує збільшення фітнесу з 0.8 до 0.9 . Це показано на малюнку нижче.
  • Скорочення винагород параметрів лінійно. Тож зменшення параметрів від до приносить користь стільки, скільки винагороджує зниження від до .8 2 19821

введіть тут опис зображення

Іншими словами (знову ж таки), AIC визначає компроміс між важливістю простоти та важливістю пристосованості .

Іншими словами (знову ж таки), схоже, AIC пропонує:

  • Важливість фітнесу зменшується.
  • Але важливість простоти ніколи не зменшується, а завжди завжди є важливою.

Q1: Але питання полягає в тому, чому ми повинні дбати про цю специфічну компромісність простоти?

Q2: Чому і чому ? Чому б не просто: тобто повинен виглядати y бути однаково корисним і повинен бути здатний служити для порівняльного порівняння різних моделей (це просто не масштабується на ; це нам потрібно?).2 log e ( ) AIC m , D = 2 k m - 2 ln ( L m , D ) = 2 ( k m - ln ( L m , D ) ) AIC m , D2k2loge()

AICm,D=2km2ln(Lm,D)=2(kmln(Lm,D))AICm,D2=kmln(Lm,D)AICm,D,SIMPLE=kmln(Lm,D)
AICm,D,SIMPLEAICm,D2

Q3: Як це стосується теорії інформації? Чи може хтось це отримати з інформаційно-теоретичного початку?


2
Що означає ваше позначення в ? Ви щось натякаєте на вибір моделі? Те, що ви мали вище, насправді не означає, що AIC вимагає від вас вибору моделі. Q2, як ви кажете, є чимось досить довільним у певному сенсі, але походить від того, щоб зробити АПК оцінкою для розбіжності Куллбека-Лейблера, яка також стосується відповіді на Q1 і надає деякого значення величинам, таких як . m=argmaxθPr(D|θ)exp((AICmmin(AIC1,,AICM))/2)
Бьорн

arg maxθPr(D|θ) означає тримати пошук багатьох s, поки ви не знайдете той, який мінімізує ймовірність . Кожен є кортеж / вектор параметрів, що визначають нашу модель , яка намагається пояснити набору даних . Так по суті це говорить: у нас є набір даних , яка ймовірність того, що він був сформований моделлю, параметризованою ? Наша модель по суті яка вирішує цю задачу максимізації. θPr(D|θ)θDDθmθ
печерний чоловік

3
Вибачте, але ви переглядаєте декілька моделей (оскільки ви пишете ) чи говорите про максимальну оцінку ймовірності ? Також зауважте, що - це ймовірність виникнення даних у цій моделі та для заданих параметрів, а не ймовірність того, що дані були створені цією моделлю, параметризованою . m=θ^:=argmaxθPgiven model(D|θ)Pgiven model(D|θ)θ
Бьорн

MLE - це я маю на увазі. Але я просто намагаюся сказати, що параметри tuple настільки вичерпні, що вони також визначають модель. Також я можу мати декілька моделей, скажімо кожна з різними оцінками AIC . Я просто складаю це позначення, тому що вважаю, що це простіше. Чи я страшенно помиляюся чи непотрібно плутаю це? (і дякую, що виправили мене щодо того, що означає MLE)θm1,m2AIC1,AIC2
печерний людина

3
Виведення AIC як наближення до очікуваних втрат інформації KL наведено в Pawitan (2001), По
всій

Відповіді:


13

Це питання печерного людини популярне, але не було спроб відповідей місяцями, поки мій суперечливий . Можливо, фактична відповідь нижче сама по собі не є суперечливою, лише те, що питання "завантажені" питаннями, тому що поле, здається (принаймні, мені) заповнене аколітами AIC та BIC, які скоріше використовуватимуть OLS, ніж методи інших. Будь ласка, подивіться на всі перелічені припущення та обмеження щодо типів даних та методів аналізу та прокоментуйте їх; виправити це, внести свій внесок. Поки що деякі дуже розумні люди зробили свій внесок, тож робиться повільний прогрес. Я визнаю внески Річарда Харді та GeoMatt22, добрі слова Антоні Пареллада та доблесні спроби Кагдаса Озгенка та Бена Огорека пов'язати розбіжність КЛ із фактичною розбіжністю.

Перш ніж ми почнемо, давайте розглянемо, що таке AIC, і одне джерело для цього - передумови порівняння моделі AIC, а інше - від Rob J Hyndman . Зокрема, АПК обчислюється рівним

2k2log(L(θ)),

де - кількість параметрів у моделі, а функція ймовірності. AIC порівнює порівняння між дисперсією ( ) та зміщенням ( ) з припущеннями моделювання. З фактів та помилок АПК , пункт 3 "АПК не передбачає, що залишки є гауссовими. Просто гастросова ймовірність найчастіше використовується. Але якщо ви хочете скористатися іншим розповсюдженням, продовжуйте". АПК - це імовірність штрафу, незалежно від того, яку ймовірність ви вирішите використовувати. Наприклад, для вирішення AIC для розподілених залишків Student-t ми могли б використовувати рішення максимальної ймовірності для Student's-t . ThekL(θ)2k2log(L(θ))log-правдоподібність, яка зазвичай застосовується для AIC , походить від гауссової ймовірності log і надана

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

K - структура коваріації моделі,розмір вибірки; кількість спостережень у наборах даних, середня відповідь та залежна змінна. Зауважте, що, строго кажучи, AIC не коригує розмір вибірки, оскільки AIC не використовується для порівняння наборів даних, а лише моделі, що використовують один і той же набір даних. Таким чином, нам не доводиться досліджувати, чи корекція розміру вибірки виконана правильно чи ні, але нам доведеться турбуватися з цього приводу, якби ми могли якось узагальнити AIC, щоб бути корисним між наборами даних. Аналогічно багато робиться для для забезпечення асимптотичної ефективності. Мінімалістичний погляд може вважати AIC просто "індексом", що робить|D|μxK>>|D|>2K>|D|відповідні тане має значення. Однак певна увага приділяється цьому у формі пропозиції зміненого АПК для не набагато більше, ніжназивається AIC див. другий абзац відповіді на Q2 нижче. Це розповсюдження "заходів" лише підсилює уявлення про те, що AIC є індексом. Однак рекомендується дотримуватися обережності при використанні слова "i", оскільки деякі прихильники АПК порівнюють використання слова "індекс" з тією ж прихильністю, що може бути приєднана до позначення їх онтогенезу як позашлюбного.K>>|D|K|D|c

Q1: Але питання полягає в тому, чому ми повинні дбати про цю специфічну компромісність простоти?

Відповідь у двох частинах. Спочатку конкретне питання. Вам слід дбати лише тому, що саме так було визначено. Якщо ви віддаєте перевагу, немає причин не визначати CIC; критерієм інформації печерного людини, це не буде АПК, але CIC дасть ті самі відповіді, що і AIC, це не впливає на компроміс між корисністю і притаманною простотою. Будь-яка константа, яка могла бути використана як множник AIC, включаючи один раз, повинна була бути обрана та дотримана, оскільки не існує еталонного стандарту для застосування абсолютної шкали. Однак дотримання стандартного визначення не є довільним у тому сенсі, що є місце для одного і лише одного визначення, або "умовності" для величини, як AIC, яка визначається лише у відносному масштабі. Також дивіться припущення № 3 AIC нижче.

Друга відповідь на це питання стосується специфіки взаємодії AIC між корисністю та позитивної простотою, незалежно від того, як було б обрано його постійний множник. Тобто, що насправді впливає на "компроміс"? Однією з речей, що впливає на це, є ступінь коригування свободи для кількості параметрів в моделі, це призвело до визначення "нового" AIC під назвою AIC таким чином:c

AICc=AIC+2k(k+1)nk1=2knnk12ln(L),

де - розмір вибірки. Оскільки зважування зараз дещо відрізняється при порівнянні моделей, що мають різну кількість параметрів, AIC вибирає моделі інакше, ніж сам AIC, і ідентично як AIC, коли дві моделі різні, але мають однакову кількість параметрів. Інші методи також будуть вибирати моделі по-іншому, наприклад, "BIC [sic, байесівський інформаційний критерій ], як правило, вільні параметри сильніше, ніж інформаційний критерій Akaike, хоча це залежить ..." ANOVA також санкціонує надмірні параметри, використовуючи часткові ймовірності необов'язковість значень параметрів по-різному, і в деяких обставинах було б краще використовувати AICnc. Загалом, будь-який метод оцінки відповідності моделі матиме свої переваги та недоліки. Моєю порадою було б перевірити ефективність будь-якого методу вибору моделі для його застосування до методології регресії даних більш енергійно, ніж тестування самих моделей. Будь-які причини сумніватися? Так, слід бути обережним під час побудови або вибору будь-якого тестування моделі, щоб вибрати методи, які є методологічно відповідними. AIC корисний для підмножини оцінок моделі, про це див. Q3, далі. Наприклад, вилучення інформації за моделлю A може бути найкраще виконано методом регресії 1, а для моделі B - методом регресії 2, де модель B і метод 2 іноді дає нефізичні відповіді, і де жоден метод регресії не є MLR,

Q3 Як це стосується теорії інформації :

Припущення MLR №1. АПК ґрунтується на припущеннях щодо максимальної придатності (MLR) застосовності до проблеми регресії. Є лише одна обставина, коли звичайна найменша регресія найменших квадратів та максимальна регресія ймовірності були вказані мені як однакові. Це було б тоді, коли залишки від лінійної регресії звичайних найменших квадратів (OLS) зазвичай розподіляються, і MLR має функцію втрат Гаусса. В інших випадках лінійної регресії OLS, для нелінійної регресії OLS та не-гауссових функцій втрат MLR та OLS можуть відрізнятися. Існує багато інших цілей регресії, ніж OLS або MLR або навіть хороша відповідність, і часто хороша відповідь мало стосується жодної, наприклад, для більшості зворотних проблем. Існують високоцитовані спроби (наприклад, 1100 разів) використовувати узагальнений АПК для квазіімовірності, щоб залежність від максимальної регресії ймовірності послабилася, щоб визначити більш загальні функції втрат . Більше того, MLR для Student's-t, хоча і не в закритій формі, є сильно конвергентним . Оскільки залишкові розподіли Стьюдента-t є як більш поширеними, так і загальнішими, ніж гауссові умови, а також включають їх, я не бачу особливих причин використовувати гауссова припущення для AIC.

Припущення MLR №2. MLR - це спроба кількісно оцінити корисність. Він іноді застосовується, коли це не підходить. Наприклад, для обрізаних даних діапазону, коли використовувана модель не обрізана. Корисність - це все добре і добре, якщо ми маємо повне висвітлення інформації. У часових рядах ми, як правило, не володіємо достатньо швидкою інформацією, щоб повністю зрозуміти, які фізичні події переходять спочатку, або наші моделі можуть бути недостатньо повною для дослідження дуже ранніх даних. Ще більше занепокоєння полягає в тому, що часто не можна перевіряти якість придатності в дуже пізні періоди на брак даних. Таким чином, корисність може бути лише моделюванням 30% площі, що знаходиться під кривою, і в цьому випадку ми судимо про екстрапольовану модель на основі того, де є дані, і ми не вивчаємо, що це означає. Щоб екстраполювати, нам потрібно дивитися не лише на корисність придатності «сум», але й на похідні тих сум, які не вдається, а у нас немає «користі» екстраполяції. Таким чином, придатні методи, такі як B-сплайни, знаходять застосування, оскільки вони можуть більш плавно передбачити, які дані є, коли похідні підходять, або альтернативно зворотні проблеми лікування, наприклад, неправомірна інтегральна обробка в усьому діапазоні моделей, як адаптація поширення помилок Тихонов регуляризація.

Ще одна складна проблема - дані можуть сказати нам, що ми повинні з цим робити. Те, що нам потрібно для придатності (якщо це доречно), - це залишки, які є відстанями, в тому сенсі, що стандартне відхилення - це відстань. Тобто, придатність для придатності не мала б особливого сенсу, якби залишковий засіб, який удвічі довший за одне стандартне відхилення, не був би також довжиною два стандартних відхилення. Вибір перетворень даних слід дослідити до застосування будь-якого методу вибору / регресії моделі. Якщо дані мають пропорційну помилку типу, зазвичай логарифм перед вибором регресії є недоцільним, оскільки він перетворює стандартні відхилення в відстані. Крім того, ми можемо змінити норму, яку слід мінімізувати, щоб розмістити відповідні пропорційні дані. Те саме стосується структури помилки Пуассона, ми можемо взяти квадратний корінь даних, щоб нормалізувати помилку, або змінити нашу норму пристосування. Є проблеми, які є набагато складнішими або навіть нерозв'язними, якщо ми не можемо змінити норму пристосування, наприклад, статистика підрахунку Пуассона від ядерного розпаду, коли розпад радіонуклідів вводить експоненціальну залежність від часу підрахунку даних і фактичної маси, було проведено ці підрахунки, якби не було занепаду. Чому? Якщо ми зменшимо зворотну корекцію показників підрахунку, у нас більше немає статистики Пуассона, і залишки (або помилки) від квадратного кореня виправлених підрахунків більше не відстані. Якщо ми тоді хочемо провести перевірку на корисність коригувальних даних, пов'язаних з розпадом (наприклад, AIC), нам доведеться це зробити так, як невідомо моєму покірному. Відкрите запитання для читачів, якщо ми наполягаємо на використанні MLR, чи можемо ми змінити його норму для врахування типу помилок даних (бажано), або ми повинні завжди трансформувати дані, щоб дозволити використання MLR (не як корисне)? Зауважте, AIC не порівнює методи регресії для однієї моделі, вона порівнює різні моделі для одного і того ж методу регресії.

Припущення про АПК №1. Здавалося б, MLR не обмежується нормальними залишками, наприклад, дивіться це питання про MLR та Student's-t . Далі, припустимо, що MLR відповідає нашій проблемі, щоб ми відстежували її використання для порівняння значень AIC в теорії. Далі ми припускаємо , що є 1) повна інформація, 2) один і той же тип розподілу залишків (наприклад, як в нормальній, так Student's- т ) не менше 2 моделей. Тобто ми маємо випадковість, що зараз дві моделі повинні мати тип розподілу залишків. Це могло статися? Так, напевно, але точно не завжди.

Припущення про АПК №2. AIC відносить негативний логарифм кількості (кількість параметрів у моделі, поділене на розбіжність Куллбека-Лейблера ). Чи потрібно це припущення? У папері загальних функцій втрат використовується інша «розбіжність». Це приводить нас до питання, якщо інший захід є більш загальним, ніж розбіжність KL, чому ми не використовуємо його також для AIC?

Невідповідна інформація для АПК від дивергенції Куллбека-Лейблера є "Хоча ... часто інтуїтована як спосіб вимірювання відстані між розподілами ймовірностей, розбіжність Куллбека - Лейблера не є справжньою метрикою". Ми побачимо, чому незабаром.

Аргумент KL доходить до того, що різниця між двома речами є модель (P) та дані (Q)

DKL(PQ)=Xlog(dPdQ)dPdQdQ,

яку ми визнаємо ентропією '' P '' відносно '' Q ''.

Припущення про АПК №3. Більшість формул, що містять дивергенцію Кульбека – Лейблера, мають місце незалежно від основи логарифму. Постійний множник може мати більше значення, якби AIC пов'язував більше одного набору даних одночасно. Як це при порівнянні методів, якщо то будь-які додатні число разів, які все ще будуть . Оскільки це довільно, встановлення константи на конкретне значення як питання визначення також не є недоцільним.AICdata,model1<AICdata,model2<

Припущення про АПК №4. Це означає, що АПК вимірює ентропію Шеннона або самоінформацію ". Що нам потрібно знати:" Чи є ентропія тим, що нам потрібно для метрики інформації? "

Щоб зрозуміти, що таке "самоінформація", нам потрібно нормалізувати інформацію у фізичному контексті, будь-хто зробить. Так, я хочу, щоб міра інформації мала властивості, які є фізичними. То як би це виглядало в більш загальному контексті?

Рівняння вільної енергії Гіббса (ΔG=ΔHTΔS) пов'язує зміну енергії зі зміною ентальпії мінус абсолютну температуру, кратну зміні ентропії. Температура є прикладом успішного типу нормалізованого змісту інформації, адже якщо одна гаряча та одна холодна цегла поміщаються в контакт один з одним у термічно закритому середовищі, то між ними буде надходити тепло. Тепер, якщо ми стрибаємо на це, не думаючи занадто сильно, ми говоримо, що тепло - це інформація. Але чи відносна інформація пророкує поведінку системи. Інформація протікає до досягнення рівноваги, але рівновага чого? Температура, ось що, а не тепло, як швидкість частинок маси частинок, я не кажу про молекулярну температуру, я кажу про грубу температуру двох цеглин, які можуть мати різну масу, виготовлені з різних матеріалів, мають різну щільність і т.д., і нічого з цього я не повинен знати, все, що мені потрібно знати, - це те, що рівномірна температура - це те, що врівноважує. Таким чином, якщо одна цегла гарячіша, то вона має більше відносного інформаційного вмісту, а коли холодніше - менше.

Тепер, якщо мені кажуть, одна цегла має більше ентропії, ніж інша, і що? Це, саме по собі, не передбачить, чи отримає він або втратить ентропію, якщо поставиться в контакт з іншою цеглою. Отже, чи є ентропія лише корисною мірою інформації? Так, але лише в тому випадку, якщо ми порівнюємо ту саму цеглу із самим собою, таким чином, термін "самоінформація".

Звідси випливає останнє обмеження: для використання дивергенції KL всі цегли повинні бути однаковими. Таким чином, те, що робить AIC нетиповим показником, є те, що він не переноситься між наборами даних (наприклад, різними цеглинами), що не є особливо бажаною властивістю, яку можна вирішити шляхом нормалізації вмісту інформації. Чи лінійна дивергенція KL? Може так, може, ні. Однак це не має значення, нам не потрібно припускати лінійність для використання AIC, і, наприклад, сама ентропія, я не думаю, що це лінійно пов'язане з температурою. Іншими словами, нам не потрібна лінійна метрика для використання ентропійних обчислень.

Одне хороше джерело інформації про АПК - у цій тезі . З песимістичної сторони це говорить: "Само по собі значення AIC для даного набору даних не має значення". З оптимістичної сторони це говорить про те, що моделі, які мають близькі результати, можна диференціювати шляхом вирівнювання, щоб встановити довірчі інтервали, та багато іншого.


1
Чи могли б ви вказати головну відмінність нової відповіді від старої видаленої відповіді? Здається, є певне перекриття.
Річард Харді

2
Я був у середині редагування своєї відповіді протягом декількох годин, коли її видалено. Було багато змін у порівнянні з тим, коли я починав, оскільки це незавершена робота, багато читав і думав, і мої колеги на цьому веб-сайті, здається, не дбають про це, але не допомагають нічого відповісти. AIC, здається, занадто добре для критичного огляду, як я зважусь? Я завершив свою редагування і повторно розмістив її. Я хочу знати, що неправильно у моїй відповіді. Я наполегливо працював над цим, і намагався бути правдивим, і, ніхто більше не турбував.
Карл

4
Не засмучуйся. Мій перший досвід тут також був розчаровуючим, але пізніше я навчився ставити питання відповідним чином. Дотримуватися нейтрального тону та уникати твердих думок, які не грунтуються на твердих фактах, було б хорошим першим кроком, ІМХО. (До речі, я відхилив ваше запитання, але все ще вагаюся у відповіді.)
Річард Харді

3
+1 Просто для вашої преамбули. Зараз я продовжую читати відповідь.
Антоні Пареллада

2
@AntoniParellada Ви допомогли лише утримавши запитання від видалення, що я ціную. Робота через AIC була складною, і мені в цьому потрібна допомога. Звичайно, деякі мої уявлення хороші, але у мене також є копита при захворюваннях рота, які інші розуми краще наздогнати, ніж я.
Карл

5

AIC - це оцінка вдвічі більше, ніж залежно від орієнтованого на модель додавання, до очікуваного розбіжності Кульбека-Лейблера між справжнім розподілом та наближеною параметричною моделлю .fg

Дивергенція KL є темою інформаційної теорії та працює інтуїтивно (хоча і не жорстко) як міра відстані між двома розподілами ймовірностей. У своєму поясненні нижче я посилаюся на ці слайди від Shuhua Hu. Ця відповідь все ж потребує цитування "ключового результату".

Розбіжність KL між справжньою моделлю і наближеною моделлю дорівнює fgθ

d(f,gθ)=f(x)log(f(x))dxf(x)log(gθ(x))dx

Оскільки правда невідома, дані генеруються з та максимальної оцінки ймовірності дає оцінку . Заміна на у рівняннях вище означає, що як другий член формули дивергенції KL, так і сама дивергенція KL тепер є випадковими змінними. "Основний результат" на слайдах полягає в тому, що середнє значення другого додаючого члена відносно може бути оцінено простим функцією функції ймовірності (оцінюється в MLE), а , розмірністю : yfθ^(y)θθ^(y)yLkθ

Ey[f(x)log(gθ^(y)(x))dx]log(L(θ^(y)))+k.

AIC визначається як подвійне очікування вище (HT @Carl), а менші (більше негативні) значення відповідають меншим оціненим розбіжностям KL між справжнім розподілом та модельованим розподілом .fgθ^(y)


Як відомо, термін відхилення при застосуванні до імовірності ймовірності є жаргоном і неточним. Я опустив обговорення цього питання, тому що для розбіжностей у АПК потрібна лише монотонність, щоб мати порівняльну вартість, а не лінійність. Отже, я не бачу доречності намагатися надмірно важко "візуалізувати" те, що, ймовірно, не існує, і все одно не потрібно.
Карл

2
Я бачу вашу думку, що в останньому абзаці додається червона оселедець, і я розумію, що нікому не потрібно переконувати, що 2 * x займає так само, як x. Чи було б справедливо сказати, що кількість помножено на 2 "за домовленістю"?
Бен Огорек

2
Щось схоже. Особисто я б проголосував за "визначено як", тому що він був спочатку обраний таким чином. Або, щоб сказати це у часовій перспективі, будь-яка константа, яка могла бути використана, в тому числі один раз, повинна була бути обрана і дотримана, оскільки не існує еталонного стандарту для застосування масштабу.
Карл

4

Проста точка зору для ваших перших двох питань полягає в тому, що АПК пов'язана з очікуваною швидкістю помилки вибірки моделі максимальної ймовірності. Критерій АПК заснований на співвідношенні (Елементи статистичного рівняння навчання 7,27) де, відповідно до вашої позначення, - кількість параметрів у моделі , максимальне значення ймовірності якої .kmmLm,D

2E[lnPr(D|θ)]2NE[lnLm,D]+2kmN=1NE[AICm,D]
kmmLm,D

Термін ліворуч - очікуваний показник "помилки" поза вибіркою максимальної моделі ймовірності , використовуючи журнал ймовірності як показник помилки. Коефіцієнт -2 - це традиційна корекція, яка використовується для побудови відхилення (корисна, оскільки в певних ситуаціях вона відповідає чі-квадратному розподілу).m={θ}

Права рука складається з коефіцієнта "помилки" у вибірці, оціненого з максимальної ймовірності журналу, плюс термін коригує оптимізм максимальної ймовірності журналу, що має свободу дещо перевищувати дані.2km/N

Таким чином, АІК є оцінкою «помилка» швидкість (девіація) раз з власного зразка .N

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.