Чому б не повідомити про середню кількість завантажувального завантаження?


30

Коли одна завантажує параметр для отримання стандартної помилки, ми отримуємо розподіл параметра. Чому ми не використовуємо середнє значення цього розподілу як результат або оцінку для параметра, який ми намагаємося отримати? Чи не повинен розподіл наближатись до реального? Тому ми отримали б хорошу оцінку "реальної" вартості? Але ми повідомляємо про вихідний параметр, отриманий з нашої вибірки. Чому так?

Спасибі

Відповіді:


24

Оскільки статистика завантаженої завантаженості - це ще одна абстракція від параметру вашої сукупності. У вас є параметр сукупності, ваша вибіркова статистика, і лише на третьому шарі у вас є завантажувальний засіб. Середнє значення завантаженого завантаження не є кращим оцінкою для параметру вашої сукупності. Це просто оцінка кошторису.

Оскільки розповсюдження завантажувальної стрічки, що містить усі можливі завантажувані комбінації центрів навколо статистичної вибірки, так само, як вибіркові статистичні центри навколо параметра сукупності за тих самих умов. Цей документ тут дуже добре підсумовує ці речі, і це один із найпростіших, що я міг знайти. Для більш детального підтвердження слідкуйте за документами, на які вони посилаються. Примітними прикладами є Ефрон (1979) та Сінгх (1981)n

Розподілений завантаження слід за розподілом що робить його корисним при оцінці стандартної помилки вибіркової оцінки, в побудові довірчих інтервалів та в оцінці зміщення параметра. Це не робить його кращим оцінкою для параметра населення. Він просто пропонує іноді кращу альтернативу звичайному параметричному розподілу для розподілу статистики.θBθ^θ^θ


13

Існує , по крайней мере один випадок , коли люди дійсно використовують середнє значення розподілу початкового завантаження: розфасовка (скорочено самозавантаження агрегування ).

Основна ідея полягає в тому, що якщо ваш оцінювач дуже чутливий до збурень у даних (тобто, оцінювач має велику дисперсію та низький ухил), то ви можете оцінювати велику кількість зразків завантажувальної програми, щоб зменшити кількість надмірних прикладів.

Сторінка, на яку я посилався, вказує, що це вносить деяку упередженість у вашу оцінку, тому середня вибірка часто матиме більше сенсу, ніж усереднення ваших завантажувальних зразків. Але якщо у вас є щось на зразок дерева рішень або найближчого класифікатора сусідів, яке може докорінно змінитись у відповідь на невеликі зміни в даних, то це зміщення може не викликати такого великого занепокоєння, як надмірне розміщення.


1
Я не впевнений, що розумію ваше запитання. Я фактично не використовував фразу "зміщення параметра". Я також не зовсім впевнений у тому, що ви маєте на увазі під цим проти в цьому контексті. yθ
Девід Дж. Харріс

Я звичайно бачу мішковину, яка використовується для зменшення дисперсійних оцінок відповіді (тобто її чутливості до коливань даних). Моделі, що найчастіше містяться в пакетиках (наприклад, дерева), як правило, не мають чітко визначених параметрів, які легко можна порівняти для зразків завантажувальної програми.
Девід Дж. Харріс

Дякую, саме так я і подумав. Мені здається, що мішок не має великого сенсу для будь-якого, крім оцінки відповіді, тому він обмежений у цьому сенсі.
Момо

10

Варто зазначити, що різниця між середнім значенням завантажених зразків та оцінкою вибірки іноді може бути використана як оцінка зміщення при оцінці справжнього параметра .θBθ^θ^θ

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.