Як означає розподіл вибірки на вибірку, приблизно, означає сукупність?


16

Я намагаюся вивчити статистику, бо вважаю, що вона настільки поширена, що забороняє мені вчитися чомусь, якщо я не розумію її належним чином. У мене виникають проблеми з розумінням цього поняття розподілу вибірки засобів вибірки. Я не можу зрозуміти, як це пояснили деякі книги та сайти. Я думаю, що я розумію, але не впевнений, чи правильно він. Нижче - моя спроба зрозуміти це.

Коли ми говоримо про якесь явище, яке набуває нормального поширення, воно, як правило, (не завжди) стосується населення.

Ми хочемо використовувати інфекційну статистику, щоб передбачити деякі дані про деяке населення, але не маємо всіх даних. Ми використовуємо випадкову вибірку, і кожен зразок розміром n однаково вірогідний.

Отже, ми беремо багато зразків, скажемо 100, і тоді розподіл засобів цих вибірок буде приблизно нормальним відповідно до центральної граничної теореми. Середнє значення вибіркового засобу буде приблизним до середнього.

Тепер те, що я не розумію, багато разів бачиш "Зразок 100 людей ..." Чи не знадобляться нам 10-ти чи 100-ти зразки 100 людей, щоб оцінити кількість середнього? Або випадок, що ми можемо взяти один достатньо великий зразок, скажімо, 1000, а потім сказати, що середнє значення буде приблизним до середнього? АЛЕ ми беремо вибірку з 1000 осіб, а потім беремо 100 випадкових зразків по 100 чоловік у кожній вибірці з тих первісних 1000 людей, які ми взяли, а потім використовуємо це як наше наближення?

Чи завжди достатньо великого зразка для апроксимації середнього (майже) завжди? Чи потрібно навіть населенню бути нормальним, щоб це працювало?

Відповіді:


9

Я думаю, ви можете заплутати очікуваний розподіл вибірки середнього значення (який ми обчислимо на основі однієї вибірки) з (як правило, гіпотетичним) процесом моделювання того, що відбудеться, якби ми кілька разів проводили вибірку з однієї і тієї ж сукупності.

Для будь-якого заданого розміру вибірки (навіть n = 2) ми би сказали, що середня вибірка (від двох людей) оцінює середню сукупність. Але точність оцінювання - тобто, наскільки добре ми працювали з оцінки середньої сукупності на основі наших вибіркових даних, відображених у стандартній похибці середнього значення - буде біднішою, ніж якби у нас було 20 чи 200 людей у ​​нашому зразку. Це відносно інтуїтивно (більші зразки дають кращу точність оцінки).

Тоді ми використовуємо стандартну помилку для обчислення довірчого інтервалу, який (в даному випадку) базується на нормальному розподілі (ми, мабуть, використовуємо розподіл t у малих вибірках, оскільки стандартне відхилення сукупності часто недооцінюється в невеликий зразок, що призводить до надто оптимістичних стандартних помилок.)

Відповідаючи на ваше останнє запитання, нам не завжди потрібна нормально розподілена сукупність для застосування цих методів оцінки - центральна гранична теорема вказує на те, що розподіл вибірки середнього значення (оцінюється, знову ж таки, з одного зразка) буде, як правило, дотримуйтесь нормального розподілу, навіть коли основне населення має ненормальний розподіл. Зазвичай це підходить для «більших» розмірів вибірки.

Сказавши, що, якщо у вас є ненормальна сукупність, з якої ви берете вибірку, середня може бути невідповідною підсумковою статистикою, навіть якщо розподіл вибірки для цього середнього можна вважати надійним.


тож я по суті просто занадто повісився на розумінні цього теоретичного підґрунтя того, як працюють деякі з цих матеріалів? Чи справді тут цікава інтервал довіри? Іншими словами, якщо я хотів опублікувати дослідження, скажімо, скільки годин спить середній дорослий у США, і я беру пробу 5000, а мій інтервал довіри 99,9%, середній показник - від 6,46 до 6,54, тоді я можу піти попереду і опублікуйте моє дослідження, в якому говориться "впевнено", що середній дорослий у США спить 6,5 годин?
злиття

2
Де ви сказали: " сказавши" впевнено ", що середній дорослий у США спить 6,5 годин ". Ну, ні, ви можете бути впевнені, що насправді це не 6,5 годин в середньому. Ви можете бути впевнені лише, що це близько 6,5 годин, або ви можете бути впевнені, що це "6,5 годин до найближчих 5 хвилин", або щось таке. Тільки діапазони матимуть певний рівень довіри з ними.
Glen_b -Встановіть Моніку

1
@Glen_b досягає суті справи - ми ніколи не можемо сказати, що ми впевнені, що ми оцінили цінність населення точно правильно, а швидше, що ми маємо деяке уявлення про точність нашого процесу оцінки.
Джеймс Стенлі

@angrymonkey Я думаю, що все-таки корисно отримати концепції, що лежать в основі (імітованого) підходу повторного відбору вибірок. Крім того, для оцінки засобів не потрібні "величезні" розміри вибірки - формула для стандартної помилки середнього значення sample std deviation / square root(n)- квадратний корінь n частини говорить про те, що ми отримуємо зменшення віддачі від точності оцінки за фіксованими кроками як розмір вибірки збільшується (наприклад, переміщення від 10 до 20 людей у ​​вибірці покращує точність оцінок більше, ніж від 210 до 220 осіб.)
Джеймс Стенлі

чудово ... дуже дякую за допомогу. значить, ІС просто дозволяє нам сказати, що я на 95% впевнений, що середня людина спить між 6,45 та 6,56 годин на ніч? Тоді чому деякі статті висувають ці остаточні претензії, як звичайна людина дивиться 4,5 години телевізора на день? Безумовно, довірчий інтервал приблизно такий, як 95% 4,43 і 4,56
злиття

10
  • σ2/ннн
  • Якщо ви берете кілька незалежних зразків, середнє значення вибірки буде нормальним, а середнє значення буде нормальним і має тенденцію до справжнього середнього.
  • Якщо ваші зразки по-справжньому з одного розподілу (наприклад, 100 зразків по 10), ви зробите ті ж умовиводи, що і якщо взяли один великий зразок з 1000. (Але в реальному світі, різні зразки, ймовірно, різняться тим, що один не можна ігнорувати; див. "рандомізований дизайн блоку".)
  • н
  • Якщо ви берете 100 зразків по 10 у кожному, засоби вибірки матимуть більш нормальний вигляд, ніж вихідні дані, але менш нормальний, ніж розподіл загальної середньої величини.
  • Якщо взяти великий зразок, ви також наблизитесь до нормальності.
  • Якщо ви хочете оцінити середній показник популяції, це не має різниці (теоретично), якщо ви берете велику вибірку з 1000 або 100 зразків 10
  • Але на практиці люди з теорії вибірки можуть розділити вибірку з міркувань кластеризації, стратифікації та інших питань. Потім вони беруть до уваги схему вибірки, здійснюючи свою оцінку. Але це справді важливо для іншого питання.

у більшості підручників вони проводять вас через це поняття розподілу вибірки засобів вибірки. Це по суті говорить вам, "ей дивись, якщо ти береш багато проб, це, як правило, нормально, і приблизне значення середнього значення". Потім вони скажуть вам, що якщо ви берете досить великі зразки, ви можете сортувати лише один. Чи має бути середній розподіл вибірки на вибірку змусити вас повірити в те, що ви можете взяти одну велику вибірку? Іншими словами, яка мета його розуміння? Чи просто це допоможе вам зрозуміти інтуїцію за великим зразком? ігноруючи ідею вибірки тео
злиття

Я думаю, що @ "Джеймс Стенлі" це дуже добре відповідає. У будь-якому випадку реального життя ви берете вибірку, підраховуєте середню вибірку, і це ваша оцінка.
Placidia

1

Розподіл вибірки середнього значення - це розподіл ВСІХ зразків заданого розміру. Середнє значення відбору вибірки дорівнює середній сукупності. Коли ми говоримо про відбір середнього значення для вибірок заданого розміру, ми говоримо не про одну вибірку або навіть про тисячу зразків, а про всі зразки.


0

Відбір середньої вибірки не має нічого спільного з довірчими інтервалами. Це інша концепція. Для відбору проб популяція може бути нормальною чи не нормальною а) Якщо нормальна нормальна, то середня величина вибірки буде нормальною для будь-якого розміру вибірки. b) Якщо pop не є нормальним, то 1) відбір вибірки середнього значення CANNOT вважається нормальним, якщо тільки розмір вибірки не перевищує 30 і більше. Тоді центральна гранична теорема повідомляє нам, що відбір вибірки можна вважати нормальним.

Ви говорите про прогнозування. Прогнозування теж не має нічого спільного з цим. Ви занадто багато вставляєте в samp dist. Відбір вибірки - це просто всі зразки, а потім береться середнє значення. І середнє значення всіх цих вибірок, mu sub x bar, дорівнює середньому численності, mu та стандартному dev od вибірки dist, sigma sub x bar = sigma, розділеному на квадратний корінь n. (Ми не будемо говорити про кінцевий поправочний коефіцієнт попу. Візьміть свою статистику за номіналом. Не читайте занадто багато в концепції. Кулак розуміє основну концепцію.

PS У відбірника середнього значення немає нічого, що робити


Цікаво, чи можна відповісти цю відповідь з вашою першою відповіддю, а не вводити як іншу відповідь. Зазвичай ми вважаємо за краще мати 1 відповідь на кожну нитку. (Однак є винятки.) Ви можете додати матеріал до існуючої відповіді або внести зміни, натиснувши сірий "редагувати" внизу зліва.
gung - Відновіть Моніку

0

Я думав про проблеми з великими даними, і сьогодні переглядаю деякі з цих публікацій. Я не думаю, що це взагалі тривіальна проблема, оскільки різниця між аналізом даних 1000 як один набір порівняно з аналізом 10 наборів з 100. Теоретично , якщо нульова гіпотеза вірна, що дані є ідентичними, це не робить різниця. Однак кластеризація та шаблони в даних взагалі не розглядаються, якщо просто взяти середнє значення з 1000 даних і цитувати оцінене середнє значення та пов'язану з ним стандартну помилку.

Висновок, до якого я дійшов, переглядаючи деякі сторінки в stackexchange та wikipedia, - це те, що великі дані дозволяють бачити очевидні . Якщо є якісь цікаві особливості в цілому по населенню, великий набір даних показав би їх зрозумілі як день. Тож якби у мене був дуже великий набір даних, на який я міг би переглянути візуально, я б не заскочив і не вживав би коротких підсумкових заходів, не заздалегідь шукаючи дуже очевидні функції. З моїх ранніх уроків статистичного висновку мене вчили розглядати графіки та візуалізацію даних як перший прохід. Я не можу наголосити на цьому досить. Якщо набір даних занадто великий, щоб людина могла дивитись на екрані, його слід піддавати вибірці з роздільною здатністю, зрозумілою для людини.


Будь ласка, не підписуйте свої повідомлення - саме для цього імені користувача в нижній правій частині вашої публікації.
Glen_b -Встановіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.