Запуск завантажень робиться для отримання більш надійної картини розподілу вибірки, ніж та, яку передбачає велика теорія вибірки. Коли ви завантажуєте тренд, фактично немає обмеження кількості прийнятих вами чоботів; насправді ви отримуєте кращу наближеність до розподілу вибірки, чим більше зразків ви берете. Звичайним є використання ботильових зразків, хоча в цьому числі немає нічого магічного. Крім того, ви не проводите тест на пробовідбірники; у вас є оцінка розподілу вибірки - використовуйте її безпосередньо. Ось алгоритм:B = 10 , 000
- взяти зразок чоботи з одного набору даних шляхом вибірки завантажувальних спостережень із заміною. [Що стосується коментарів нижче, одне відповідне питання - це те, що є дійсним "спостереженням завантаження", яке слід використовувати для вашої вибірки. Насправді існує кілька законних підходів; Я згадаю два, які є надійними та дозволяють відобразити структуру ваших даних: Коли у вас є дані спостереження (тобто дані були відібрані у вибірки за всіма параметрами, спостереження завантаження може бути впорядкованим n-кортежем (наприклад, рядок Наприклад, якщо у вас є одна змінна предиктора та одна змінна відповіді, виn 1 ( x , y ) n 1 j y j y Xн1н1 ( х , у)впорядковані пари. З іншого боку, під час роботи з експериментальними даними значення змінних прогнозів не відбирали, а експериментальні одиниці присвоювали призначеним рівням кожної змінної предиктора. У такому випадку ви можете відібрати значення з кожного з рівнів змінної передбачувача, а потім з'єднати ці s з відповідним значенням цього рівня прогноктора. Таким чином, ви не зробите вибірку на ]н1 j уjуХ
- підходити до вашої регресійної моделі та зберігати оцінку схилу (називайте її )β^1
- візьміть вибірковий зразок іншого набору даних шляхом вибірки завантажувальних спостережень із заміноюн2
- підходять до іншої регресійної моделі і зберігають оцінку схилу (називаємо її )β^2
- статистику з двох оцінок (пропозиція: використовувати різницю нахилу )β^1- β^2
- зберігати статистику та скидати іншу інформацію, щоб не витрачати пам'ять
- повторіть кроки 1 - 6, разівB = 10 , 000
- сортуйте завантажене вибіркове розподіл різниць нахилу
- обчисліть% bsd, який перекривається 0 (залежно від того, де менше, правий хвіст% або лівий хвіст%)
- помножте цей відсоток на 2
Логіка цього алгоритму як статистичного тесту принципово схожа з класичними тестами (наприклад, t-тести), але ви не припускаєте, що дані або отримані вибіркові розподіли мають певний розподіл. (Наприклад, ви не припускаєте нормальності.) Основне припущення, яке ви робите, - це те, що ваші дані є репрезентацією населення, з якого ви взяли вибірку / хочете узагальнити. Тобто розподіл вибірки подібний до розподілу населення. Зауважте, що якщо ваші дані не пов’язані з населенням, яке вас цікавить, вам не пощастить.
Деякі люди побоюються використовувати, наприклад, регресійну модель для визначення схилу, якщо ви не бажаєте припускати нормальність. Однак ця стурбованість помилкова. Теорема Гаусса-Маркова говорить нам, що оцінка є неупередженою (тобто орієнтована на справжнє значення), тому це добре. Відсутність нормальності просто означає, що істинний розподіл вибірки може відрізнятися від теоретично заданого, і тому p-значення недійсні. Процедура завантаження дає вам змогу вирішити цю проблему.
Ще два питання щодо завантажувального завантаження: Якщо дотримані класичні припущення, завантажувальна система є менш ефективною (тобто має меншу потужність), ніж параметричний тест. По-друге, завантажувальний інструмент найкраще працює, коли ви досліджуєте поблизу центру розподілу: засоби та медіани хороші, квартилі не такі гарні, завантажувальний мінімум чи максимум обов'язково провалюються. Щодо першого пункту, можливо, вам не знадобиться завантажуватися у вашій ситуації; що стосується другої точки, завантажувальний нахил ідеально чудовий.