Запуск завантаження - чи потрібно мені спочатку видалити інші люди?


19

Ми провели спліт-тест на нову функцію продукту і хочемо оцінити, чи значне підвищення доходу. Наші спостереження, безумовно, зазвичай не розподіляються (більшість наших користувачів не витрачають коштів, і в межах тих, хто це робить, він сильно перекошений до безлічі маленьких витрачальників і кількох дуже великих витрачених).

Ми вирішили використати завантажувальну систему для порівняння засобів, щоб вирішити питання про те, що дані не розповсюджуються нормально (побічне запитання: чи це законне використання завантажувальної передачі?)

Моє запитання полягає в тому, чи потрібно мені обрізати атрибути з набору даних (наприклад, кілька дуже великих витратників), перш ніж запустити завантажувальний процес, чи це не має значення?


1
Хороше запитання: я, мабуть, можу заперечувати проти і проти усунення інших людей. Чому б не скористатися медіанами, якщо ви переживаєте за людей, що випадають, а те, що ви шукаєте, - це лише "центральна тенденція"? Враховуючи, що змінні, пов'язані з грошима, часто мають сильно перекошений розподіл (наприклад, Pareto), що може бути нерозумним в першу чергу.
usεr11852 повідомляє Відновити Моніку

1
@ user11852 Медіани мало розповідають про середнє значення, яке стосується доходу. Було б цікаво бачити ваш аргумент на користь усунення "людей, що не вийшли з ладу", особливо коли вони, ймовірно, є основними учасниками загального доходу.
whuber

1
На жаль, медіана завжди буде нульовою, оскільки <10% користувачів витрачають взагалі
user31228

2
@ user11852 Ваш загальний аргумент про те, що екслідери є законними, є корисним. Але щодо можливості ампліфікації мені здається, що це навпаки: завантажувальна програма має шанс працювати лише за умови використання повної вибірки. Інакше він представляє казку, в якій розповідається про те, як би склалося, якби не існувало чужих людей - але, очевидно, вони є. Більша проблема полягає в тому, що завантажувальна техніка має мало теоретичного обґрунтування, коли вона застосовується до малих зразків: теорія є асимптотичною .
whuber

2
Це важливе питання (+1). Чи можете ви додати невеликий зразок вашого набору даних чи змодельований зразок, що нагадує його до питання? Я думаю, що подання ілюстрації буде в цьому випадку більш плідним.
user603

Відповіді:


6

Перш ніж вирішувати це, важливо визнати, що статистична помилка "усунення інших людей" була помилково розповсюджена у більшості застосованої статистичної педагогіки. Традиційно люди, що переживають люди, визначають як високі важелі, спостереження з високим впливом. Можна і слід ідентифікувати такі спостереження при аналізі даних, але ці умови самі по собі не є підставою для видалення цих спостережень. "Справжній перешкод" - це спостереження з високим важелем / високим впливом, що не відповідає тиражам експериментальної конструкції. Щоб вважати спостереження таким, потрібне спеціалізоване знання цієї сукупності та науки, що стоїть за "механізмом генерування даних". Найважливіший аспект полягає в тому, що ви повинні мати можливість виявляти потенційних людей, які вижили в минулому .

Що стосується аспекту завантаження речей, завантажувальний пристрій призначений для імітації незалежних, повторних малюнків із сукупності вибірки. Якщо ви конкретизуєте критерії виключення у своєму плані аналізу, ви все одно повинні залишати виключені значення у розподілі вибіркового завантаження референтних даних . Це пояснюється тим, що ви будете обліковувати втрату живлення через застосування виключень після вибірки даних. Однак, якщо немає попередньо визначених критеріїв виключення, і вилучення видаляються за допомогою постсоціального рішення, як я, очевидно, проти цього, протистояння цим значенням буде поширювати ті самі помилки у висновках, які викликані видаленням залишків.

Розглянемо дослідження про багатство та щастя в необгрунтованому простому випадковому зразку з 100 осіб. Якби ми взяли твердження, що "1% населення утримує 90% світового багатства" буквально, то ми б спостерігали, в середньому, одне дуже впливове значення. Припустимо, що, крім забезпечення базової якості життя, не було надлишкового щастя, що пояснюється більшими доходами (нестабільна лінійна тенденція). Таким чином, ця особа також є високим важелем.

Коефіцієнт регресії найменших квадратів відповідає вмісту даних, що не містять даних, за середніми тенденціями першого порядку в цих даних. Він сильно ослаблений нашою 1 особою у вибірці, щастя якої відповідає рівню, що знаходиться поблизу середнього рівня доходу. Якщо ми видалимо цю особу, то нахил регресії найменших квадратів значно більший, але дисперсія регресора зменшена, отже, висновок про асоціацію приблизно однаковий. Складність з цим полягає в тому, що я не уточнив умови, в яких люди будуть виключені. Якщо інший дослідник повторив цю конструкцію дослідження, він відібрав би в середньому одного високого доходу, помірно щасливого індивіда, і отримав результати, що не відповідали моїм "підстриженим" результатам.

Якби ми були апріорно зацікавлені в помірному щастя доходу асоціації, то ми повинні були вказаним , що ми б, наприклад , «порівнювати фізичні особа , які отримують менше , ніж $ 100,000 річного дохід домогосподарства». Таким чином, видалення зовнішньої форми змушує нас оцінити асоціацію, яку ми не можемо описати, отже, значення p не мають сенсу.

З іншого боку, неправильно відкаліброване медичне обладнання та ретельне неправдиве опитування брехні можуть бути усунені. Чим точніше, що критерії виключення можна описати до того, як відбудеться фактичний аналіз, тим більш обґрунтованими та послідовними будуть результати, які дасть такий аналіз.


Я не впевнений, що я розумію, чому " якщо ви уточнюєте критерії виключення в своєму плані аналізу, ви все одно повинні залишати виключені значення в розподілі референтного завантажувального завантаження ". Ви згадуєте, що це " тому, що ви будете рахувати з втратою влади через застосовуючи виключення після вибірки ваших даних. "Я не бачу, чому передбачається, що застосування критеріїв виключення після вибірки призводить до втрати потужності, а також як / навіщо залишати виключені випадки у зразку завантажувальної програми" для цього "(?), ні далі, чому це явно потрібно "враховувати". Можливо, мені тут щільно.
Джейк Вестфалл

p

Хм, моє думка полягала в тому, що якщо заздалегідь задати критерії виключення - так що ми явно не зацікавлені в певних типах випадків, і, імовірно, майбутні реплікації дослідження будуть використовувати ці самі критерії виключення - тоді було б доцільно залишити ці випадки вибірка завантажувача, оскільки вони є частиною населення, про яке ми не хочемо робити жодних висновків. Я бачу , як в майбутньому реплікації можуть в кінцевому підсумку виключити іншу частину випадків, але я не можу досить зробити зв'язок , чому це має значення для тих випадків , які ми явно є зацікавленими в ..
Джейка Вестфол

1
pН0

0

Дивитись на це як на чужу проблему мені здається неправильним. Якщо "<10% користувачів витрачають взагалі", вам потрібно моделювати цей аспект. Регресія Тобіта чи Гекмана була б двома можливостями.


2
Наразі це скоріше коментар, ніж відповідь. Не хотіли б ви трохи розширити його, щоб зробити його більш відповідальним?
gung - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.