Я не впевнений, куди належить це питання: «Перевірена перевірка» або «Робоче місце». Але моє запитання нечітко пов'язане зі статистикою.
Це запитання (або, мабуть, питання) виникло під час моєї роботи «стажистом із науки про дані». Я будував цю лінійну регресійну модель і вивчав залишковий графік. Я побачив чітку ознаку гетерокедастичності. Я пам’ятаю, що гетерокедастичність спотворює багато статистичних даних тестів, таких як інтервал довіри та t-тест. Тому я використав найменше зважений квадрат, слідуючи тому, що я навчився в коледжі. Мій менеджер це побачив і порадив мені цього не робити, бо "я ускладнював речі", що зовсім не було для мене переконливою причиною.
Іншим прикладом може бути "видалення пояснювальної змінної, оскільки її р-значення незначне". Якщо бути, ця порада просто не має сенсу з логічної точки зору. Згідно з тим, що я дізнався, незначне значення p може бути обумовлене різними причинами: випадковістю, використанням неправильної моделі, порушенням припущень тощо.
Ще один приклад - це те, що я використовував k-кратну перехресну перевірку для оцінки своєї моделі. Відповідно, результат просто кращий за . Але у нас є нижчий для моделі 1, і причина має щось спільне з перехопленням . Мій керівник, однак, здається, що вважає за краще модель 2, оскільки вона має вищу R ^ 2 . Його причини (наприклад, R ^ 2 є надійною, або перехресне підтвердження - це підхід машинного навчання, а не статистичний підхід), просто не здається достатньо переконливим, щоб змінити свою думку.
Як хтось, хто щойно закінчив коледж, я дуже розгублений. Я дуже захоплююсь правильною статистикою для вирішення реальних проблем, але я не знаю, яке з наступних дій відповідає:
- Статистика, яку я навчився самостійно, просто неправильна, тому я просто помиляюся.
- Існує величезна різниця між теоретичною статистикою та будівельними моделями в компаніях. І хоча теорія статистики правильна, люди просто не дотримуються її.
- Менеджер неправильно використовує статистику.
Оновлення 17.04.2017: Я вирішив продовжити ступінь доктора філософії. в статистиці. Дякую всім за вашу відповідь.