Правильна статистика в робочому середовищі?


20

Я не впевнений, куди належить це питання: «Перевірена перевірка» або «Робоче місце». Але моє запитання нечітко пов'язане зі статистикою.

Це запитання (або, мабуть, питання) виникло під час моєї роботи «стажистом із науки про дані». Я будував цю лінійну регресійну модель і вивчав залишковий графік. Я побачив чітку ознаку гетерокедастичності. Я пам’ятаю, що гетерокедастичність спотворює багато статистичних даних тестів, таких як інтервал довіри та t-тест. Тому я використав найменше зважений квадрат, слідуючи тому, що я навчився в коледжі. Мій менеджер це побачив і порадив мені цього не робити, бо "я ускладнював речі", що зовсім не було для мене переконливою причиною.

Іншим прикладом може бути "видалення пояснювальної змінної, оскільки її р-значення незначне". Якщо бути, ця порада просто не має сенсу з логічної точки зору. Згідно з тим, що я дізнався, незначне значення p може бути обумовлене різними причинами: випадковістю, використанням неправильної моделі, порушенням припущень тощо.

Ще один приклад - це те, що я використовував k-кратну перехресну перевірку для оцінки своєї моделі. Відповідно, результат просто кращий за . Але у нас є нижчий для моделі 1, і причина має щось спільне з перехопленням . Мій керівник, однак, здається, що вважає за краще модель 2, оскільки вона має вищу R ^ 2 . Його причини (наприклад, R ^ 2 є надійною, або перехресне підтвердження - це підхід машинного навчання, а не статистичний підхід), просто не здається достатньо переконливим, щоб змінити свою думку.CVmodel1CVmodel2R2R2R2

Як хтось, хто щойно закінчив коледж, я дуже розгублений. Я дуже захоплююсь правильною статистикою для вирішення реальних проблем, але я не знаю, яке з наступних дій відповідає:

  1. Статистика, яку я навчився самостійно, просто неправильна, тому я просто помиляюся.
  2. Існує величезна різниця між теоретичною статистикою та будівельними моделями в компаніях. І хоча теорія статистики правильна, люди просто не дотримуються її.
  3. Менеджер неправильно використовує статистику.

Оновлення 17.04.2017: Я вирішив продовжити ступінь доктора філософії. в статистиці. Дякую всім за вашу відповідь.


1
Ваші запитання стосуються коментарів (особливо тих, хто в кінці) під цією відповіддю: stats.stackexchange.com/questions/229193/…

Ця дискусія також може бути актуальною . На практиці іноді можна використовувати моделі, коли ваші дані порушують деякі необхідні припущення (наприклад, Naive Bayes залежно від змінних) і все ще мають цікаві результати. Але ви повинні бути дуже обережними щодо висновків, які ви робите, і ось головна проблема полягає в тому, що більшість людей просто не переймаються значенням ваших результатів, поки ви отримуєте результати. Опублікувати чи загинути ...
габоровий

1
Відповіді "ти маєш рацію, а він помиляється", ймовірно, правдиві і стосуються твоєї справи. У будь-якому разі, будьте обережні, що іноді відповідь може бути: "він помиляється, але його неправильний шлях працює для його цілей - можливо, це працює навіть краще, ніж правильний спосіб зробив би для його нестатистичних цілей ведення бізнесу". Я думаю, що це трапляється часто з усілякими науковими знаннями, а не лише зі статистикою. Можливо, в SE Workplace вони можуть навести нестатистичні приклади.
Пер

3
@Aksakal: Із того, що ОП описує статистично, він швидше правильний. Ваш особистий анекдот, це лише анекдот. Я можу протидіяти цьому, сказавши, що я перейшов на роботу, де тестування A / B буде зроблено лише з 30 зразками; показуючи основні обчислення потужності, змінив цілий настрій команди щодо розмірів вибірки та прийняття рішень. Повертаючись до питання ОП, я погоджуюсь, що описане не означає, що керівник ОП зробив неправильний заклик. Бізнес робочих процеси мають певну інерцію , пов'язану з ними і «новим хлопцем» має проявити себе як проповідник , перш ніж стати пророком ...
каже usεr11852 відновив Monic

1
@ usεr11852, мій коментар був рентом :), але я вважаю, що для нового, хто є новим у цій галузі, безпечніше вважати, що начальник знає краще. маючи досвід, він може розслабити це припущення, можливо, приділяє більше ваги своїй власній думці і менше - начальнику '. для стажиста вага на власну думку повинна бути близькою до ZERO.
Аксакал

Відповіді:


12

Коротше кажучи, ти маєш рацію, а він помиляється. Трагедія аналізу даних полягає в тому, що багато людей це роблять, але лише менша частина людей робить це добре, частково через слабку освіту в аналізі даних і частково через апатію. Зверніть критичний погляд на більшість опублікованих дослідницьких статей, у яких немає списку статистиків або експерта з машинного навчання у списку авторів, і ви швидко помітите такі елементарні помилки, як інтерпретація -значень, як ймовірність того, що нульова гіпотеза справжня .p

Я думаю, що єдине, що потрібно зробити, зіткнувшись з подібною ситуацією, - це ретельно пояснити, що не так у неправильній практиці, прикладом чи двома.


3
Дякую за відповідь. Я думаю, що "питання наступного кроку" полягає в тому, чи є якась робота там, яка насправді робить правильну статистику? Я розумію, що наука даних сьогодні дуже популярна, але я якось маю таке враження, що багатьом "науковцям даних" не дуже
цікаво

1
@Misakov Я думаю, що це дійсно залежить від людини чи організації. Але мовні слова, такі як "наука про дані", "аналітика" та "бізнес-розвідка" - це червоні прапори. І не забувайте, що на співбесіді ви також опитуєте їх. Це не просто змушує вас добре виглядати, щоб задати детальні запитання про те, як це робиться; це дозволяє вам побачити, наскільки серйозно вони ставляться до аналізу даних.
Кодіолог

@Misakov Ви, ймовірно, повинні зайти в академію, якщо ви дійсно хочете робити правильну статистику. Переважна більшість (див. Мою відповідь вище) промислового використання буде помилковою.
Mooks

R2

1
@ usεr11852 Хороший (тобто неволосий) менеджер відкладе співробітників, коли вони знають краще, ніж він. "З огляду на те, що підприємство все ще існує, рішення менеджера не настільки помилкові " - гонка не до швидкої.
Кодіолог

11

Кодіолог має рацію - ти маєш рацію, він помиляється. Однак, на жаль, це ще більш поширена проблема, ніж те, з чим ви стикаєтесь. Ви насправді в галузі, яка працює досить добре.

mean+3σ

Тепер, окрім того, що цей довірчий інтервал не говорить їм про те, що їм насправді потрібно (для цього їм потрібен інтервал допуску), це робиться наосліп за параметрами, що зависають біля якогось максимального або мінімального значення (але там, де інтервал переміг ' t фактично перевищують ці значення). Оскільки Excel буде обчислювати те, що їм потрібно (так, я сказав, що Excel), вони встановлюють свої характеристики відповідно до цього, незважаючи на те, що параметр не буде десь поблизу зазвичай розподіленого. Цих людей вчили основні статистичні дані, але не qq-графіки тощо. Однією з найбільших проблем є те, що статистика дасть вам число, навіть якщо використовується невідповідно - тому більшість людей не знають, коли вони це зробили.

Іншими словами, технічні характеристики на переважну більшість продуктів, у переважній більшості галузей, є нісенітницею.

Один з найгірших прикладів, коли я людей сліпо слідкую за статистикою, не розуміючи, це використання Cpk в автомобільній промисловості. Одна компанія витрачала близько року, сперечаючись над продуктом зі своїм постачальником, тому що вони думали, що постачальник може контролювати їх товар до рівня, який просто неможливий. Вони встановлювали лише максимальну специфікацію (не мінімум) для параметра і використовували Cpk для обгрунтування своєї вимоги - поки не було зазначено, що їхні обчислення (коли вони використовувались для встановлення теоретичного мінімального рівня) - не хотіли, щоб так не перевіряли ) мається на увазі масове негативне значення. Це за параметром, який ніколи не може перевищувати 0. Cpk вважає нормальним, процес не давав ніде майже нормальних даних. Це зайняло довгий час, щоб зануритись у нього. Все, що витратили витрачені час і гроші, тому що люди не ' я розумію, що вони розраховували - і це могло бути набагато гірше, якби його не помітили. Це може бути вагомим фактором для того, чому в автомобільній промисловості проводяться регулярні відкликання!

Я сам походжу з наукового походження, і, чесно кажучи, статистики викладання науки і техніки є вкрай недостатньою. Я ніколи не чув про більшість того, що мені зараз потрібно використовувати - це все було самоучкою, і є (порівняно з правильним статистиком) величезні прогалини в моїх знаннях навіть зараз. З цієї причини я не переслідую, що люди зловживають статистикою (я, мабуть, все ще регулярно роблю), це погана освіта.

Отже, повертаючись до свого початкового питання, це насправді непросто. Я погодився б з рекомендацією Кодіолога спробувати обережно пояснити ці речі, щоб використовувати правильну статистику. Але я хотів би додати до цього додатковий застереження, а також радить вам розумно вибирати свої битви заради своєї кар’єри.

Це прикро, але факт, що ви не зможете кожен раз змусити робити найкращу статистику. Виберіть їх для виправлення, коли це дійсно має значення для остаточного загального висновку (що іноді означає робити два різні способи перевірки). Бувають випадки (наприклад, приклад вашої моделі 1,2), коли використання "неправильного" способу може призвести до однакових висновків. Уникайте занадто часто виправляти занадто багато людей.

Я знаю, що це інтелектуально засмучує, і світ повинен працювати інакше - на жаль, це не так. До певної міри вам доведеться навчитися судити свої битви на основі індивідуальних особистостей ваших колег. Ваша (кар'єрна) мета - бути експертом, до якого вони йдуть, коли їм справді потрібна допомога, а не прискіпливою людиною, яка завжди намагається їх виправити. І насправді, якщо ти станеш цією людиною, то, мабуть, там ти матимеш найбільший успіх, коли люди слухатимуть та робити все правильно. Удачі.


Excel цілком можливо найбільш широко використовуване програмне забезпечення для аналізу даних. Не потрібно зауваження " так, я це сказав! " Якщо хтось не пішов із академічних закладів (а може, і великих фармацевтів), він би не кинув очей на ваше оригінальне твердження. (Приємна відповідь, +1)
usεr11852 повідомляє Відновити Моніку

1
Це найбільше поширення, і я думаю, що це підкреслює мою оригінальну точку. Excel має величезні недоліки для аналізу даних. Якщо те, що ви робите, робиться в Excel, ви не можете його реально назвати аналізом даних, якщо тільки ви не вводите вручну всі розрахунки самостійно. Нічого проти Excel як електронної таблиці, але в кращому випадку це інструмент рудиментарного аналізу даних. Але люди не знають нічого кращого, тому що їх краще не вчать. Я не походжу зі статистичних даних, але мені пощастило, що хтось згадав про мене за створення кращих графіків - і це, випадково, привело мене до кращої статистики.
Mooks

"Я погодився б із рекомендацією Кодіолога спробувати обережно пояснити ці речі, щоб використовувати правильну статистику". - Я хочу бути свідком. Стажер, який пояснює своєму роботодавцю, як вести бізнес.
Аксакал

1
У цьому допоможе перевірка №9. Це звичайна порада, яка постійно надходить у такі списки. Перші 100 днів на роботі: не пропонуйте змінити речі, спочатку з’ясуйте, чому люди роблять речі так, як вони роблять, часто це є поважна причина. Ви зробите собі дурня, і я бачив, як це відбувається з новими хлопцями знову і знову. Просто заткніться і спостерігайте протягом декількох місяців
Аксакал

@Aksakal Те, що ви сказали, безумовно, має сенс. Я дію трохи «сміливо» у своїй ситуації, головним чином тому, що я стажер, і я знаю, що все-таки досить скоро поїду.
3x89g2

3

Те, що описано, виглядає як дещо поганий досвід. Тим не менш, це не повинно спричиняти негайного сумніву у власній освіті, а також у статистичному суді керівника / керівника.

R2робота, а не асимптотична поведінка десь у майбутньому, не означає багато. Люди неохоче приймуть це; навіщо витрачати енергію на зміни, коли все (дещо) працює? Ваш менеджер не обов'язково помиляється з точки зору бізнесу. Він відповідає за статистичні, а також за бізнес-рішення вашого відділу; ці рішення не обов'язково збігаються завжди і цілком ймовірно, що вони не збігаються щодо короткотермінових результатів (обмеження в часі є дуже важливим фактором у галузевій аналітиці даних).

Моя порада - дотримуватися своїх (статистичних) знарядь, але будьте відкриті до того, що роблять люди, будьте терплячі до людей, які можуть бути відсторонені від нових статистичних практик та пропонуйте поради / думки, коли їх запитують , вирощуйте товстішу шкіру та навчайтесь у вашому оточенні. Якщо ви робите правильні речі, це буде повільно показувати, люди захочуть вашої думки, оскільки вони зрозуміють, що ви можете запропонувати рішення там, де їх поточний робочий процес не відповідає. Нарешті, так, звичайно, якщо через розумну кількість часу (принаймні пару місяців) ви відчуєте, що вас знецінили і зневажили, просто продовжуйте рухатися далі.

Само собою зрозуміло, що зараз ви в галузі, не можете сидіти і думаєте, що не потрібно відточувати свою статистику. Прогностичне моделювання, регресійні стратегії, алгоритми кластеризації просто розвиваються. Наприклад, використання регресії процесів Гаусса у промислових умовах було близьким до наукової фантастики 10 років тому; тепер це можна побачити майже як позаштатну спробу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.