Питання інтерв'ю щодо статистики


65

Я шукаю деякі статистичні дані (і, ймовірно, я думаю) питання інтерв'ю, від найпростіших до більш просунутих. Відповіді не потрібні (хоча посилання на конкретні запитання на цьому сайті були б непогані).



Було б дуже цікаво, якби хтось міг навести приклади, де вони дали себе під час інтерв'ю ...
kjetil b halvorsen

Відповіді:


40

Не впевнений, що це за робота, але я думаю, що "Поясніть новачку", мабуть, було б добре -

а) тому що їм, мабуть, потрібно буде це зробити в роботі

б) я вважаю, що це хороший тест на розуміння.


8
(+1): Я не можу порахувати разів, коли я думав, що щось зрозумів, але тоді не зміг пояснити це комусь іншим легкими словами. Приклад: p-value;)
steffen

6
"Якщо ви не можете пояснити це шестирічному віку, то ви, мабуть, самі цього не розумієте", - Альберт Ейнштейн. Можливо, не такий крайній, але ви розумієте ... :)
JM не є статистиком

1
Мені подобається "Поясніть p-значення", з або без частини "для початківців".
shabbychef

ось чому перехресне підтвердження чудово. багато "непрофесійних" питань і відповідей.
Ніл Макгуйган

Дійсно хороша порада, берете інтерв'ю чи ні!
JMS

21

Стандартний Q, де я працюю, відповідає таким чином:

Подивіться на цей результат множинної логістичної регресії зі статистичного пакету, який ви стверджуєте, що використовували (бажано, той, який ми також використовуємо). XXX - незалежна змінна основна частка. Як би ви інтерпретували результати для колеги, які знають тему, але не мають офіційної статистичної підготовки? (При необхідності запит на окрему інтерпретацію бальної оцінки, CI, p-значення).


15
У більшості академічних контекстів можна також попросити: «подивіться на цю модель в цій роботі, яку ви (у співавторі) є автором . Скажи мені, що це означає. Недостатня відповідь тоді фатальна, тому що немає жодних виправдань для незнайомості, однак жахливо поширених.
кон'югатприор

4
@conjugateprior Неправда. Поки є принаймні один співавтор, якого немає, це була область, що не є співавтором. Основне використання цієї методики - на презентаціях конференції.
Марк Л. Стоун

18

Ви також можете задуматися над тим, чи є інтерв'ю найкращим середовищем для вимірювання цікавої конструкції. Якщо ви хочете виміряти попереднє знання про ймовірність чи статистику, вам може бути краще покладатися більше на письмовий тест. Ви можете задати більше питань і тим самим підвищити надійність вимірювання. Він більш стандартизований як в адміністрації, так і в оцінці. І коли інструмент розроблений, він, ймовірно, використовує менше ресурсів для адміністрування.

Потім ви можете використовувати інтерв'ю як більш сфокусований інструмент, дивлячись на такі фактори, як вербальні та міжособистісні навички.


1
Це хороший момент. У минулому я виявив, що дуже важко сказати, чи буде працювати той чи інший кандидат, якщо ви не працювали з ними в минулому.
shabbychef

15

Мене задали два питання:

1) Вам підходить багаторазова регресія, щоб дослідити вплив певної змінної, в якій зацікавлений працівник іншого відділу. Змінна повертається незначно, але ваш колега каже, що це неможливо, оскільки, як відомо, це має ефект. Що б ви сказали / робили?

2) У вас 1000 змінних і 100 спостережень. Ви хочете знайти значні змінні для конкретної відповіді. Що б ти зробив?


Чи можете ви також розмістити відповіді? Для 1) Я припускаю, що можуть бути деякі залежні змінні, що викликають проблему. Для 2) Я, мабуть, пішов би на χ² (чи-квадрат) статистичний тест
Ріші Дуа

2
На обидва є багато розумних відповідей, ось мої швидкі думки: 1) модель регресії є зразком, цей зразок має випадкові зміни, тому модель є лише оцінкою і може призвести до помилок типу 1 або 2. Серед прогнозів може бути також велика колінеарність. Для 2) це велика проблема Р проти малого N. Існує багато прийомів вирішення цієї ситуації, таких як зменшення розмірів і Лассо.
Глен

2) зробіть уніваріантні підходи змінних та визначте ті, які є найбільш значущими для зменшення набору змінних
adam

11

Ось великий набір даних. Який у вас план поводження з чужими людьми? Як щодо відсутніх значень? Як щодо трансформацій?

Чи можуть вони мати справу з реальними даними?


Шановний анонімний користувач, не використовуйте редагування для коментарів (це не для вас, Ніл).

10

Багато питань / відповідей на цьому веб-сайті можуть дати ідеї для гарних питань. Я дам список з деякими такими посиланнями, які я вважаю хорошими. Повідомлення, в яких я відповів, є надмірно представленими, тому що я краще знаю ці пости, а не тому, що вони обов'язково найкращі! Я даю короткі коментарі до кожного посилання, тож ви можете вирішити, чи хочете ви перейти за цим посиланням.

Яка інтуїція стоїть за SVD? "Чи можете ви пояснити одному з наших клієнтів, як працює SVD?"

Максимальна оцінка правдоподібності (MLE) у простому плані "Чи можете ви пояснити нетехнічною мовою ідею оцінки максимальної ймовірності?"

Талеб і Чорний лебідь "Скажіть, що таке чорний лебідь, і чому це актуально? Коли це актуально?"

Статистичний висновок, коли вибіркою "є" сукупність "Що ви можете сказати про статистичний висновок, коли вибіркою є ціла сукупність?"

Добре підходить і яку модель обрати лінійну регресію чи Пуассона "У нас є проблема регресії, де відповідь є лічильною змінною. Який би ви обрали в цьому контексті, звичайні найменші квадрати або пуассонова регресія (чи, можливо, якась інша)? Поясніть свій вибір , які основні відмінності між цими моделями? "

Яка різниця між кінцевою та нескінченною дисперсією "Чи можете ви пояснити якомога простішою мовою, що означає для випадкової змінної нескінченне очікування чи нескінченну дисперсію? Яке практичне значення цього розрізнення? Поясніть з приклад ".

Які сучасні, легко використовувані альтернативи ступінчастій регресії? "Як би ви створили складну регресійну модель, коли існує багато можливих змінних прогнозів? Опишіть різні можливі стратегії та розкажіть про проблеми з кожною з них"

Як боротися з ідеальним розділенням при логістичній регресії? "Яка проблема розділення в логістичній регресії, її причини, симптоми? Що ви можете зробити для її вирішення, якщо це справді проблема?"

Чому кореляційна матриця повинна бути позитивною напіввизначеною і що це означає бути чи не бути позитивною напіввизначеною? і
що невідома матриця коваріації говорить мені про мої дані? "Поясніть, чому матриця коваріації повинна бути позитивною (напів) певною, і що це означає. Як можна використовувати цей факт?"

Назвіть багатовимірні версії медіани "Чи можете ви запропонувати якийсь спосіб узагальнити медіану до багатовимірних даних?"

Інтерпретація термінів взаємодії в логітній регресії з категоричними змінними та Які найкращі практики виявлення ефектів взаємодії? і Дві негативні основні ефекти, але позитивний ефект взаємодії? і Включення взаємодії, але не основні ефекти в моделі, і Як інтерпретувати основні ефекти, коли ефект взаємодії не є суттєвим? "Поясніть, що розуміється під взаємодією в регресійних моделях. Зокрема, що це означає, якщо взаємодія є суттєвою, а основних наслідків немає? Чи є якась різниця в інтерпретації взаємодії між звичайною лінійною регресією та логістичною регресією?"

Що може бути причиною використання перетворення квадратних коренів на даних? та відповідне перетворення даних "Коли, як і чому ви перетворюєте змінну відповіді в регресійній (або ANOVA) моделі? Чи є альтернативи?

Чи можна довіряти результатам ANOVA для нерозподіленого DV? "Як би ви ставились до ANOVA з ненормальними залишками?

Чому статистика корисна, коли багато важливих речей - це одні зйомки?

Як я можу ефективно моделювати суму випадкових змінних Бернуллі?

Коли використовувати узагальнені оціночні рівняння та моделі змішаних ефектів?

Що відбувається тут, коли я використовую квадратичні втрати в налаштуваннях логістичної регресії? "Чому ми використовуємо максимальну ймовірність для логістичної регресії? Чому б не мінімум квадратів?"


9

Мене одного разу запитали, як я поясню відповідність теореми про центральну межу для класу першокурсників із соціальних наук, які ледь не мають знань про статистику.


4
Актуальність теореми про центральну межу полягає в тому, щоб змусити людей думати, що все нормально, а насправді нічого немає. І тому призводить до багатьох помилкових висновків.
Марк Л. Стоун


8

Як ви запобігаєте надмірному розміщенню під час створення статистичної моделі?

Гарна відповідь: перехресне підтвердження


6

Я часто запитую "як би ви визначили / пояснили, що таке прогнозування?"

Відповідь на цей тип дуже загального питання допомагає мені зрозуміти, чи пов’язані люди з певним випадком прогнозування. Правильної відповіді немає, але відповісти на це синтетично під час інтерв'ю не завжди просто :)


5

Для контексту даних спостереження:

Розглянемо цю регресійну модель, застосовану до цієї предметної проблеми. Що, якщо що, в ньому можна інтерпретувати причинно? [Подальший зонд] Що вам потрібно навчитися змінювати свою думку?


4

Як ви будете рахувати кількість дерев сандальних дерев у Бангалорі?


1
Це означає як якесь питання Фермі ?
Thies Heidecke

2
Гарне питання. Я використовував версію цього в класі (дерева в парку). Вони отримують ідею вибірки, але, як правило, пропускають необхідність оперативного визначення: коли ви починаєте називати це деревом?
zbicyclist

4

Під заголовком Причинно-наслідкова кореляція :

Загальноприйняте використання клієнта / користувача як функції для прогнозної моделі. Наприклад, люди, які натискають цю кнопку, частіше підписуються, ніж люди, які цього не роблять. Люди, які здійснюють покупки в понеділок, мають більше шансів на покупки знову, ніж ті, хто здійснює покупки у вівторок.

Якщо ми сприймемо це до кінця: користувачі, які натискають "придбати", швидше купують товар, ніж користувачі, які не натискають покупку.

Але очевидно, що це не дуже допомагає пояснити, чому деякі користувачі підписуються, а деякі ні.

Як би ви вирішили балансувати за допомогою функцій клієнта, які пояснюють, чому вони підписуються порівняно з тими, які дуже корелюються з підпискою, але необхідні для виконання завдання?


3

Ось набір TinkerToy . Покажіть мені, як працює евклідова відстань у трьох вимірах. Тепер покажіть мені, як працює множинна регресія.

Чи можуть вони пояснити, як працює статистика у фізичному світі?


1
NN

1
якщо ви хочете розсіяти дві змінні зі 100 спостереженнями, вам знадобляться лише 2 виміри, а не 100 :) і так далі
Ніл МакГуйган

3

У нас працює центр обслуговування клієнтів. Ми отримуємо 1 мільйон дзвінків на місяць. Як ми її зменшимо до десяти тисяч?


5
видаліть 99% своїх телефонів!
shabbychef

5
Перестаньте сплачувати рахунок за телефон.
Глен

3
Сплачуйте плату за дзвінок. (900-номер у США ...)
gWaldo

7
Це питання про правило 80–20. Це звичайне правило в бізнесі; наприклад, "80% ваших продажів надходить від 20% ваших клієнтів". Microsoft зазначила, що виправляючи 20% найпопулярніших помилок, 80% помилок та збоїв буде усунено. Отже, це означатиме, щоб створити FAQ, щоб визначити вирішення цих 20% проблем
Rishi Dua

3

Багато питань, які ми задаємо, схожі на ті, які вже були описані. Але деякі, які я ще не читав, які використовуються: вас можуть попросити замалювати програму на дошці, щоб зробити щось на кшталт: імітувати прокатку кісток чи іншу проблему ймовірності або обчислити ряд простих чисел (наприклад, усі основні числа, менші ніж 1 000 000) - ви могли б зробити це будь-якою мовою, яку хочете, але більшість людей обирає R, а деякі вибирають Python (я вважаю), але я думаю, ви могли вибрати Stata, SAS, SPSS , Matlab і т. Д. Можливо, вам будуть задані питання, щоб перевірити глибину знань мови вибору програмування - наприклад, для чого застосовувати застосувати замість циклу для R, наприклад.

Вас також можуть попросити розробити експеримент чи інше дослідження, щоб дослідити щось - зазвичай щось практичне - іноді це буде пов'язано з роботою, яку ми виконуємо, але часто ні. (У вас не повинно бути знань про роботу, яку ми виконуємо, але ви повинні мати можливість зрозуміти суть проблеми, про яку ви не чули, і розумно роздумувати над нею, навіть якби давали певні доменні знання, які ви знали б це було неправильно - це нормально, від вас не очікується знання домену). Вас можуть попросити врахувати такі речі, як влада.


2

Проводячи аналіз дисперсії кількісної змінної, іноді виявлялося, що частота змінної дуже велика (> 5), тоді ми використовуємо точний тест Фішера, щоб знайти незалежність змінної.


Це, мабуть, буде відповідати відповіді Кріса.
JM не є статистиком

4
Чи включає правильна відповідь на це відповідь на те, що існує суперечка щодо того, чи є фіксованими маргінали сенсом та мати усвідомлену думку з цього приводу?
Бен Болкер

1

Середня оплачувана відвідуваність ігор в янкі минулого року становила 55 000. Ви випадково запитуєте купу людей в Нью-Йорку, чи їздили вони на гру з янкі в минулому сезоні, і якщо вони це зробили, ви записуєте платні відвідування. Яка середня платна відвідуваність ігор, в яких брали участь люди, яких ви запитували, які відвідували гру?

Я дам вам підказку для моєї відповіді (підказки не надано): вибірки з упередженою довжиною. Я забив домашній забіг на цьому, але цього було недостатньо, щоб виграти гру, ха-ха. Примітка. Я згадав про багато застережень, що стосуються того, як робився відбір проб, і інтерв'юер сказав мені зневажати їх.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.