Я шукаю деякі статистичні дані (і, ймовірно, я думаю) питання інтерв'ю, від найпростіших до більш просунутих. Відповіді не потрібні (хоча посилання на конкретні запитання на цьому сайті були б непогані).
Я шукаю деякі статистичні дані (і, ймовірно, я думаю) питання інтерв'ю, від найпростіших до більш просунутих. Відповіді не потрібні (хоча посилання на конкретні запитання на цьому сайті були б непогані).
Відповіді:
Не впевнений, що це за робота, але я думаю, що "Поясніть новачку", мабуть, було б добре -
а) тому що їм, мабуть, потрібно буде це зробити в роботі
б) я вважаю, що це хороший тест на розуміння.
Стандартний Q, де я працюю, відповідає таким чином:
Подивіться на цей результат множинної логістичної регресії зі статистичного пакету, який ви стверджуєте, що використовували (бажано, той, який ми також використовуємо). XXX - незалежна змінна основна частка. Як би ви інтерпретували результати для колеги, які знають тему, але не мають офіційної статистичної підготовки? (При необхідності запит на окрему інтерпретацію бальної оцінки, CI, p-значення).
Ви також можете задуматися над тим, чи є інтерв'ю найкращим середовищем для вимірювання цікавої конструкції. Якщо ви хочете виміряти попереднє знання про ймовірність чи статистику, вам може бути краще покладатися більше на письмовий тест. Ви можете задати більше питань і тим самим підвищити надійність вимірювання. Він більш стандартизований як в адміністрації, так і в оцінці. І коли інструмент розроблений, він, ймовірно, використовує менше ресурсів для адміністрування.
Потім ви можете використовувати інтерв'ю як більш сфокусований інструмент, дивлячись на такі фактори, як вербальні та міжособистісні навички.
Мене задали два питання:
1) Вам підходить багаторазова регресія, щоб дослідити вплив певної змінної, в якій зацікавлений працівник іншого відділу. Змінна повертається незначно, але ваш колега каже, що це неможливо, оскільки, як відомо, це має ефект. Що б ви сказали / робили?
2) У вас 1000 змінних і 100 спостережень. Ви хочете знайти значні змінні для конкретної відповіді. Що б ти зробив?
Ось великий набір даних. Який у вас план поводження з чужими людьми? Як щодо відсутніх значень? Як щодо трансформацій?
Чи можуть вони мати справу з реальними даними?
Багато питань / відповідей на цьому веб-сайті можуть дати ідеї для гарних питань. Я дам список з деякими такими посиланнями, які я вважаю хорошими. Повідомлення, в яких я відповів, є надмірно представленими, тому що я краще знаю ці пости, а не тому, що вони обов'язково найкращі! Я даю короткі коментарі до кожного посилання, тож ви можете вирішити, чи хочете ви перейти за цим посиланням.
Яка інтуїція стоїть за SVD? "Чи можете ви пояснити одному з наших клієнтів, як працює SVD?"
Максимальна оцінка правдоподібності (MLE) у простому плані "Чи можете ви пояснити нетехнічною мовою ідею оцінки максимальної ймовірності?"
Талеб і Чорний лебідь "Скажіть, що таке чорний лебідь, і чому це актуально? Коли це актуально?"
Статистичний висновок, коли вибіркою "є" сукупність "Що ви можете сказати про статистичний висновок, коли вибіркою є ціла сукупність?"
Добре підходить і яку модель обрати лінійну регресію чи Пуассона "У нас є проблема регресії, де відповідь є лічильною змінною. Який би ви обрали в цьому контексті, звичайні найменші квадрати або пуассонова регресія (чи, можливо, якась інша)? Поясніть свій вибір , які основні відмінності між цими моделями? "
Яка різниця між кінцевою та нескінченною дисперсією "Чи можете ви пояснити якомога простішою мовою, що означає для випадкової змінної нескінченне очікування чи нескінченну дисперсію? Яке практичне значення цього розрізнення? Поясніть з приклад ".
Які сучасні, легко використовувані альтернативи ступінчастій регресії? "Як би ви створили складну регресійну модель, коли існує багато можливих змінних прогнозів? Опишіть різні можливі стратегії та розкажіть про проблеми з кожною з них"
Як боротися з ідеальним розділенням при логістичній регресії? "Яка проблема розділення в логістичній регресії, її причини, симптоми? Що ви можете зробити для її вирішення, якщо це справді проблема?"
Чому кореляційна матриця повинна бути позитивною напіввизначеною і що це означає бути чи не бути позитивною напіввизначеною? і
що невідома матриця коваріації говорить мені про мої дані? "Поясніть, чому матриця коваріації повинна бути позитивною (напів) певною, і що це означає. Як можна використовувати цей факт?"
Назвіть багатовимірні версії медіани "Чи можете ви запропонувати якийсь спосіб узагальнити медіану до багатовимірних даних?"
Інтерпретація термінів взаємодії в логітній регресії з категоричними змінними та Які найкращі практики виявлення ефектів взаємодії? і Дві негативні основні ефекти, але позитивний ефект взаємодії? і Включення взаємодії, але не основні ефекти в моделі, і Як інтерпретувати основні ефекти, коли ефект взаємодії не є суттєвим? "Поясніть, що розуміється під взаємодією в регресійних моделях. Зокрема, що це означає, якщо взаємодія є суттєвою, а основних наслідків немає? Чи є якась різниця в інтерпретації взаємодії між звичайною лінійною регресією та логістичною регресією?"
Що може бути причиною використання перетворення квадратних коренів на даних? та відповідне перетворення даних "Коли, як і чому ви перетворюєте змінну відповіді в регресійній (або ANOVA) моделі? Чи є альтернативи?
Чи можна довіряти результатам ANOVA для нерозподіленого DV? "Як би ви ставились до ANOVA з ненормальними залишками?
Чому статистика корисна, коли багато важливих речей - це одні зйомки?
Як я можу ефективно моделювати суму випадкових змінних Бернуллі?
Коли використовувати узагальнені оціночні рівняння та моделі змішаних ефектів?
Що відбувається тут, коли я використовую квадратичні втрати в налаштуваннях логістичної регресії? "Чому ми використовуємо максимальну ймовірність для логістичної регресії? Чому б не мінімум квадратів?"
Мене одного разу запитали, як я поясню відповідність теореми про центральну межу для класу першокурсників із соціальних наук, які ледь не мають знань про статистику.
Як ви чисете щось, що не є числовим?
Приклад "Автоматичне вилучення функцій для класифікації аудіоданих"
Обґрунтування: Чи можуть вони зрозуміти, як проаналізувати щось статистично, що вже не існує у великій таблиці?
Як ви запобігаєте надмірному розміщенню під час створення статистичної моделі?
Гарна відповідь: перехресне підтвердження
Я часто запитую "як би ви визначили / пояснили, що таке прогнозування?"
Відповідь на цей тип дуже загального питання допомагає мені зрозуміти, чи пов’язані люди з певним випадком прогнозування. Правильної відповіді немає, але відповісти на це синтетично під час інтерв'ю не завжди просто :)
Для контексту даних спостереження:
Розглянемо цю регресійну модель, застосовану до цієї предметної проблеми. Що, якщо що, в ньому можна інтерпретувати причинно? [Подальший зонд] Що вам потрібно навчитися змінювати свою думку?
Як ви будете рахувати кількість дерев сандальних дерев у Бангалорі?
Під заголовком Причинно-наслідкова кореляція :
Загальноприйняте використання клієнта / користувача як функції для прогнозної моделі. Наприклад, люди, які натискають цю кнопку, частіше підписуються, ніж люди, які цього не роблять. Люди, які здійснюють покупки в понеділок, мають більше шансів на покупки знову, ніж ті, хто здійснює покупки у вівторок.
Якщо ми сприймемо це до кінця: користувачі, які натискають "придбати", швидше купують товар, ніж користувачі, які не натискають покупку.
Але очевидно, що це не дуже допомагає пояснити, чому деякі користувачі підписуються, а деякі ні.
Як би ви вирішили балансувати за допомогою функцій клієнта, які пояснюють, чому вони підписуються порівняно з тими, які дуже корелюються з підпискою, але необхідні для виконання завдання?
Ось набір TinkerToy . Покажіть мені, як працює евклідова відстань у трьох вимірах. Тепер покажіть мені, як працює множинна регресія.
Чи можуть вони пояснити, як працює статистика у фізичному світі?
У нас працює центр обслуговування клієнтів. Ми отримуємо 1 мільйон дзвінків на місяць. Як ми її зменшимо до десяти тисяч?
Багато питань, які ми задаємо, схожі на ті, які вже були описані. Але деякі, які я ще не читав, які використовуються: вас можуть попросити замалювати програму на дошці, щоб зробити щось на кшталт: імітувати прокатку кісток чи іншу проблему ймовірності або обчислити ряд простих чисел (наприклад, усі основні числа, менші ніж 1 000 000) - ви могли б зробити це будь-якою мовою, яку хочете, але більшість людей обирає R, а деякі вибирають Python (я вважаю), але я думаю, ви могли вибрати Stata, SAS, SPSS , Matlab і т. Д. Можливо, вам будуть задані питання, щоб перевірити глибину знань мови вибору програмування - наприклад, для чого застосовувати застосувати замість циклу для R, наприклад.
Вас також можуть попросити розробити експеримент чи інше дослідження, щоб дослідити щось - зазвичай щось практичне - іноді це буде пов'язано з роботою, яку ми виконуємо, але часто ні. (У вас не повинно бути знань про роботу, яку ми виконуємо, але ви повинні мати можливість зрозуміти суть проблеми, про яку ви не чули, і розумно роздумувати над нею, навіть якби давали певні доменні знання, які ви знали б це було неправильно - це нормально, від вас не очікується знання домену). Вас можуть попросити врахувати такі речі, як влада.
Проводячи аналіз дисперсії кількісної змінної, іноді виявлялося, що частота змінної дуже велика (> 5), тоді ми використовуємо точний тест Фішера, щоб знайти незалежність змінної.
Середня оплачувана відвідуваність ігор в янкі минулого року становила 55 000. Ви випадково запитуєте купу людей в Нью-Йорку, чи їздили вони на гру з янкі в минулому сезоні, і якщо вони це зробили, ви записуєте платні відвідування. Яка середня платна відвідуваність ігор, в яких брали участь люди, яких ви запитували, які відвідували гру?
Я дам вам підказку для моєї відповіді (підказки не надано): вибірки з упередженою довжиною. Я забив домашній забіг на цьому, але цього було недостатньо, щоб виграти гру, ха-ха. Примітка. Я згадав про багато застережень, що стосуються того, як робився відбір проб, і інтерв'юер сказав мені зневажати їх.