Які хороші запитання щодо інтерв'ю для кандидатів у розробники статистичних алгоритмів?


15

Я опитую людей на посаді розробника / дослідника алгоритмів у контексті статистики / машинного навчання / обміну даними.

Я шукаю запитання, щоб визначити, зокрема, ознайомлення кандидата та розуміння його плинності з базовою теорією, наприклад, основними властивостями очікування та відмінності, деякими загальними розподілами тощо.

Моє сьогоднішнє запитання: "Існує невідома величина яку ми хотіли б оцінити. Для цього у нас є оцінки Y 1 , Y 2 , ... , Y n, які, з огляду на X , всі об'єктивні і незалежні, і у кожного є відома дисперсія σ 2 i , різна для кожної. Знайдіть оптимальний оцінювач Y = f ( Y 1 , ... , Y n ), який є неупередженим і має мінімальну дисперсію ".ХY1,Y2,,YнХσi2Y=f(Y1,,Yн)

Я очікував, що будь-який серйозний кандидат впорається з цим легко (з урахуванням деякого часу, щоб відпрацювати розрахунки), і все ж я здивований, скільки кандидатів, які нібито з відповідних галузей, не змогли досягти навіть найменшого прогресу. Я вважаю це гарним, дискримінаційним питанням. Єдина проблема цього питання полягає в тому, що воно лише одне.

Які ще запитання можна використати для цього? Де ж я можу знайти колекцію таких питань?


7
Для багатьох людей з машинного навчання (включаючи хороших) це питання - вихід із зони їх комфорту. Це очевидне питання статистиків.
Marc Claesen

4
Це питання є легітимною прикордонною темою. Однак він має багато поглядів, кілька оновлень, відповідь з декількома оновленнями, і, крім того, CW. Він може залишатися відкритим, ІМО.
gung - Відновіть Моніку

2
ХХХХ

4
З обережністю, Google провів велике дослідження їх внутрішнього HR-процесу та виявив, що результати інтерв'ю зовсім не співвідносяться з подальшими результатами роботи !! Моє враження від літератури тут полягає в тому, що (1) запитання типу головоломки є абсолютно гіршим, вони служать лише для того, щоб інтерв'юер почувався розумним (тобто 0 потужність прогнозування) та (2) відновився, питання на основі досвіду можуть мати прогнозовану цінність. Минулі прогнози ефективності майбутніх результатів, і ви, можливо, захочете сфокусувати питання, щоб з’ясувати, якою була їхня минула робота, але інтерв'ю набагато менш інформативне, ніж думають інтерв'юери.
Меттью Ганн

3
Незаангажованість гарантується тим, що ваги дорівнюють одиниці. Однак, навіть обмежуючи ваше рішення лінійними комбінаціями оцінювачів, майже завжди буде так, що декілька оцінок на основі одних і тих же даних будуть сильно корельованими. (Якщо вони справді незалежні, тоді вони застосовуватимуться до непересічних, незалежних підмножин даних.) Це зовсім не очевидно, що лінійна комбінація оцінок буде оптимальною.
whuber

Відповіді:


12

Що ви хочете робити від свого розробника статистики?

В армії США кажуть: «тренуйся, ти будеш битись, бо ти будеш битися так, як ти навчався». Перевірте їх на тому, що ви хочете, щоб вони робили цілий день. Дійсно, ви хочете, щоб вони «створювали цінність» або «заробляли гроші» для компанії.

Бос 101

Подумайте "покажіть мені гроші".

  • Гроші ростуть на деревах, званих працівниками. Ви вкладаєте "копійку" (їх заробітна плата), і вони платять вам "чверть" (їх вартість).
  • Якщо ви не можете пов’язати свою роботу з тим, як вони заробляють гроші на компанії, то ні ви, ні вони роблять свою роботу правильно.

Примітка: Якщо ваше символічне маніпуляційне запитання чітко не підключається до "грошей", то, можливо, ви задаєте неправильне запитання.

Кожен працівник повинен робити 3 речі, щоб бути працівником:

  • Будьте здатні виконати роботу
  • Добре співпрацюйте з командою
  • Будьте готові / мотивовані насправді виконати цю роботу

Якщо ви не отримаєте ці тверді скелі, жодна інша відповідь не принесе вам користі.

Якщо ви зможете замінити їх на гарний шматок програмного забезпечення або добре підготовленого підлітка, то, зрештою, вам доведеться це зробити, і це обійдеться вам.

Дані 101

Що вони повинні вміти:

  • використовувати внутрішні смаки програмного забезпечення (мережа, ОС, офіс, презентація та аналіз)
  • використовувати деякі галузеві ароматизатори програмного забезпечення (Excel, R, JMP, MatLab, pick_three )
  • отримати дані самі. Вони повинні знати основні набори даних для основних завдань. Вони повинні знати сховища. Вони повинні знати, які відомі дані використовуються для якого завдання. Фішер Ірис. Краб Пірсон. ... тут може бути 20 елементів. UCI, NIST, NOAA.
  • Вони повинні знати правила поводження з даними. бінарні дані (T / F) мають зовсім інший інформаційний зміст, ніж категоричний (A, B, C, D) або безперервний. Правильне поводження з даними за типом даних є важливим.
  • Деякі основні статистичні завдання включають: чи є ці два однакові чи різні (також кластер / класифікація), як це стосується цього
    (регресія / підгонка, включаючи лінійні моделі, glm, радіальна основа,
    різницеві рівняння), чи правда, що "x "(тестування гіпотез), скільки зразків мені потрібно (вибіркове прийняття), як я отримаю найбільше
    даних з кількох / дешевих / ефективних експериментів (статистичний дизайн
    експерименту) - відмова від відповідальності, я інженер не статистик Ви можете запитати їх питання "які різні основні завдання та як ви перевіряєте, що статистик може виконувати їх ефективно та правильно?
  • доступ / використання самих даних. Йдеться про формати та інструменти.
    Вони повинні мати можливість читати з csv, xlsx (excel), SQL та
    зображень. (HDF5, Rdata) Якщо у вас є власний формат, вони повинні
    мати можливість читати його та працювати з інструментами швидко і
    ефективно. Вони повинні знати силу / слабкість формату. CSV - це швидке використання, існувало назавжди, швидкий прототип, але роздутий, неефективний і повільний в роботі.
  • обробляти дані належним чином, використовуючи кращі практики та не вчиняючи гріхів. Ніколи не кидайте дані. Не підходять двочленні дані безперервною лінією. Не варто протистояти фізиці.
  • придумати результати, які можна повторити і відтворити. Деякі
    люди кажуть "є брехня, чортова брехня і статистика", але не в моїй
    компанії. Той самий хороший вхід дає такий же хороший вихід. Результат не є числом, це завжди бізнес-рішення, яке повідомляє про
    технічні дії та призводить до ділового результату. Різні тести можуть встановити циферблат у 5,5 або 6,5, але можливість завжди перевищує 1,33.
  • представити висновки з мови та на рівні, який
    керівники та / або розробники міньйонів та / або самі за рік можуть
    зрозуміти з найменшими помилками. Прекрасна річ - це вміння пояснити це, щоб бабуся отримала це. Це ( посилання ) - моя відповідь, але мені це подобається.

Аналітичні зінгер:

Я думаю, що неможливі питання чудові. Вони неможливі з причини. Вміти знати, чи щось неможливо поза воротами - це добре. Знати, чому, маючи певні способи зайнятися цим чи мати можливість задати інше питання, може бути кращим.

Інші CV питання. ( посилання ) На reddit. ( посилання ) інші ( посилання )

До речі: це було гарне питання. Можливо, мені доведеться з часом оновити цю відповідь.


3
Це здається гарною відповіддю, на інше питання, ніж на те, що я задав. Я не питав, як вибрати хороших співробітників (я б, напевно, запитав щось подібне на робочому місці. Якщо мені потрібно), я запитав про тестування певної кваліфікації.
Мені Розенфельд

Я відкину його до статистики лише тоді.
EngrStudent
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.