Що саме будує статистичну модель?


15

Що саме будує статистичну модель?

У ці дні, коли я подаю заявку на науково-дослідницькі роботи або на консультаційні роботи, часто з'являється термін "побудова моделі" або "моделювання". Термін звучить круто, але що саме вони мають на увазі? Як ви будуєте свою модель?

Я роздивився прогностичне моделювання , яке включає k-nn та логістичну регресію.


1
Це досить широко, воно може стосуватися величезної різноманітності моделей - різного роду регресії, багаторівневі моделі, дерева та їх варіанти, скупчення .... тощо.
Пітер Флом - Відновити Моніку

Статистична модель така ж, як і математична модель, за винятком того, що статистична модель має змінний облік помилок. Математична модель: вага = висота * 2.7. Статистична модель: вага = зріст * 2,7 + похибка.
Ніл МакГуйган

2
Я хотів би цитувати цей документ : Статистичне моделювання: Дві культури
user13985

Відповіді:


12

Я зіткнуся з цим, хоча я не є статистиком жодним чином, але наземлюсь, роблячи багато "моделювання" - статистичного та нестатистичного.

Спочатку почнемо з основ:

Яка саме модель?

Модель - це представлення реальності, хоч і дуже спрощене. Придумайте «модель» воску / дерева для будинку. Ви можете доторкнутися / відчути / понюхати його. Тепер математична модель - це подання реальності за допомогою чисел.

Що це за "реальність", я чую, як ви запитуєте? Добре. Тож подумайте про цю просту ситуацію: губернатор вашої держави здійснює політику, кажучи, що ціна пачки сигарет на наступний рік коштуватиме 100 доларів. "Мета" полягає в тому, щоб стримати людей від придбання сигарет, тим самим зменшуючи куріння, тим самим роблячи курців здоровішими (тому що вони кинули б).

Через 1 рік губернатор запитує у вас - це було успіхом? Як це можна сказати? Добре ви забираєте такі дані, як кількість проданих пакетів / день або на рік, відповіді на опитування, будь-які вимірювані дані, які ви можете отримати у своїх стосунках, що стосуються проблеми. Ви тільки почали «моделювати» проблему. Тепер ви хочете проаналізувати, що говорить ця «модель» . Ось тут корисне статистичне моделювання. Ви можете запустити простий графік кореляції / розсіювання, щоб побачити, як виглядає модель '. Ви можете фантазію визначити причинну ситуацію, тобто, якщо підвищення ціни призвело до зниження куріння або були в роботі інші заплутані фактори (тобто, можливо, це зовсім інше, і ваша модель, можливо, пропустила його?).

Тепер побудова цієї моделі здійснюється за допомогою "набору правил" (більше схожих на вказівки), тобто те, що є / не є законним, або що має / не має сенсу. Ви повинні знати, що ви робите, і як інтерпретувати результати цієї моделі. Побудова / виконання / тлумачення цієї моделі вимагає базових знань статистики. У наведеному вище прикладі вам потрібно знати про співвіднесення / розкидання сюжетів, регресію (uni та multivariate) та ін. Я пропоную прочитати абсолютно цікаве / інформативне читання про розуміння статистики інтуїтивно: Що таке р-значення так чи інакше Це жартівливий вступ до статистики і навчить вас «моделювати» на шляху від простого до прогресивного (тобто лінійної регресії). Потім можна продовжувати і читати інші речі.

Отже, пам'ятайте, що модель - це репрезентація реальності, і що "Усі моделі помиляються, але деякі є більш корисними, ніж інші" . Модель - це спрощене уявлення реальності, і ви, можливо, не можете все врахувати, але ви повинні знати, що робити, а що не вважати, щоб мати гарну модель, яка може дати вагомі результати.

Тут не зупиняється. Ви також можете створювати моделі для імітації реальності! Ось як з часом змінюється купа чисел (скажімо). Ці числа відображають деяку змістовну інтерпретацію у вашому домені. Ви також можете створити ці моделі для моїх даних , щоб побачити , як різні заходи пов'язані один з одним (застосування статистики тут може бути сумнівною, але не хвилюйтеся , зараз). Приклад: Ви дивитеся на продажі продуктових товарів у магазині на місяць і розумієте, що кожен раз, коли купується пиво, це пачка памперсів (ви будуєте модель, яка проходить через набір даних і показує вам цю асоціацію). Це може бути дивно, але це може означати, що батьки в основному купують це у вихідні, коли дитина сидить з дітьми? Поставте памперси біля пива, і ви можете збільшити продажі! Ааа! Моделювання :)

Це лише приклади і аж ніяк не посилання на професійну роботу. Ви в основному будуєте моделі, щоб зрозуміти / оцінити, як реальність буде / діяти, і приймати кращі рішення на основі результатів. Статистика чи ні, ви, напевно, все життя займаєтесь моделюванням, не усвідомлюючи цього. Удачі :)


11

Побудова статистичної моделі передбачає побудову математичного опису деяких явищ у реальному світі, що пояснює невизначеність та / або випадковість, що беруть участь у цій системі. Залежно від сфери застосування, це може варіюватися від чогось такого простого, як лінійна регресія або тестування базових гіпотез, через складний багатофакторний аналіз факторів або обмін даними.


5
Я відмовився від цього, тому що це доблесна, жалюгідна спроба відповісти на надзвичайно широке запитання. У мене є деякі сумніви щодо того, чи передбачає "обробка даних" будь-яке статистичне моделювання, і я буду вдячний побачити приклад або уточнити, що ви маєте на увазі під цією фразою.
whuber

@whuber LASSO робить вибір функцій, хіба це не побудова регресійної моделі в якомусь сенсі?
user13985

Іншими словами, це трохи схоже на будівництво будинку лише з використанням уявних цегли та розчину? Мій езотеричний коментар буде сказано жартома. :)
Graeme Walsh

1
Обмін даними може використовуватися як частина процесу побудови або перевірки даної моделі.
Дейв

5

Моделювання для мене передбачає визначення ймовірнісної бази для спостережуваних даних із оцінними параметрами, які можуть бути використані для виявлення цінних відмінностей у даних, що спостерігаються, коли вони існують. Це називається владою. Імовірнісні моделі можна використовувати як для прогнозування, так і для висновку. Їх можна використовувати для калібрування техніки, для демонстрації дефіциту рентабельності інвестицій, прогнозування погоди або запасів або спрощення прийняття медичних рішень.

Модель не обов'язково будувати. В ізольованому експерименті можна використовувати непараметричний підхід моделювання, такий як t-тест, щоб визначити, чи є значна різниця в засобах між двома групами. Однак для багатьох цілей прогнозування моделі можуть бути побудовані так, щоб виявити зміни в часі. Наприклад, марковські моделі на основі перехідного періоду можуть бути використані для прогнозування коливань ринкової вартості інвестицій, але в якій мірі «занурення» можна вважати гіршим, ніж очікувалося? Використовуючи історичні докази та спостережувані прогнози, можна побудувати складну модель для калібрування того, чи спостерігаються суттєві відмінності від тих, які історично підтримувались. Використовуючи такі інструменти, як контрольні діаграми, діаграми накопичувальної частоти, криві виживання та інші "часові" діаграми, це "

Крім того, деякі моделі "будуються", маючи гнучкість адаптуватися у міру зростання даних. Виявлення тенденцій Твіттера в Тренді та система рекомендацій Netflix - це яскраві приклади таких моделей. У них є загальна специфікація (Bayesian Model Averaging, для останньої), яка дозволяє гнучкої моделі з урахуванням історичних зрушень і тенденцій, а також повторної калібрування для підтримання найкращих прогнозів, таких як впровадження фільмів з високим ударом, великого прийому нових користувачів або кардинальний зсув переваг фільму через сезонність.

Деякі підходи до вибору даних запроваджуються, оскільки вони дуже вміли досягати певних типів підходів прогнозування (знову ж таки, питання отримання "очікуваних" тенденцій чи значень даних). K-NN - це спосіб включення даних високих розмірів і висновок про те, чи можуть суб'єкти отримувати достовірні прогнози просто через близькість (від віку, музичного смаку, сексуальної історії чи якоїсь іншої вимірюваної риси). Логістична регресія, з іншого боку, може отримати двійковий класифікатор, але набагато частіше використовується для висновку про зв'язок між бінарним результатом та одним або кількома експозиціями та умовами через параметр, який називається коефіцієнтом шансів. Через граничні теореми та її зв’язок із узагальненими лінійними моделями коефіцієнти шансів - це дуже регулярні параметри, які мають "високозбережену" помилку типу I (тобто


Дякую за ваші слова. Що стосується виявлення Твіттером Netflix, це не більше чи менше в царині машинного навчання? Я часто не можу провести межу між моделюванням та машинним навчанням.
user13985

1
Машинне навчання - це зазвичай моделювання високого розміру. Багато методів є особливими випадками існуючих методів, заснованих на вірогідності, із застосуванням штрафних санкцій або зважування.
AdamO

Дякуємо, що підтвердили мої думки, повідомте мені, чи хочете ви ще чогось.
user13985

3

Моделювання - це процес визначення підходящої моделі.

Часто модельєр матиме гарне уявлення про важливі змінні та, можливо, навіть матиме теоретичну основу для певної моделі. Вони також будуть знати деякі факти щодо реакції та загального роду стосунків з передбачувачами, але все ще не можуть бути впевнені, що їх загальне уявлення про модель є цілком адекватним - навіть із відмінним теоретичним уявленням про те, як має працювати середина, вони може, наприклад, не бути впевненим, що дисперсія не пов'язана із середнім значенням, або вони можуть підозрювати, що можлива деяка серійна залежність.

Таким чином, може існувати цикл з декількох етапів ідентифікації моделі, який посилається на (принаймні деякі) дані. Альтернативою є регулярне ризикування виникнення досить непридатних моделей.

(Звичайно, якщо вони несуть відповідальність, вони повинні враховувати, як використання даних таким чином впливає на їх висновки.)

Фактичний процес дещо різниться від області до області та від людини до людини, але можна знайти людей, які явно перелічують етапи їхнього процесу (наприклад, Box і Jenkins окреслюють один такий підхід у своїй книзі про часові ряди). Ідеї ​​про те, як зробити ідентифікацію моделі, змінюються з часом.


0

Я не думаю, що існує загальне визначення того, що є статистичною моделлю. З мого досвіду в галузі це здається синонімом того, що в економетрії називають моделлю зменшеної форми . Я поясню.

Припустимо, що у вашій галузі є встановлені зв’язки або "закони", наприклад, у фізиці це було б Ж=мг2хгт2заявляючи, що сила пропорційна прискоренню (він же "2-й закон механіки"). Отже, знаючи цей закон, ви могли б побудувати математичну модель траєкторії кульової кулі.

Ця модель матиме те, що фізики називають "константами" або "коефіцієнтами", наприклад, щільністю повітря при заданій температурі та висоті. Вам доведеться дослідити, які ці коефіцієнти експериментально. У нашому випадку ми попросимо артилерію вистрілити з гармат у багатьох різних жорстко контрольованих умовах, таких як кути, температура тощо.

Ми збираємо всі дані та підганяємо модель, використовуючи статистичні методи. Це може бути таким же простим, як лінійна регресія або середні значення. Отримавши всі коефіцієнти, ми тепер запускаємо нашу математичну модель для виготовлення вогневих таблиць. Це чітко описано в некласифікованому документі, що тут називається "ВИРОБНИЦТВО СТІЛЬНИХ СТОЛІВ ДЛЯ КАННОННОЇ АРТИЛЕРІЇ".

Що я тільки що описав, це не так статистична модель. Так, вона використовує статистику, але ця модель використовує встановлені закони фізики, які є сутністю моделі. Тут статистика є простим інструментом для визначення значень кількох важливих параметрів. Динаміка системи описується і попередньо визначається полем.

Припустимо, що ми не знали чи не піклувались про закони фізики, а просто намагалися встановити взаємозв’язок між курсовою дистанцією польоту і такими параметрами, як кут стрільби та температура, використовуючи "статистичну модель". Ми створили б великий набір даних з купою кандидатських змінних, або функцій, і перетворень змінних, можливо поліноміальний ряд температур тощо. Тоді ми б запустили регресію сортів і визначили коефіцієнти. Ці коефіцієнти не обов'язково мали б встановлені інтерпретації в цій галузі. Ми б назвали їх чутливістю до квадрату температури і т. Д. Ця модель може насправді досить добре передбачити кінцеві точки гарматних кульок, оскільки основний процес досить стабільний.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.