Поради та рекомендації для початку статистичного моделювання?


10

Я працюю в галузі видобутку даних і мало офіційне навчання статистики. Останнім часом я читав багато робіт, присвячених байєсівським парадигмам для вивчення та видобутку, які мені здаються дуже цікавими.

Моє запитання: (у кількох частинах), враховуючи проблему, чи існує загальна рамка, за якою можна побудувати статистичну модель? Які перші дії ви робите, отримуючи набір даних, з яких ви хочете змоделювати базовий процес? Чи є там хороші книги / навчальні посібники, які пояснюють цей процес чи це питання досвіду? Чи є висновок на перший план у вашій думці під час побудови вашої моделі чи ви спочатку прагнете описати дані, перш ніж хвилюватися про те, як використовувати їх для обчислення?

Будь-яке розуміння буде дуже вдячне! Дякую.


4
Привіт Нік - ласкаво просимо до резюме. Ваше запитання дуже широке; Ви можете мати більше шансів отримати хороші відповіді, якби ви розбили їх на більш дрібні запитання (і як тільки ви це зробите, ви можете виявити, що на деякі з них уже відповіли тут). Як мінімум, вам слід позначити своє питання "вікі спільноти". Це в основному означає, що замість звичайного формату конкуруючих відповідей тут усі відповіді в цілому будуть вважатися відповіддю.
Метт Паркер

1
@Matt Помітка CW більше не з’являється для запитання. Моду потрібно буде позначити питання як CW за потреби.

@ Nick..Я теж новачок. Я думаю, що загальна річ, і головне, що потрібно зберігати в речі, - як ви хочете описати свою вихідну змінну ... це неперервна, чи двійкова? Тому що в кінці дня ви хочете спостерігати / моделювати вихідну змінну. Наступне, що я б подумав - це які способи моделювати потрібну змінну. Що б прийшло тоді, це те, що, якщо змінна є дихотомічною, процедура - це logit model .. Наступним врахуванням будуть дані, її ніткова зернистість і різні проблеми, з якими стикаєтесь. Сподіваюся, це має сенс.
ayush biyani

Відповіді:


6

У статистиці, як у Data Mining, ви починаєте з даних та мети. У статистиці велика увага приділяється висновкам, тобто відповіді на запитання рівня населення за допомогою вибірки. При обробці даних основна увага приділяється прогнозуванню: ви створюєте модель зі свого зразка (навчальні дані), щоб передбачити дані тесту.

Процес статистики - це:

  1. Вивчіть дані за допомогою підсумків та графіків - залежно від того, як статистик керується даними, деякі будуть більш відкритими, дивлячись на дані з усіх ракурсів, а інші (особливо соціологи) будуть дивитись на дані через об'єктив питання, що цікавить (наприклад, сюжет особливо змінних, що цікавлять, а не інших)

    1. Виберіть відповідне сімейство статистичних моделей (наприклад, лінійна регресія для безперервної Y, логістична регресія для двійкової Y або Пуассона для даних підрахунку) та виконайте вибір моделі

    2. Оцініть кінцеву модель

    3. Тестування припущень моделей, щоб переконатися, що вони доцільно виконані (відмінні від тестування на точність прогнозування при обробці даних)

    4. Використовуйте модель для висновку - це головний крок, який відрізняється від пошуку даних. Слова "р-значення" надходить сюди ...

Погляньте на будь-який підручник з основними статистичними даними, і ви знайдете розділ «Дослідницький аналіз даних» з подальшими деякими розподілами (які допоможуть обрати розумні моделі наближення), потім висновки (довірчі інтервали та тести гіпотез) та регресійні моделі.

Я описав вам класичний статистичний процес. Однак у мене з цим багато питань. Орієнтація на висновок повністю домінувала в полях, тоді як передбачення (що є надзвичайно важливим і корисним) майже нехтується. Більше того, якщо ви подивитесь, як соціальні вчені використовують статистику для висновку, ви побачите, що вони використовують її зовсім по-іншому! Більше про це можна дізнатися тут


2

Що стосується книг, "Елементи статистичного навчання" Хасті, Тібширані та Фрідмана дуже хороші.

Повна книга доступна на веб-сайті авторів ; ви можете поглянути, щоб переконатися, чи він взагалі підходить для ваших потреб.


2

Що стосується (он-лайн) посилань, я б рекомендував переглянути підручники Ендрю Мура щодо статистичного обміну даними .

Існує багато підручників з видобутку даних та машинного навчання; можливо, хорошим початком є Принципи обміну даними , від Hand et al., та Вступ до машинного навчання , від Alpaydin.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.