Вказівки щодо виявлення нових знань у даних


9

Я готую щось, щоб зробити точку зору собі чи комусь іншому. Зазвичай питання починає цей процес, і часто людина, яка задає надію на конкретну відповідь.

Як я можу дізнатися цікаві речі про дані менш упередженим чином?

Зараз я приблизно дотримуюся цього методу:

  1. Зведена статистика
  2. Стріпчарт.
  3. Діаграма розкиду.
  4. Можливо, повторіть із цікавим підмножиною даних.

Але це здається недостатньо методичним чи науковим.

Чи слід керуватися вказівками чи процедурами, які розкривають дані про дані, які я б не думав запитувати? Як дізнатися, коли я зробив адекватний аналіз?

Відповіді:


6

Існує ціле поле дослідницького аналізу даних (EDA) та відмінна книга на цю тему під назвою « Дослідницький аналіз даних» Джона У. Тукі.

Мені подобається, що ви використовуєте графіки - є багато інших графіків, які можуть бути корисними, залежно від ваших даних - скільки змінних? Якої природи є змінні (Категоріальна? Числова? Неперервна? Відліки? Звичайна?)

Один графік, який часто корисний для даних із кількома змінними, - це матриця розсіювання.

Ви можете шукати різних типів випускників, які часто є цікавими моментами.

Але я не думаю, що весь цей процес можна зробити дійсно методичним та науковим - розвідка - це те, що відбувається перед тим, як можуть бути використані методичні та наукові підходи. Ось, я думаю, ключовим аспектом є грайливість.


(+1) Чи можете ви надати посилання на згадану книгу?
steffen

EDA з Інженерного та статистичного посібника itl.nist.gov/div898/handbook/eda/eda.htm .
Сельден

Змінні @Peter Flom 13 виробляються шляхом порівняння двох наборів виводу, отриманих програмою, що працює на двох наборах вводу. Програма запускається періодично. Змінні - порядкові, категорії, категорії, категорії, категорії, рахувати, рахувати, рахувати, рахувати, числові, числові, рахувати та рахувати. Імена - id, machineA, inputA, machineB, inputB, new, same, missing, newP, missingP, lengthA, lengthB, scoreA, scoreB. Але рішення порівняти лише останні результати - це також моя гарна / погана ідея.
Сельден

Книга насправді називається дослідницьким аналізом даних (не EDA), це Джон У. Тукі (моя пам'ять обдурила мене, тому що обкладинка мого видання позначена EDA) Посилання: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
Пітер Флом

@selden Ну, ID, ймовірно, не є корисною змінною. Між двома категоричними змінними можна переглянути мозаїчні сюжети; між категоріальними та числовими паралельними коробками може бути добре.
Пітер Флом

1

Якщо у вас є дані хронологічних даних про серіали часу, то існують "ноу-хау", і очікування їх виявлення - це "невідомі". Наприклад, якщо у вас є послідовність точок даних за 10 періодів, таких як 1,9,1,9,1,5,1,9,1,9, то на основі цього зразка можна з розумом очікувати 1,9,1,9 , ... виникати в майбутньому. Що показує аналіз даних, це те, що на 6-му періоді спостерігається "незвичне" читання, навіть якщо воно знаходиться в межах + -3 сигма-меж, що говорить про те, що ФДВ не дотримувався. Демаскування Inlier / Outlier дозволяє нам розкрити дані про дані. Також зазначимо, що середнє значення не є очікуваним значенням. Ця ідея легко поширюється на виявлення середніх зрушень та / або локальних тенденцій часу, які, можливо, були невідомі до аналізу даних (породження гіпотези). Зараз цілком можливо, що наступні 10 читання також 1,9,1,9, 1,5,1,9,1,9 припускаючи, що "5" не обов'язково є непередбачуваним. Якщо ми спостерігаємо процес помилки відповідної моделі, яка демонструє непостійну дисперсію, ми можемо виявити одне з наступних станів природи: 1) параметри можуть змінитися в певний момент часу; 2. Може виникнути потреба у зваженому аналізі (GLS); 3. Може виникнути необхідність перетворення даних за допомогою силового перетворення; 4. Можливо, існує потреба в моделюванні дисперсії помилок. Якщо у вас є щоденні дані, хороший аналіз може виявити, що навколо кожного свята є вікно реагування (відведення, сучасність та структура відставання), що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. 9 говорить про те, що "5" не обов'язково є непередбачуваним. Якщо ми спостерігаємо процес помилки відповідної моделі, яка демонструє непостійну дисперсію, ми можемо виявити одне з наступних станів природи: 1) параметри можуть змінитися в певний момент часу; 2. Може виникнути потреба у зваженому аналізі (GLS); 3. Може виникнути необхідність перетворення даних за допомогою силового перетворення; 4. Можливо, існує потреба в моделюванні дисперсії помилок. Якщо у вас є щоденні дані, хороший аналіз може виявити, що навколо кожного свята є вікно реагування (відведення, сучасність та структура відставання), що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. 9 говорить про те, що "5" не обов'язково є непередбачуваним. Якщо ми спостерігаємо процес помилки відповідної моделі, яка демонструє непостійну дисперсію, ми можемо виявити одне з наступних станів природи: 1) параметри можуть змінитися в певний момент часу; 2. Може виникнути потреба у зваженому аналізі (GLS); 3. Може виникнути необхідність перетворення даних за допомогою силового перетворення; 4. Можливо, існує потреба в моделюванні дисперсії помилок. Якщо у вас є щоденні дані, хороший аналіз може виявити, що навколо кожного свята є вікно реагування (відведення, сучасність та структура відставання), що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. не обов'язково є невдалим. Якщо ми спостерігаємо процес помилки відповідної моделі, яка демонструє непостійну дисперсію, ми можемо виявити одне з наступних станів природи: 1) параметри можуть змінитися в певний момент часу; 2. Може виникнути потреба у зваженому аналізі (GLS); 3. Може виникнути необхідність перетворення даних за допомогою силового перетворення; 4. Можливо, існує потреба в моделюванні дисперсії помилок. Якщо у вас є щоденні дані, хороший аналіз може виявити, що навколо кожного свята є вікно реагування (відведення, сучасність та структура відставання), що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. не обов'язково є невдалим. Якщо ми спостерігаємо процес помилки відповідної моделі, яка демонструє непостійну дисперсію, ми можемо виявити одне з наступних станів природи: 1) параметри можуть змінитися в певний момент часу; 2. Може виникнути потреба у зваженому аналізі (GLS); 3. Може виникнути необхідність перетворення даних за допомогою силового перетворення; 4. Можливо, існує потреба в моделюванні дисперсії помилок. Якщо у вас є щоденні дані, хороший аналіз може виявити, що навколо кожного свята є вікно реагування (відведення, сучасність та структура відставання), що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. Якщо ми спостерігаємо процес помилки відповідної моделі, яка демонструє непостійну дисперсію, ми можемо виявити одне з наступних станів природи: 1) параметри можуть змінитися в певний момент часу; 2. Може виникнути потреба у зваженому аналізі (GLS); 3. Може виникнути необхідність перетворення даних за допомогою силового перетворення; 4. Можливо, існує потреба в моделюванні дисперсії помилок. Якщо у вас є щоденні дані, хороший аналіз може виявити, що навколо кожного свята є вікно реагування (відведення, сучасність та структура відставання), що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. Якщо ми спостерігаємо процес помилки відповідної моделі, яка демонструє непостійну дисперсію, ми можемо виявити одне з наступних станів природи: 1) параметри можуть змінитися в певний момент часу; 2. Може виникнути потреба у зваженому аналізі (GLS); 3. Може виникнути необхідність перетворення даних за допомогою силового перетворення; 4. Можливо, існує потреба в моделюванні дисперсії помилок. Якщо у вас є щоденні дані, хороший аналіз може виявити, що навколо кожного свята є вікно реагування (відведення, сучасність та структура відставання), що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. Може виникнути потреба у зваженому аналізі (GLS); 3. Може виникнути необхідність перетворення даних за допомогою силового перетворення; 4. Можливо, існує потреба в моделюванні дисперсії помилок. Якщо у вас є щоденні дані, хороший аналіз може виявити, що навколо кожного свята є вікно реагування (відведення, сучасність та структура відставання), що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. Може виникнути потреба у зваженому аналізі (GLS); 3. Може виникнути необхідність перетворення даних за допомогою силового перетворення; 4. Можливо, існує потреба в моделюванні дисперсії помилок. Якщо у вас є щоденні дані, хороший аналіз може виявити, що навколо кожного свята є вікно реагування (відведення, сучасність та структура відставання), що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. сучасна та відстала структура) навколо кожного свята, що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність. сучасна та відстала структура) навколо кожного свята, що відображає послідовну / передбачувану поведінку. Можливо, ви також зможете виявити, що певні дні місяця мають суттєвий вплив або що п’ятниця перед понеділковим святом має виняткову активність.


0

База даних може бути розбита на дві категорії. Якщо ви зацікавлені в вимірюванні впливу набору даних / змінних на певну змінну, це вважатиметься контрольованим навчанням. Для глибокого та дослідницького навчання без будь-якої мети ви перебуваєте без нагляду.

Графічний та статистичний аналіз даних (розуміння розподілів та здобуття інтуїції) - це перші кроки.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.