Запитання з тегом «eda»

EDA означає «Дослідницький аналіз даних». Розроблений Tukey на противагу конфірмаційному аналізу даних або CDA (формальне тестування гіпотез). EDA зазвичай стосується опису даних чисельно та графічно, щоб полегшити розуміння даних та отримати нові відомості.

5
Чи краще робити дослідницький аналіз даних лише на базі даних тренувань?
Я роблю дослідницький аналіз даних (EDA) на наборі даних. Тоді я виберу деякі функції, щоб передбачити залежну змінну. Питання: Чи варто робити ЗНО на моєму навчальному наборі даних? Або я повинен приєднатися до наборів даних про навчання та тестування разом, а потім робити ЗНО на них обох та вибирати функції …

2
Чи існують розбіжності в байєсівському та частістському підходах до ЗНО?
Простіше кажучи: Чи є якісь відмінності в байєсівському та частотологічному підходах до дослідницького аналізу даних? Я не знаю жодних властивих упередженості методам ЕДА, оскільки гістограма - це гістограма, розсіювач - це розсіювач тощо, і я не знайшов прикладів відмінностей у тому, як навчають чи представляють ЕДА (ігноруючи особливо теоретичний документ …

3
Блок-схеми, що допомагають вибрати правильну техніку аналізу та тесту
Оскільки людині, яка потребує статистичних знань, але не є офіційно підготовленим статистиком, мені буде корисно скласти блок-схему (або якесь дерево рішень), щоб допомогти мені вибрати правильний підхід для вирішення певної проблеми (наприклад, "чи ти? знадобиться це і знайте, що і це, і вважайте дані нормально розподіленими? Використовуйте техніку X. Якщо …

6
Пакет R для виявлення зв’язків між змінними [закритий]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 4 роки тому . Чи є пакет R, який я можу використовувати, щоб дослідити, чи існують зв’язки між змінними? Як правило, коли я шукаю шаблони, я …

4
Найкращі способи агрегації та аналізу даних
Нещодавно почавши навчати себе машинного навчання та аналізу даних, я потрапляю в цегляну стіну щодо необхідності створення та запиту великих наборів даних. Я хотів би взяти дані, які я зібрав у своєму професійному та особистому житті, та проаналізувати їх, але я не впевнений у найкращому способі зробити наступне: Як я …

2
Різниця між дослідницьким та підтверджуючим факторним аналізом при визначенні незалежності конструкції
Дослідники часто використовують два заходи, у яких є дуже схожі предмети і стверджують, що вони вимірюють різні речі (наприклад, "Я завжди хвилююся, коли навколо автомобілів"; "Я боюся машин"). Дозвольмо назвати гіпотетичні заходи міра страху та тривоги від автомобільної шкали. Мене цікавить емпіричне тестування, чи дійсно вони оцінюють різні приховані конструкції, …

2
Якщо моя гістограма показує дзвіноподібну криву, чи можу я сказати, що мої дані зазвичай розподіляються?
Я створив гістограму для епохи респондента і зумів отримати дуже гарну криву дзвоникоподібної форми, з якої я зробив висновок, що розподіл нормальний. Тоді я провів тест на нормальність у SPSS, з n = 169. Р- значення (Сиг.) Тесту Колмогорова-Смірнова менше 0,05, і тому дані порушили припущення про нормальність. Чому тест …

1
Як інтерпретувати нарізки графіків
Роблячи деякий EDA, я вирішив використати графік коробки, щоб проілюструвати різницю між двома рівнями фактора. Те, як ggplot надав графік коробки, було задовільним, але трохи спрощеним (перший сюжет нижче). Під час дослідження особливостей коробкових сюжетів я почав експериментувати з виїмками. Я розумію, що на виїмці відображається показник ІК навколо медіани, …

2
Що призначене "Нехай дані говорять самі за себе"?
Читаючи наступний документ , я натрапив на таке твердження: Як вже було сказано, він часто подається без будь-яких посилань на імовірнісні моделі, відповідно до ідеї Бензекри [1973] "нехай дані говорять самі за себе". (цитування від JP Benzécri. L'analyse des données. Tome II: Листування L'analyse des. Dunod, 1973.) З того, як …
10 eda  quotation 

3
Перший швидкий погляд на набір даних
Пробачте про моє незнання, але ... Я постійно опиняюся в ситуації, коли мені стикається з купою нових даних, які мені вдалося знайти. Ці дані зазвичай виглядають приблизно так: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) Зазвичай …

4
Поради та рекомендації для початку статистичного моделювання?
Я працюю в галузі видобутку даних і мало офіційне навчання статистики. Останнім часом я читав багато робіт, присвячених байєсівським парадигмам для вивчення та видобутку, які мені здаються дуже цікавими. Моє запитання: (у кількох частинах), враховуючи проблему, чи існує загальна рамка, за якою можна побудувати статистичну модель? Які перші дії ви …

4
Чому факт, що 1 медіана нижчий, ніж інший медіани, не означає, що більшість у групі 1 менше, ніж більшість у групі 2?
Я вважав, що розроблені нижче скриньки можна інтерпретувати як "більшість чоловіків швидше, ніж більшість жінок" (у цьому наборі даних), насамперед тому, що середній час чоловіків був меншим, ніж середній час жінок. Але курс EdX на R та статистику вікторини сказав мені, що це неправильно. Будь ласка, допоможіть мені зрозуміти, чому …

2
Параметричне, напівпараметричне та непараметричне завантаження для змішаних моделей
Наступні трансплантати взяті з цієї статті . Я новачок у завантажувальній програмі та намагаюся реалізувати параметричне, напівпараметричне та непараметричне завантажувальне завантаження для лінійної змішаної моделі з R bootпакетом. R код Ось мій Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
Вказівки щодо виявлення нових знань у даних
Я готую щось, щоб зробити точку зору собі чи комусь іншому. Зазвичай питання починає цей процес, і часто людина, яка задає надію на конкретну відповідь. Як я можу дізнатися цікаві речі про дані менш упередженим чином? Зараз я приблизно дотримуюся цього методу: Зведена статистика Стріпчарт. Діаграма розкиду. Можливо, повторіть із …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.