Запитання з тегом «dataset»

Запити щодо наборів даних є поза темою на цьому сайті. Використовуйте цей тег для запитань щодо створення, обробки або підтримки наборів даних.

3
Ідея складання даних має нульове значення
Я часто бачу, як люди, які роблять розмір / особливість набору даних, мають нульове значення, видаляючи середнє з усіх елементів. Але я ніколи не розумів, навіщо це робити? Який ефект робити це як крок попередньої обробки? Чи покращує це ефективність класифікації? Чи допомагає це відповісти щось про набір даних? Чи …

2
Чому деякі люди перевіряють регресійні припущення щодо моделей на своїх необроблених даних, а інші перевіряють їх на залишкові?
Я докторант з експериментальної психології і намагаюся вдосконалити свої вміння та знання щодо того, як аналізувати свої дані. До мого 5-го курсу психології я вважав, що регресійні моделі (наприклад, ANOVA) передбачають такі речі: нормальність даних дисперсія гомогенності даних тощо Мої бакалаврські курси спонукають мене до думки, що припущення стосуються даних. …

4
Найкращий спосіб просто зберігати дані для статистичного аналізу в R [закрито]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 6 років тому . Я вже деякий час використовую текстові файли, щоб зберігати свої дані для R без жодних проблем. Але для недавнього проекту розміри файлів …
12 r  dataset 

1
Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи
Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

4
Приклади дорогих наслідків від неправильного використання статистичних інструментів
Я підозрюю, що більшість користувачів статистичних інструментів є допоміжними користувачами (люди, які майже не мали офіційного навчання статистиці). Для дослідників та інших фахівців дуже спокусливо застосовувати статистичні методи до своїх даних просто тому, що вони бачили це "зроблено раніше" у рецензованих роботах, сірій літературі, в Інтернеті або на конференції. Однак, …

2
Оптимальне підключення відносно заданої змінної відповіді
Я шукаю оптимальний метод бінінгу (дискретизація) безперервної змінної щодо заданої відповіді (цільової) бінарної змінної та з максимальною кількістю інтервалів як параметр. Приклад: У мене є набір спостережень за людьми зі змінними "висота" (число безперервно) та "has_back_pains" (бінарні). Я хочу розрізнити висоту на 3 інтервали (групи) максимум з різною часткою людей …

2
Кращі практики створення "Охайних даних"
У минулому році Хедлі Вікхем написала зоряну статтю під назвою "Охайні дані" ( посилання ) про маніпулювання даними та введення даних у "оптимальне" стан для проведення аналізу. Однак мені було цікаво, які найкращі практики щодо представлення табличних даних у робочих умовах? Скажімо, ваш колега просить вас надати йому деякі дані. …
12 dataset  tables 

2
Чи розділення даних на тестові та навчальні набори суто "статистика"?
Я студент фізики, який вивчає машинне навчання / науку даних, тому не маю на увазі, щоб із цим питанням виникали будь-які конфлікти :) Однак значна частина будь-якої програми з фізики в університеті - це робити лабораторії / експерименти, що означає багато даних обробка та статистичний аналіз. Однак я помічаю різку …

3
Практичний підручник з PCA з даними
Пошук в Інтернеті за підручником PCA дає тисячі результатів (навіть відео). Багато навчальних посібників дуже хороші. Але я не в змозі знайти жодного практичного прикладу, де PCA пояснюється за допомогою деяких наборів даних, які я можу використовувати для демонстрації. Мені потрібен підручник, який надає невеликий набір даних, який легко побудувати …

14
Скільки інформації ви можете отримати з імені?
Ім'я: перше, можливо, середнє та прізвище. Мені цікаво, скільки інформації ви можете отримати з імені, використовуючи загальнодоступні набори даних. Я знаю, що ви можете отримати наступне з будь-якого місця між низькою і високою ймовірністю (залежно від вхідних даних), використовуючи дані перепису в США: 1) Стать. 2) Гонка. Наприклад, Facebook використовував …

3
Який алгоритм я повинен використовувати для кластеризації величезного бінарного набору даних у декілька категорій?
У мене є велика (650 К рядків * 62 стовпчики) матриця двійкових даних (лише 0-1 записи). Матриця переважно розріджена: заповнено близько 8%. Я хотів би класифікувати його в 5 груп - скажімо, названі від 1 до 5. Я спробував ієрархічну кластеризацію, і вона не змогла впоратися з розміром. Я також …

3
Хороші книги, що охоплюють попередню обробку даних та методи виявлення зовнішньої інформації
Згідно з назвою, чи знає хто-небудь про хорошу, сучасну книгу, яка охоплює попередню обробку даних загалом, і особливо методи зовнішнього виявлення? Книга не повинна зосереджуватись виключно на цьому, але вона повинна вичерпно стосуватися вищезазначених тем - я не був би задоволений чимось, що є відправною точкою, і цитую перелік робіт, …

4
Що саме означає "набір даних"?
Це просто агрегація точок даних? Або це представлення точок даних для різних елементів у табличному форматі, розташованому зі значеннями різних змінних? Чим він відрізняється від необроблених даних?

1
Чи помилки в обробці даних вже «оцінені» в статистичному аналізі?
Гаразд, чесне попередження - це філософське питання, яке не стосується цифр. Я багато думав про те, як помилки повстають у набори даних у часі і як це слід ставитись до аналітиків - чи це насправді має значення взагалі? З іншого боку, я аналізую багаторічне дослідження, яке передбачає безліч наборів даних, …
10 dataset  error 

2
Чи слід справді вважати типи даних (номінальний / порядковий / інтервал / відношення) типами змінних?
Ось, наприклад, ось визначення, які я отримую із стандартних підручників Змінна - характеристика популяції чи вибірки. колишній Ціна акції або сорт на тест Дані - фактичні спостережувані значення Отже, для звіту з двох стовпців [Назва | Дохід] назви стовпців будуть змінними та фактичними спостережуваними значеннями {dave | 100K}, {jim | …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.