Статистика та великі дані dataset

3

Ідея складання даних має нульове значення

Я часто бачу, як люди, які роблять розмір / особливість набору даних, мають нульове значення, видаляючи середнє з усіх елементів. Але я ніколи не розумів, навіщо це робити? Який ефект робити це як крок попередньої обробки? Чи покращує це ефективність класифікації? Чи допомагає це відповісти щось про набір даних? Чи …

12 data-mining dataset

2

Чому деякі люди перевіряють регресійні припущення щодо моделей на своїх необроблених даних, а інші перевіряють їх на залишкові?

Я докторант з експериментальної психології і намагаюся вдосконалити свої вміння та знання щодо того, як аналізувати свої дані. До мого 5-го курсу психології я вважав, що регресійні моделі (наприклад, ANOVA) передбачають такі речі: нормальність даних дисперсія гомогенності даних тощо Мої бакалаврські курси спонукають мене до думки, що припущення стосуються даних. …

12 regression dataset residuals assumptions

4

Найкращий спосіб просто зберігати дані для статистичного аналізу в R [закрито]

Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 6 років тому . Я вже деякий час використовую текстові файли, щоб зберігати свої дані для R без жодних проблем. Але для недавнього проекту розміри файлів …

12 r dataset

1

Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи

Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

4

Приклади дорогих наслідків від неправильного використання статистичних інструментів

Я підозрюю, що більшість користувачів статистичних інструментів є допоміжними користувачами (люди, які майже не мали офіційного навчання статистиці). Для дослідників та інших фахівців дуже спокусливо застосовувати статистичні методи до своїх даних просто тому, що вони бачили це "зроблено раніше" у рецензованих роботах, сірій літературі, в Інтернеті або на конференції. Однак, …

12 dataset methodology

2

Оптимальне підключення відносно заданої змінної відповіді

Я шукаю оптимальний метод бінінгу (дискретизація) безперервної змінної щодо заданої відповіді (цільової) бінарної змінної та з максимальною кількістю інтервалів як параметр. Приклад: У мене є набір спостережень за людьми зі змінними "висота" (число безперервно) та "has_back_pains" (бінарні). Я хочу розрізнити висоту на 3 інтервали (групи) максимум з різною часткою людей …

12 r dataset optimization discrete-data binning

2

Кращі практики створення "Охайних даних"

У минулому році Хедлі Вікхем написала зоряну статтю під назвою "Охайні дані" ( посилання ) про маніпулювання даними та введення даних у "оптимальне" стан для проведення аналізу. Однак мені було цікаво, які найкращі практики щодо представлення табличних даних у робочих умовах? Скажімо, ваш колега просить вас надати йому деякі дані. …

12 dataset tables

2

Чи розділення даних на тестові та навчальні набори суто "статистика"?

Я студент фізики, який вивчає машинне навчання / науку даних, тому не маю на увазі, щоб із цим питанням виникали будь-які конфлікти :) Однак значна частина будь-якої програми з фізики в університеті - це робити лабораторії / експерименти, що означає багато даних обробка та статистичний аналіз. Однак я помічаю різку …

11 regression machine-learning cross-validation dataset experiment-design

3

Практичний підручник з PCA з даними

Пошук в Інтернеті за підручником PCA дає тисячі результатів (навіть відео). Багато навчальних посібників дуже хороші. Але я не в змозі знайти жодного практичного прикладу, де PCA пояснюється за допомогою деяких наборів даних, які я можу використовувати для демонстрації. Мені потрібен підручник, який надає невеликий набір даних, який легко побудувати …

11 data-visualization dataset pca data-mining

14

Скільки інформації ви можете отримати з імені?

Ім'я: перше, можливо, середнє та прізвище. Мені цікаво, скільки інформації ви можете отримати з імені, використовуючи загальнодоступні набори даних. Я знаю, що ви можете отримати наступне з будь-якого місця між низькою і високою ймовірністю (залежно від вхідних даних), використовуючи дані перепису в США: 1) Стать. 2) Гонка. Наприклад, Facebook використовував …

11 dataset data-mining census

3

Який алгоритм я повинен використовувати для кластеризації величезного бінарного набору даних у декілька категорій?

У мене є велика (650 К рядків * 62 стовпчики) матриця двійкових даних (лише 0-1 записи). Матриця переважно розріджена: заповнено близько 8%. Я хотів би класифікувати його в 5 груп - скажімо, названі від 1 до 5. Я спробував ієрархічну кластеризацію, і вона не змогла впоратися з розміром. Я також …

11 clustering dataset k-means binary-data

3

Хороші книги, що охоплюють попередню обробку даних та методи виявлення зовнішньої інформації

Згідно з назвою, чи знає хто-небудь про хорошу, сучасну книгу, яка охоплює попередню обробку даних загалом, і особливо методи зовнішнього виявлення? Книга не повинна зосереджуватись виключно на цьому, але вона повинна вичерпно стосуватися вищезазначених тем - я не був би задоволений чимось, що є відправною точкою, і цитую перелік робіт, …

11 dataset data-mining references outliers

4

Що саме означає "набір даних"?

Це просто агрегація точок даних? Або це представлення точок даних для різних елементів у табличному форматі, розташованому зі значеннями різних змінних? Чим він відрізняється від необроблених даних?

10 dataset terminology definition

1

Чи помилки в обробці даних вже «оцінені» в статистичному аналізі?

Гаразд, чесне попередження - це філософське питання, яке не стосується цифр. Я багато думав про те, як помилки повстають у набори даних у часі і як це слід ставитись до аналітиків - чи це насправді має значення взагалі? З іншого боку, я аналізую багаторічне дослідження, яке передбачає безліч наборів даних, …

10 dataset error

2

Чи слід справді вважати типи даних (номінальний / порядковий / інтервал / відношення) типами змінних?

Ось, наприклад, ось визначення, які я отримую із стандартних підручників Змінна - характеристика популяції чи вибірки. колишній Ціна акції або сорт на тест Дані - фактичні спостережувані значення Отже, для звіту з двох стовпців [Назва | Дохід] назви стовпців будуть змінними та фактичними спостережуваними значеннями {dave | 100K}, {jim | …

10 dataset ordinal-data categorical-data ratio

Запитання з тегом «dataset»