Запитання з тегом «dataset»

Запити щодо наборів даних є поза темою на цьому сайті. Використовуйте цей тег для запитань щодо створення, обробки або підтримки наборів даних.

14
Чи великі набори даних не підходять для тестування гіпотез?
В недавній статті в Amstat Новини , автори (Марк ван дер Лан і Шеррі Роуз) заявив , що «Ми знаємо , що для досить великих розмірів вибірки, кожне дослідження, в тому числі ті , в яких нульова гіпотеза про відсутність ефекту вірно - буде оголосити статистично значущий ефект. " Ну, …

25
Розміщення вільно доступних зразків даних
Я працював над новим методом аналізу та аналізу наборів даних для ідентифікації та ізоляції підгруп населення без попереднього усвідомлення особливостей будь-якої підгрупи. Хоча метод досить добре працює зі штучними зразками даних (тобто наборами даних, створеними спеціально для ідентифікації та сегрегації підмножини населення), я хотів би спробувати протестувати його з живими …

6
Основні тести перевірки даних
У своїй робочій ролі я часто працюю з наборами даних інших людей, неспеціалісти приносять мені клінічні дані, і я допомагаю їм узагальнити їх та провести статистичні тести. Проблема, яку я маю, полягає в тому, що набори даних, які мені привозять, майже завжди пронизані друкарськими помилками, невідповідностями та всіма іншими проблемами. …

8
Як імітувати дані, що задовольняють конкретним обмеженням, таким як специфічне середнє та стандартне відхилення?
Це питання мотивоване моїм питанням про метааналіз . Але я думаю, що це також було б корисно в навчанні контекстів, де ви хочете створити набір даних, який би точно відображав наявний опублікований набір даних. Я знаю, як генерувати випадкові дані із заданого розподілу. Наприклад, якщо я прочитав про результати дослідження, …

3
API / канали даних, доступні як пакети в R
EDIT: Перегляд завдань CRAN веб-технологій та послуг містить набагато більш повний перелік джерел даних та API, доступних у Р. Ви можете надіслати запит на виклик на github, якщо ви хочете додати пакет до подання завдання. Я складаю список різних каналів даних, які вже підключені до R або які легко налаштувати. …
53 r  references  dataset 

3
Інтерпретація прогнозованого прогнозу та / або відповіді перетвореного журналом
Мені цікаво, чи має значення інтерпретація, чи трансформуються лише залежні, і залежні, і незалежні, або лише незалежні змінні. Розглянемо випадок log(DV) = Intercept + B1*IV + Error Я можу трактувати ІV як збільшення відсотка, але як це змінюється, коли я маю log(DV) = Intercept + B1*log(IV) + Error або коли …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

9
Крихітні (реальні) набори даних для наведення прикладів у класі?
Під час викладання класу початкового рівня викладачі, яких я знаю, прагнуть вигадувати деякі цифри та історію, щоб пояснити метод, який вони навчають. Що я хотів би - розповісти реальну історію з реальними цифрами. Однак ці історії повинні стосуватися дуже крихітного набору даних, що дозволяє здійснювати ручні розрахунки. Будь-які пропозиції щодо …

8
Як змусити людей краще піклуватися про дані?
На моєму робочому місці працюють співробітники з дуже широкого спектру дисциплін, тому ми генеруємо дані в безлічі різних форм. Отже, кожна команда розробила власну систему зберігання даних. Деякі використовують бази даних Access або SQL; деякі команди (на моє жах) майже повністю залежать від електронних таблиць Excel. Часто формати даних змінюються …

2
Як зробити дійсні висновки з "великих даних"?
"Великі дані" є скрізь у ЗМІ. Всі кажуть, що "великі дані" - це найбільша річ у 2012 році, наприклад, опитування KDNuggets на гарячі теми 2012 року . Однак у мене тут є глибокі занепокоєння. Маючи великі дані, всі, здається, щасливі лише отримати щось . Але чи не ми порушуємо всі …

2
Як нормалізувати дані від -1 до 1?
Я бачив формулу нормалізації min-max, але вона нормалізує значення від 0 до 1. Як я можу нормалізувати свої дані від -1 до 1? У матриці даних у мене є як негативні, так і позитивні значення.

5
Безкоштовний набір даних для дуже високої розмірної класифікації [закрито]
Що таке вільно доступний набір даних для класифікації з більш ніж 1000 ознаками (або зразкові точки, якщо вони містять криві)? Вже існує спільнота вікі про безкоштовні набори даних: Розміщення вільно доступних зразків даних Але тут було б непогано мати більш цілеспрямований список, який можна зручніше використовувати , також я пропоную …

5
Що робити, якщо дані моєї лінійної регресії містять кілька сумісних лінійних зв’язків?
Скажімо, я вивчаю, як нарциси реагують на різні ґрунтові умови. Я зібрав дані про рН ґрунту проти зрілої висоти нарциса. Я очікую лінійних відносин, тому я берусь за лінійною регресією. Однак я не усвідомив, коли розпочав своє дослідження, що популяція насправді містить два різновиди нарцисів, кожен з яких реагує дуже …

3
Набори даних, побудовані для цілей, подібних до квартету Anscombe
Я щойно натрапив на квартет Anscombe (чотири набори даних, які мають майже нерозрізнену описову статистику, але виглядають зовсім інакше, якщо побудовано на графіці), і мені цікаво, чи є інші більш-менш відомі набори даних, які були створені для демонстрації важливості певних аспектів статистичних аналізів.

2
Виконання статистичного тесту після візуалізації даних - драгування даних?
Я запропоную це питання на прикладі. Припустимо, у мене є набір даних, такий як набір даних про ціни на житло в Бостоні, в якому я маю безперервні і категоричні змінні. Тут ми маємо змінну «якість» від 1 до 10 та ціну продажу. Я можу розділити дані на будинки "низької", "середньої" …

3
Візуалізація перетинів багатьох множин
Чи існує модель візуалізації, яка б добре відображала перетин перетину багатьох наборів? Я думаю про щось на зразок діаграм Венна, але це якось може піддавати себе більшої кількості наборів, таких як 10 і більше. У Вікіпедії є кілька вищих діаграм Венна, але навіть 4-х діаграми є дуже важливими. Думаю, що …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.