Запитання з тегом «data-transformation»

Математичне повторне вираження значень даних, часто нелінійне. Дані часто перетворюються або для задоволення припущень статистичної моделі, або для того, щоб зробити результати аналізу більш зрозумілими.

12
Як слід перетворювати негативні дані, включаючи нулі?
Якщо у мене є дуже перекошені позитивні дані, я часто беру журнали. Але що мені робити із сильно перекривленими негативними даними, що включають нулі? Я бачив дві трансформації: який має чітку функцію, яка 0 відображає до 0.журнал( х + 1 )log⁡(x+1)\log(x+1) де c оцінюється або встановлюється як дуже невелике додатне …


2
Коли (і навіщо) слід взяти журнал розподілу (чисел)?
Скажімо, у мене є деякі історичні дані, наприклад, минулі ціни на акції, коливання цін на авіаквитки, минулі фінансові дані компанії ... Тепер хтось (або якась формула) підійде і каже "давайте візьмемо / скористаємося журналом розподілу", і ось де я йду ЧОМУ ? Запитання: ЧОМУ слід брати в першу чергу журнал …

8
Коли в лінійній регресії доцільно використовувати журнал незалежної змінної замість фактичних значень?
Я шукаю кращого розподілу для незалежної змінної, про яку йдеться, або для зменшення ефекту людей, що переживають люди, або чогось іншого?

1
Чому для підрахунку даних рекомендується перетворення квадратного кореня?
Часто рекомендується взяти квадратний корінь, коли у вас є дані про підрахунок. (Для деяких прикладів з резюме див. Відповідь @ HarveyMotulsky тут або відповідь @ wuber тут .) З іншого боку, при встановленні узагальненої лінійної моделі зі змінною відповіді, розподіленою як Пуассон, журнал є канонічним посиланням . Це щось на …

5
Яку малу кількість слід додати до x, щоб уникнути прийому журналу нуля?
Я проаналізував свої дані такими, які вони є. Тепер я хочу переглянути свої аналізи після взяття журналу всіх змінних. Багато змінних містять багато нулів. Тому я додаю невелику кількість, щоб не брати журнал нуля. Поки що я додав 10 ^ -10, без жодного обґрунтування насправді, просто тому, що я вважав, …

8
Чи є сенс ставитись до категоричних даних як до безперервних?
Відповідаючи на це запитання щодо дискретних та безперервних даних, я з глибоким твердженням стверджував, що рідко є сенс трактувати категоричні дані як безперервні. Зважаючи на це, це здається само собою зрозумілим, але інтуїція часто є поганим посібником для статистики, або, принаймні, моя. Тож зараз мені цікаво: це правда? Або є …

3
Коли відповідні ваги журналу?
Я читав, що використання шкал журналів під час побудови графіків / графіків є доцільним у певних обставинах, наприклад, вісь y у діаграмі часових рядів. Однак мені не вдалося знайти остаточного пояснення, чому це так, або коли це було б доречно. Будь ласка, майте на увазі, що я не статистик, тому …

3
Box-Cox як перетворення для незалежних змінних?
Чи існує трансформація типу Box-Cox для незалежних змінних? Тобто перетворення, яке оптимізує змінну так, що волевиявлення зробить більш розумним пристосування для лінійної моделі?хxxy~f(x) Якщо так, чи є функція для цього R?

1
Кодування "гаряче проти фіктивного" в Scikit-learn
Існує два різні способи кодування категоричних змінних. Скажімо, одна категоріальна змінна має n значень. Одно гаряче кодування перетворює його в n змінних, тоді як фіктивне кодування перетворює його в n-1 змінні. Якщо у нас є k категоріальні змінні, кожна з яких має n значень. Одне гаряче кодування закінчується змінними kn …

1
Як застосувати стандартизацію / нормалізацію до поїзного і тестового набору, якщо мета прогнозування?
Чи я транслюю всі свої дані або складки (якщо застосовується резюме) одночасно? напр (allData - mean(allData)) / sd(allData) Чи трансформую поїздку та набір тестів окремо? напр (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Або я перетворюю набір поїздів і використовую обчислення на тестовому наборі? напр (trainData - …

3
Інтерпретація прогнозованого прогнозу та / або відповіді перетвореного журналом
Мені цікаво, чи має значення інтерпретація, чи трансформуються лише залежні, і залежні, і незалежні, або лише незалежні змінні. Розглянемо випадок log(DV) = Intercept + B1*IV + Error Я можу трактувати ІV як збільшення відсотка, але як це змінюється, коли я маю log(DV) = Intercept + B1*log(IV) + Error або коли …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

4
Нормалізація проти масштабування
Чим відрізняються дані "Нормалізація" від даних "Масштабування"? До цього часу я не думав, що обидва терміни стосуються одного і того ж процесу, але тепер я розумію, що є щось більше, чого я не знаю / не розумію. Крім того, якщо є різниця між нормалізацією та масштабуванням, коли нам слід використовувати …

1
Регресія: перетворення змінних
Перетворюючи змінні, чи потрібно вам використовувати одне й те саме перетворення? Наприклад, чи можу я вибрати і вибрати різні змінені змінні, як у: Нехай, - вік, тривалість роботи, тривалість проживання та дохід.x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Або ви повинні бути узгоджені зі своїми перетвореннями і використовувати все …

1
Альтернативи однобічній ANOVA для гетерокедастичних даних
У мене є дані з 3 груп біомаси водоростей ( AAA , , ), які містять неоднакові розміри вибірки ( , , ), і я хотів би порівняти, якщо ці групи з однієї популяції.BBBn A = 15 n B = 13 n C = 12CCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 Одностороння ANOVA, безумовно, була б …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.