Статистика та великі дані data-transformation

2

Як вибрати найкращу трансформацію для досягнення лінійності?

Я хочу зробити декілька лінійних регресій, а потім передбачити нові значення з невеликою екстраполяцією. У мене є змінна відповідь у діапазоні від -2 до +7 та три предиктори (діапазони приблизно +10 - +200). Розподіл майже нормальний. Але взаємозв'язок між відповіддю та предикторами не є лінійним, на графіках я бачу криві. …

10 regression data-transformation

3

Лінійна модель Гетероседастичність

У мене є така лінійна модель: Щоб вирішити гетероседастичність залишків, я спробував застосувати перетворення журналу на залежну змінну як але я все ще бачу такий же ефект від вентилятора на залишки. Значення DV порівняно невеликі, тому постійне додавання +1 до взяття журналу, мабуть, не підходить у цьому випадку.log(Y+1)log⁡(Y+1)\log(Y + 1) …

10 regression data-transformation linear-model heteroscedasticity

4

Як трактувати логарифмічно перетворені коефіцієнти в лінійній регресії?

Моя ситуація така: У мене є 1 безперервна залежна та 1 безперервна змінна предиктора, яку я логарифмічно перетворив, щоб нормалізувати їх залишки для простої лінійної регресії. Я вдячний за будь-яку допомогу щодо того, як я можу співвідносити ці перетворені змінні з їх початковим контекстом. Я хочу використовувати лінійну регресію, щоб …

10 regression data-transformation regression-coefficients logarithm

1

Коли трансформувати змінні предиктора під час множинної регресії?

В даний час я беру свій перший застосований клас лінійної регресії на рівні випускників, і я борюся з змінними перетвореннями предиктора в множинній лінійній регресії. Текст, який я використовую, Кутнер та ін "Прикладні лінійні статистичні моделі", схоже, не охоплює питання, яке у мене виникає. (окрім припущення, що існує метод Box-Cox …

10 data-transformation multiple-regression

2

Чи можна безпосередньо читати стовпці CSV як категоричні дані?

Мені потрібно проаналізувати з R дані з медичного обстеження (зі 100+ кодованими стовпцями), що надходять у CSV. Я використаю брязкальця для початкового аналізу, але за кадром все-таки R. Якщо я читаю файл.csv () , то стовпці з числовими кодами розглядаються як числові дані. Я знаю, що міг би створити з …

10 r categorical-data data-transformation

5

Які інші нормалізуючі перетворення зазвичай використовуються поза загальними, як квадратний корінь, журнал тощо?

При аналізі тестових балів (наприклад, у галузі освіти або психології) загальні методи аналізу часто передбачають нормальне поширення даних. Однак, можливо, частіше за все бали, як правило, дико відхиляються від нормальних. Мені знайомі деякі основні нормалізуючі перетворення, як-от: квадратні корені, логарифми, зворотні перетворення для зменшення позитивного перекосу, відображені версії вищезгаданого для …

10 data-transformation normality-assumption variance-stabilizing

1

Чому ми не можемо використовувати для перетворень залежних змінних?

Уявіть, що ми маємо лінійну регресійну модель із залежною змінною . Знаходимо його . Тепер ми робимо ще одну регресію, але цього разу на і аналогічно знаходимо її . Мені сказали, що я не можу порівняти обидва щоб побачити, яка модель краще підходить. Чому так? Причиною мені було те, що …

10 regression data-transformation r-squared

2

Перетворити розподіл Пуассона в нормальний розподіл

Я маю насамперед досвід інформатики, але зараз я намагаюся навчити себе базовій статистиці. У мене є деякі дані, які, на мою думку, мають розповсюдження Пуассона У мене є два питання: Це розподіл Пуассона? По-друге, чи можна перетворити це в звичайний розподіл? Будь-яка допомога буде вдячна. Велике спасибі

10 normal-distribution data-transformation poisson-distribution

1

Якщо квадрат часового ряду є нерухомим, чи є оригінальним часовий ряд стаціонарним?

Я знайшов рішення, в якому сказано, що якщо квадрат часового ряду є нерухомим, то це і оригінальний часовий ряд, і навпаки. Однак я, здається, не в змозі довести це, у когось є ідея, чи це правда, і якщо це як отримати?

9 time-series self-study data-transformation stationarity

2

Трансформація статистики замовлень

Припустимо, випадкові величини і незалежні, а -розподілені. Покажіть, що має \ Розподіл тексту {Exp} (1) .X1,...,XnX1,...,XnX_1, ... , X_nY1,...,YnY1,...,YnY_1, ..., Y_nU(0,a)U(0,a)U(0,a)Zn=nlogmax(Y(n),X(n))min(Y(n),X(n))Zn=nlog⁡max(Y(n),X(n))min(Y(n),X(n))Z_n= n\log\frac{\max(Y_{(n)},X_{(n)})}{\min(Y_{(n)},X_{(n)})}Exp(1)Exp(1)\text{Exp}(1) Я розпочав цю проблему, встановивши {X1,...,Xn,Y1,...Yn}={Z1,...,Zn}{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}\{X_1,...,X_n,Y_1,...Y_n\} = \{Z_1,...,Z_n\} Тоді max(Yn,Xn)=Z(2n)max(Yn,Xn)=Z(2n)\max(Y_n,X_n)= Z_{(2n)} поширюватиметься як (za)2n(za)2n(\frac{z}{a})^{2n} а min(Yn,Xn)=Z(1)min(Yn,Xn)=Z(1)\min(Y_n,X_n)= Z_{(1)} поширюватиметься як 1−(1−za)2n1−(1−za)2n1 - (1 - \frac{z}{a})^{2n} Щільності можна легко знайти …

9 self-study data-transformation order-statistics

2

Результати регресії мають несподівану верхню межу

Я намагаюсь передбачити балансову оцінку і спробував кілька різних методів регресії. Одне, що я помітив, - це те, що передбачувані значення, здається, мають якусь верхню межу. Тобто фактичний баланс знаходиться у , але мої прогнози становлять приблизно . Наступний графік показує фактичний та передбачуваний баланс (прогнозований з лінійною регресією):[0.0,1.0)[0.0,1.0)[0.0, 1.0)0.80.80.8 …

9 regression distributions data-transformation prediction bounds

1

Стандартизація функцій при використанні LDA як етапу попередньої обробки

Якщо багатокласний лінійний дискримінантний аналіз (або я також іноді читаю множинний дискримінантний аналіз) використовується для зменшення розмірності (або перетворення після зменшення розмірності за допомогою PCA), я розумію, що в цілому "нормалізація Z-балів" (або стандартизація) функції не будуть потрібні, навіть якщо вони вимірюються на абсолютно різних масштабах, правда? Оскільки LDA містить …

9 classification data-transformation normalization standardization discriminant-analysis

2

Допоможіть мені вписатись у цю нелінійну множинну регресію, яка спростувала всі попередні зусилля

EDIT: З моменту створення цієї публікації я перейшов до додаткової публікації тут . Короткий зміст тексту нижче: Я працюю над моделлю і спробував лінійну регресію, трансформації Box Cox та GAM, але не досягнув особливого прогресу Використовуючи R, я в даний час працюю над моделлю , щоб передбачити успіх Малих бейсбольної …

9 r multiple-regression data-transformation nonlinear-regression gam

1

Пошук розподілу статистики

Навчання для тесту. Не вдалося відповісти на це. Дозволяє Х1 , i,Х2 , i,Х3 , i, i = 1 , … , nХ1,i,Х2,i,Х3,i,i=1,…,нX_{1,i},X_{2,i},X_{3,i}, i=1,\ldots,n бути iid N( 0 , 1 )N(0,1)\mathcal{N}(0,1)випадкові змінні. Визначте Wi= (Х1 , i+Х2 , iХ3 , i) /1 +Х23 , i-------√, i = 1 , …

9 normal-distribution data-transformation

4

Box Cox Трансформації для регресії

Я намагаюся встановити лінійну модель на деякі дані лише з одним предиктором (скажімо, (x, y)). Дані є такими, що для малих значень x значення y дають чітке прилягання до прямої лінії, однак у міру збільшення значень x значення y стають більш мінливими. Ось приклад таких даних (код R) y = …

9 r regression variance data-transformation

Запитання з тегом «data-transformation»