Статистика та великі дані

3

Змінні часто коригуються (наприклад, стандартизовані) перед виготовленням моделі - коли це гарна ідея, а коли погана?

За яких обставин ви хочете чи не хочете масштабувати або стандартизувати змінну до монтажу моделі? І які переваги / недоліки масштабування змінної?

56 modeling predictive-models feature-selection theory standardization

8

Навіщо продовжувати викладати та використовувати тестування гіпотез (коли доступні інтервали довіри)?

Навіщо продовжувати викладати і використовувати тестування гіпотез (з усіма її складними поняттями і які є одними з найбільш статистичних гріхів) для проблем, де існує оцінювач інтервалу (впевненість, завантажувальний стан, достовірність чи інше)? Яке найкраще пояснення (якщо воно є), яке слід дати студентам? Тільки традиція? Думки будуть дуже вітатися.

56 hypothesis-testing confidence-interval teaching

6

Який метод можна використовувати для виявлення сезонності даних?

Я хочу виявити сезонність у даних, які я отримую. Є деякі методи, які я знайшов, як графік сезонних підгалузей та графік автокореляції, але річ у тому, що я не розумію, як читати графік, хтось може допомогти? Інша справа, чи існують інші методи виявлення сезонності з або без кінцевого результату у …

56 time-series seasonality

13

Які прориви у статистиці за останні 15 років?

Я досі пам’ятаю документ «Аналів статистики» про підвищення рівня Фрідмана-Хасті-Тібшірані та коментарі до цих же питань інших авторів (включаючи Фрейнда та Шапіра). У той час явно Підвищення розглядалося як прорив у багатьох аспектах: обчислювально здійсненний, ансамблевий метод, з чудовим, але загадковим виконанням. Приблизно в той же час SVM визріла, пропонуючи …

56 mathematical-statistics history

12

Програмне забезпечення, необхідне для скребки даних із графіка [закрито]

Хто-небудь має досвід роботи з програмним забезпеченням (бажано, вільним, бажано з відкритим кодом), яке буде робити зображення даних, нанесених на декартових координатах (стандартний, повсякденний сюжет) та витягувати координати точок, нанесених на графік? По суті, це проблема обміну даними та проблема зворотної візуалізації даних.

56 data-visualization data-mining software

2

Яка різниця між частковою ймовірністю, профільною ймовірністю та граничною ймовірністю?

Я бачу, що ці терміни використовуються, і я постійно змішую їх. Чи є просте пояснення відмінностей між ними?

56 estimation maximum-likelihood

4

Як розподіляється мінімум набору випадкових величин?

Якщо є незалежними однаково розподіленими випадковими змінними, що можна сказати про розподіл взагалі?Х1, . . . , XнX1,...,XnX_1, ..., X_nхв ( X1, . . . , Xн)min(X1,...,Xn)\min(X_1, ..., X_n)

56 distributions random-variable minimum

6

Яку реалізацію тесту перестановки використовувати в R замість t-тестів (парних та непарних)?

У мене є дані експерименту, які я аналізував, використовуючи t-тести. Залежна змінна масштабується за інтервалом, і дані є непарними (тобто, 2 групи) або парними (тобто, в межах суб'єктів). Напр. (В межах предметів): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, …

56 r t-test nonparametric permutation-test

5

Яким чином “модель випадкових ефектів” в економетриці стосується змішаних моделей поза економетрикою?

Раніше я думав, що "модель випадкових ефектів" в економетриці відповідає "змішаній моделі з випадковим перехопленням" поза економетрикою, але зараз я не впевнений. Робить це? Економетрія використовує такі терміни, як "фіксовані ефекти" та "випадкові ефекти" дещо відрізняються від літератури про змішані моделі, і це викликає сумнівну плутанину. Розглянемо просту ситуацію, коли …

56 mixed-model econometrics panel-data lme4-nlme plm

8

Як імітувати дані, що задовольняють конкретним обмеженням, таким як специфічне середнє та стандартне відхилення?

Це питання мотивоване моїм питанням про метааналіз . Але я думаю, що це також було б корисно в навчанні контекстів, де ви хочете створити набір даних, який би точно відображав наявний опублікований набір даних. Я знаю, як генерувати випадкові дані із заданого розподілу. Наприклад, якщо я прочитав про результати дослідження, …

56 r dataset simulation random-generation

2

Більш чітке обговорення варіабельного вибору

Фон Я займаюся клінічними дослідженнями в медицині і пройшов кілька курсів статистики. Я ніколи не публікував папір з використанням лінійної / логістичної регресії і хотів би зробити вибір змінної правильно. Інтерпретабельність є важливою, тому немає фантазійних методик машинного навчання. Я узагальнив своє розуміння варіабельного вибору - чи хтось буде проти …

55 regression feature-selection model-selection

2

Чому працює усадка?

Для вирішення проблем вибору моделі ряд методів (LASSO, регресія хребта тощо) зменшить коефіцієнти змінних прогнозів до нуля. Я шукаю інтуїтивне пояснення, чому це покращує здатність прогнозування. Якщо справжній ефект змінної насправді був дуже великим, чому не зменшення параметра призводить до гіршого прогнозу?

55 lasso regularization ridge-regression intuition shrinkage

10

Назвіть кілька прикладів анахронічної практики в статистиці?

Я маю на увазі практику, яка все ще зберігає свою присутність, хоча проблеми (як правило, обчислювальні), з якими вони були розроблені, в основному вирішуються. Наприклад, корекція безперервності Йейтса була придумана для того, щоб зблизити точний тест Фішера з тестом, але це вже не практично, оскільки програмне забезпечення тепер може обробляти …

55 references philosophical

1

Тест Вальда на логістичну регресію

Наскільки я розумію, тест Уолда в контексті логістичної регресії використовується для визначення того, чи є певна змінна прогнозова значення значною чи ні. Він відкидає нульову гіпотезу, що відповідний коефіцієнт дорівнює нулю.ХXX Тест складається з ділення значення коефіцієнта на стандартну похибку .σσ\sigma Мене бентежить те, що також відомий як Z-оцінка і …

55 logistic z-statistic

4

Вибір між LM та GLM для змінної відповіді, перетвореної журналом

Я намагаюся зрозуміти філософію, що використовується за допомогою узагальненої лінійної моделі (GLM) проти лінійної моделі (LM). Я створив приклад набору даних нижче, де: log(y)=x+εlog⁡(y)=x+ε\log(y) = x + \varepsilon У прикладі немає помилки як функції величини y , тому я вважаю, що лінійна модель перетвореного y журналу y була б найкращою. …

55 r generalized-linear-model linear-model gamma-distribution link-function