Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

3
Змінні часто коригуються (наприклад, стандартизовані) перед виготовленням моделі - коли це гарна ідея, а коли погана?
За яких обставин ви хочете чи не хочете масштабувати або стандартизувати змінну до монтажу моделі? І які переваги / недоліки масштабування змінної?

8
Навіщо продовжувати викладати та використовувати тестування гіпотез (коли доступні інтервали довіри)?
Навіщо продовжувати викладати і використовувати тестування гіпотез (з усіма її складними поняттями і які є одними з найбільш статистичних гріхів) для проблем, де існує оцінювач інтервалу (впевненість, завантажувальний стан, достовірність чи інше)? Яке найкраще пояснення (якщо воно є), яке слід дати студентам? Тільки традиція? Думки будуть дуже вітатися.

6
Який метод можна використовувати для виявлення сезонності даних?
Я хочу виявити сезонність у даних, які я отримую. Є деякі методи, які я знайшов, як графік сезонних підгалузей та графік автокореляції, але річ у тому, що я не розумію, як читати графік, хтось може допомогти? Інша справа, чи існують інші методи виявлення сезонності з або без кінцевого результату у …

13
Які прориви у статистиці за останні 15 років?
Я досі пам’ятаю документ «Аналів статистики» про підвищення рівня Фрідмана-Хасті-Тібшірані та коментарі до цих же питань інших авторів (включаючи Фрейнда та Шапіра). У той час явно Підвищення розглядалося як прорив у багатьох аспектах: обчислювально здійсненний, ансамблевий метод, з чудовим, але загадковим виконанням. Приблизно в той же час SVM визріла, пропонуючи …

12
Програмне забезпечення, необхідне для скребки даних із графіка [закрито]
Хто-небудь має досвід роботи з програмним забезпеченням (бажано, вільним, бажано з відкритим кодом), яке буде робити зображення даних, нанесених на декартових координатах (стандартний, повсякденний сюжет) та витягувати координати точок, нанесених на графік? По суті, це проблема обміну даними та проблема зворотної візуалізації даних.



6
Яку реалізацію тесту перестановки використовувати в R замість t-тестів (парних та непарних)?
У мене є дані експерименту, які я аналізував, використовуючи t-тести. Залежна змінна масштабується за інтервалом, і дані є непарними (тобто, 2 групи) або парними (тобто, в межах суб'єктів). Напр. (В межах предметів): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, …

5
Яким чином “модель випадкових ефектів” в економетриці стосується змішаних моделей поза економетрикою?
Раніше я думав, що "модель випадкових ефектів" в економетриці відповідає "змішаній моделі з випадковим перехопленням" поза економетрикою, але зараз я не впевнений. Робить це? Економетрія використовує такі терміни, як "фіксовані ефекти" та "випадкові ефекти" дещо відрізняються від літератури про змішані моделі, і це викликає сумнівну плутанину. Розглянемо просту ситуацію, коли …

8
Як імітувати дані, що задовольняють конкретним обмеженням, таким як специфічне середнє та стандартне відхилення?
Це питання мотивоване моїм питанням про метааналіз . Але я думаю, що це також було б корисно в навчанні контекстів, де ви хочете створити набір даних, який би точно відображав наявний опублікований набір даних. Я знаю, як генерувати випадкові дані із заданого розподілу. Наприклад, якщо я прочитав про результати дослідження, …

2
Більш чітке обговорення варіабельного вибору
Фон Я займаюся клінічними дослідженнями в медицині і пройшов кілька курсів статистики. Я ніколи не публікував папір з використанням лінійної / логістичної регресії і хотів би зробити вибір змінної правильно. Інтерпретабельність є важливою, тому немає фантазійних методик машинного навчання. Я узагальнив своє розуміння варіабельного вибору - чи хтось буде проти …

2
Чому працює усадка?
Для вирішення проблем вибору моделі ряд методів (LASSO, регресія хребта тощо) зменшить коефіцієнти змінних прогнозів до нуля. Я шукаю інтуїтивне пояснення, чому це покращує здатність прогнозування. Якщо справжній ефект змінної насправді був дуже великим, чому не зменшення параметра призводить до гіршого прогнозу?

10
Назвіть кілька прикладів анахронічної практики в статистиці?
Я маю на увазі практику, яка все ще зберігає свою присутність, хоча проблеми (як правило, обчислювальні), з якими вони були розроблені, в основному вирішуються. Наприклад, корекція безперервності Йейтса була придумана для того, щоб зблизити точний тест Фішера з тестом, але це вже не практично, оскільки програмне забезпечення тепер може обробляти …

1
Тест Вальда на логістичну регресію
Наскільки я розумію, тест Уолда в контексті логістичної регресії використовується для визначення того, чи є певна змінна прогнозова значення значною чи ні. Він відкидає нульову гіпотезу, що відповідний коефіцієнт дорівнює нулю.ХXX Тест складається з ділення значення коефіцієнта на стандартну похибку .σσ\sigma Мене бентежить те, що також відомий як Z-оцінка і …

4
Вибір між LM та GLM для змінної відповіді, перетвореної журналом
Я намагаюся зрозуміти філософію, що використовується за допомогою узагальненої лінійної моделі (GLM) проти лінійної моделі (LM). Я створив приклад набору даних нижче, де: log(y)=x+εlog⁡(y)=x+ε\log(y) = x + \varepsilon У прикладі немає помилки як функції величини y , тому я вважаю, що лінійна модель перетвореного y журналу y була б найкращою. …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.