Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

17
Як описати статистику одним реченням?
Коли я вперше почав вивчати статистику, такі процедури, як t-тест, ANOVA, чи-квадрат і лінійна регресія, виявилися дуже різними істотами. Але тепер я усвідомлюю, що ці процедури роблять більш-менш те саме. І так само такі величини, як дисперсія, залишки, стандартна помилка і середнє значення також вимірюють більш-менш одне і те ж. …
27 definition 

3
Як визначити різницю між лінійними та нелінійними моделями регресії?
Я читав наступне посилання на нелінійну регресію SAS нелінійної . Моє розуміння з прочитання першого розділу "Нелінійна регресія проти лінійної регресії" полягала в тому, що рівняння нижче є фактично лінійною регресією, чи правильно це? Якщо так, чому? y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c Чи я також повинен …

4
Підводні камені в експериментальному дизайні: уникання мертвих експериментів
Я не раз зустрічався з цією цитатою: Для консультацій зі статистиком після закінчення експерименту часто є просто просити його провести постсмертне обстеження. Він, можливо, може сказати, від чого помер експеримент. - Рональд Фішер (1938) Мені це здається, мабуть, трохи самонадійним. Єдині приклади, які я коли-небудь знаходив, описуючи, як експерименти вмирають …

3
Якщо лінійна регресія пов'язана з кореляцією Пірсона, чи існують якісь регресійні методи, пов'язані з кореляціями Кендалла та Спірмена?
Можливо, це питання є наївним, але: Якщо лінійна регресія тісно пов'язана з коефіцієнтом кореляції Пірсона, чи існують якісь регресійні методи, тісно пов'язані з коефіцієнтами кореляції Кендалла та Спірмена?


7
Чи кореляція є рівнозначною асоціації?
Мій професор статистики стверджує, що слово "кореляція" застосовується строго до лінійних зв'язків між змінними, тоді як слово "асоціація" широко застосовується до будь-якого типу відносин. Іншими словами, він стверджує, що термін "нелінійна кореляція" є оксимороном. З того, що я можу зробити з цього розділу в статті Вікіпедії про " Кореляцію та …

5
Що може призвести до того, що PCA погіршить результати класифікатора?
У мене є класифікатор, на якому я роблю перехресну перевірку, разом із сотнею функцій, на які я роблю вибір вперед для пошуку оптимальних комбінацій функцій. Я також порівнюю це з тими ж експериментами з PCA, де я використовую потенційні функції, застосовую SVD, перетворюю вихідні сигнали на новий простір координат і …

2
Які значення p, d, q, в ARIMA?
У arimaфункції в R, що order(1, 0, 12)означає? Які цінності , які можуть бути призначені p, d, qі що цей процес , щоб знайти ці значення?
27 r  time-series  arima 

3
Що зумовлює розрив у розподілі опублікованих p-значень при p <0,05?
У недавній роботі Masicampo і Lalande (ML) зібрали велику кількість p-значень, опублікованих у багатьох різних дослідженнях. Вони спостерігали цікавий стрибок гістограми p-значень прямо на канонічному критичному рівні 5%. У цьому блозі проф. Вассермана є приємна дискусія щодо цього явища М.Л .: http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/ У його блозі ви знайдете гістограму: Оскільки рівень …

1
Відповідні залишкові ступені свободи після випадання умов з моделі
Я розмірковую над дискусією навколо цього питання і, зокрема, зауваженням Френка Харрелла про те, що для оцінки дисперсії у зменшеній моделі (тобто такої, з якої було випробувано та відхилено ряд пояснювальних змінних), слід використовувати Узагальнені ступені свободи . Професор Гаррелл зазначає, що це буде набагато ближче до залишкових ступенів свободи …

4
Мінімальний розмір вибірки для PCA або FA, коли основною метою є оцінка лише кількох компонентів?
Якщо у мене є набір даних із спостереженнями та p змінними (розмірами), і зазвичай n невеликий ( n = 12 - 16 ), і p може варіюватися від малого ( p = 4 - 10 ) до, можливо, значно більшого ( p = 30 - 50 ).nnnpppnnnn=12−16n=12−16n=12-16pppp=4−10p=4−10p = 4-10p=30−50p=30−50p= 30-50 …

2
Як побудувати 95% довірчий інтервал різниці між медіанами?
Моя проблема: паралельне групове рандомізоване випробування, яке має дуже правильний косий розподіл первинного результату. Я не хочу припускати нормальність і використовувати звичайні 95% ІС (тобто, використовуючи 1,96 X SE). Я з задоволенням висловлюю міру центральної тенденції як медіану, але моє запитання полягає в тому, як побудувати 95% різниці медіанів між …

3
Кращий бандитський алгоритм?
Найвідомішим алгоритмом бандитів є верхня довіра (UCB), яка популяризувала цей клас алгоритмів. З того часу я припускаю, що зараз є кращі алгоритми. Який найкращий поточний алгоритм (з точки зору емпіричної продуктивності чи теоретичної межі)? Чи оптимальним є цей алгоритм у певному сенсі?

5
Як додати нелінійну лінію тренду до ділянки розкиду в R? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закритий минулого року . У мене сюжет розкидання. Як я можу додати нелінійну лінію тренду?

2
У багаторівневій моделі, які практичні наслідки оцінюють проти не оцінюваних параметрів кореляції випадкових ефектів?
У багаторівневій моделі, які практичні та інтерпретаційні наслідки пов'язані з оцінкою порівняно з не оцінюючими параметрами кореляції випадкових ефектів? Практична причина запитання полягає в тому, що в рамці lmer в R не існує реалізованого методу оцінки р-значень за допомогою методів MCMC, коли оцінки проводяться в моделі кореляцій між параметрами. Наприклад, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.