Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Дисбаланс класу в контрольованому машинному навчанні
Це взагалі питання, не характерне для будь-якого методу чи набору даних. Як ми маємо справу з проблемою дисбалансу класу в контрольованому машинному навчанні, де число 0 становить близько 90%, а число 1 - близько 10% у вашому наборі даних. Як ми оптимально навчаємо класифікатор. Один із способів, за якими я …

3
AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Чи можу я їх використовувати взаємозамінно?
На с. 34 свого PRNN Брайан Ріплі зауважує, що "AIC був названий Akaike (1974)" інформаційним критерієм ", хоча, як видається, вважається, що A означає Akaike". Дійсно, вводячи статистику AIC, Akaike (1974, с.719) пояснює це "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc …

5
Інтерпретація QQplot - чи є якесь правило, щоб вирішити ненормальність?
Тут я прочитав достатньо тем на QQplots, щоб зрозуміти, що QQplot може бути більш інформативним, ніж інші тести на нормальність. Однак я не досвідчений в інтерпретації QQplots. Я дуже гуглив; Я знайшов багато графіків ненормативних QQplots, але немає чітких правил, як їх інтерпретувати, окрім того, що, здається, порівняння з дистрибутивом …

2
Оптимальна кількість складок у
Міркування щодо обчислювальної потужності вбік, чи є підстави вважати, що збільшення кількості складок при перехресній валідації призводить до кращого вибору / валідації моделі (тобто, чим більша кількість складок, тим краще)? Доводячи аргумент до крайності, чи приводить перехресна перевірка виходу з одного виходу обов'язково до кращих моделей, ніж кратна перехресна перевірка?ККK …

5
R - QQPlot: як дізнатися, чи нормально поширюються дані
Я створив це після того, як зробив тест на нормальність Шапіро-Вілка. Тест показав, що цілком ймовірно, що населення нормально розподілене. Однак як побачити цю «поведінку» на цьому сюжеті? ОНОВЛЕННЯ Проста гістограма даних: ОНОВЛЕННЯ Тест Шапіро-Вілка говорить:

2
Чи сплайни перевищують дані?
Моя проблема : Нещодавно я зустрічався зі статистиком, який повідомив мені, що сплайни корисні лише для дослідження даних і піддаються надмірній відповідності, тому не корисні для прогнозування. Він вважав за краще досліджувати прості полиноми ... Оскільки я великий фанат сплайнів, і це суперечить моїй інтуїції, мені цікаво дізнатися, наскільки ці …


4
Чому очікування те саме, що середнє арифметичне?
Сьогодні я натрапив на нову тему під назвою Математичне очікування. У книзі, яку я слідую, йдеться про те, що очікування - це середнє арифметичне випадкової величини, що виходить з будь-якого розподілу ймовірностей. Але він визначає очікування як суму добутку деяких даних і ймовірність їх. Як ці двоє (середній і очікуваний) …

6
Підручник із статистики Байєса
Я намагаюся досягти максимальної швидкості в Bayesian Statistics. Я маю трохи статистики (STAT 101), але не надто багато - я думаю, що я можу зрозуміти попередній, задній та ймовірний: D. Я ще не хочу читати байєсівський підручник. Я вважаю за краще читати з джерела (кращий веб-сайт), який швидко розігнає мене. …

4
Як зробити вибір підмножини логістичної регресії?
Я поміщаю біноміальну glm сім'ю в R, і у мене є ціла група пояснювальних змінних, і мені потрібно знайти найкраще (R-квадрат, як міра - це нормально). Не маючи написання сценарію, щоб переглядати випадкові різні комбінації пояснювальних змінних, а потім записувати, що найкраще, я дійсно не знаю, що робити. І leapsфункція …
47 r  logistic 

5
Перший вихідний код R пакунків для вивчення під час підготовки до написання власного пакету
Я планую почати писати R-пакети. Я подумав, що було б добре вивчити вихідний код існуючих пакетів, щоб дізнатися про умови створення пакетів. Мої критерії хороших пакетів для вивчення: Прості статистичні / технічні ідеї : Справа в тому, щоб дізнатися про механіку побудови пакетів. Розуміння пакету не повинно вимагати детальних специфічних …
47 r 

15
Найбільш заплутані статистичні терміни
Ми статистики вживаємо багато слів способами, які трохи відрізняються від того, як їх використовують усі інші. Це спричиняє багато проблем, коли ми навчаємо або пояснюємо, що робимо. Я почну список (а тепер додаю деякі визначення за коментарями): Сила - це здатність правильно відкинути хибну нульову гіпотезу. Зазвичай це означає правильно …

3
Чи можливо зробити кластеризацію часових рядів на основі форми кривої?
У мене є дані про продажі для ряду торгових точок, і я хочу їх класифікувати за формою кривих у часі. Дані виглядають приблизно так (але, очевидно, не є випадковими і мають деякі відсутні дані): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- …

7
При проведенні t-тесту, чому б вважати за краще (або випробовувати) однакові відхилення, а не завжди використовувати наближення Велха df?
Схоже, коли виконується припущення про однорідність дисперсії, що результати тестування, регульованого Велчем, t-тесту та стандартного t-тесту приблизно однакові. Чому б просто не завжди використовувати регульований Welch t?

14
Пояснення інтерпретації довірчих інтервалів?
Моє нинішнє розуміння поняття «довірчий інтервал з рівнем довіри » є те , що якщо б ми спробували вирахувати довірчий інтервал багато разів (кожен раз з новим зразком), він буде містити правильний параметр з час.1 - α1 - α1−α1 - \alpha1 - α1−α1 - \alpha Хоча я усвідомлюю, що це …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.