Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних


4
Походження порогу "5
Новини повідомляють, що CERN оголосить завтра, що бозон Хіггса був експериментально виявлений з доказами 5 . Відповідно до цієї статті:σσ\sigma 5 означає 99,99994% шансів, що дані, які бачать детектори CMS та ATLAS, є не просто випадковим шумом - а 0,00006% шансів, що їх підключили; 5 σ - необхідна впевненість, щоб …

3
Як підігнати модель ARIMAX з R?
У мене є чотири різні часові ряди погодинних вимірювань: Витрата тепла всередині будинку Температура поза домом Сонячне випромінювання Швидкість вітру Я хочу мати можливість передбачити споживання тепла всередині будинку. Існує чітка сезонна тенденція, як щорічно, так і щоденно. Оскільки між різними серіями існує чітка кореляція, я хочу їх встановити за …


2
Розуміння p-значення
Я знаю, що є багато матеріалів, що пояснюють значення p. Однак концепцію нелегко зрозуміти без додаткових роз'яснень. Ось визначення p-значення з Вікіпедії: Значення р - це ймовірність отримання тестової статистики як мінімум настільки ж екстремальної, як та, яка насправді спостерігалася, припускаючи, що нульова гіпотеза є істинною. ( http://en.wikipedia.org/wiki/P-value ) хв …

4
Що таке довідковий аргумент і чому його не прийняли?
Одним із пізніх внесків Р. А. Фішера були фідуціальні інтервали та принципові принципи довіри . Такий підхід, однак, ніде не є настільки популярним, як принципи часто-часто чи баєсівського принципу. Що таке довірений аргумент і чому його не прийнято?

3
Який найбільш точний спосіб визначення кольору предмета?
Я написав комп’ютерну програму, яка може виявляти монети в статичному зображенні (.jpeg, .png тощо), використовуючи деякі стандартні методи комп’ютерного зору (розмиття Гаусса, поріг, Hough-трансформація тощо). Використовуючи співвідношення монет, зібраних із заданого зображення, я можу з впевненістю встановити, які монети є. Однак я хочу додати до рівня моїх впевненостей, а також …

5
Чому регресія Пуассона використовується для обліку даних?
Я розумію, що для певних наборів даних, таких як голосування, вона працює краще. Чому регресія Пуассона застосовується над звичайною лінійною регресією чи логістичною регресією? Яка математична мотивація для цього?

2
Чи існує варіант коробки для розподілених даних Пуассона?
Мені хотілося б дізнатися, чи існує варіант боксплотів, адаптований до розподілених даних Пуассона (чи, можливо, інших розподілів)? При гауссовому розподілі вуса, розміщені при L = Q1 - 1,5 IQR і U = Q3 + 1,5 IQR, боксплот має властивість того, що буде приблизно стільки ж низьких залишків (балів нижче L), …


2
Варіант функції однієї випадкової величини
Скажімо, у нас є випадкова величина із відомою дисперсією та середнім значенням. Питання: яка дисперсія для деякої заданої функції f. Єдиний загальний метод, який мені відомий - це метод дельта, але він дає лише апроксимацію. Тепер мене цікавить , але було б також непогано знати деякі загальні методи.f ( X …

4
Стандартна кластеризація помилок в R (вручну або в PLM)
Я намагаюся зрозуміти стандартну помилку "кластеризації" і як виконати в R (це тривіально в Stata). У RI були невдалі, використовуючи plmабо написання власної функції. Я буду використовувати diamondsдані з ggplot2пакету. Я можу робити фіксовані ефекти з будь-якими фіктивними змінними > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with …

10
Як навчити студентів, які бояться статистики?
Я збираюся допомогти викладати статистику для студентів-медиків у цьому семестрі. Я чув чимало страшилок про страх цих студентів від вивчення статистики. Хтось може підказати, що робити з цим страхом? (Або посилання на людей, які обговорюють це, або пропонуйте пропозиції з власного досвіду)
33 teaching 

6
Як оцінити схожість двох гістограм?
З огляду на дві гістограми, як ми можемо оцінити, схожі вони чи ні? Чи достатньо просто переглянути дві гістограми? Просте зіставлення з одним на одне має проблему, що якщо гістограма трохи відрізняється і трохи зміщується, ми не отримаємо бажаного результату. Будь-які пропозиції?

1
Математичні відмінності між GBM, XGBoost, LightGBM, CatBoost?
Існує кілька реалізацій моделі GBDT, таких як: ГБМ XGBoost LightGBM Catboost. Які математичні відмінності між цими різними реалізаціями? Catboost, здається, перевершує інші реалізації навіть використовуючи лише його параметри за замовчуванням відповідно до цієї тестової позначки , але це все ще дуже повільно. Я думаю, що catboost не використовує думіфіковані змінні, …
33 boosting  xgboost 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.