Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Нормалізація проти масштабування
Чим відрізняються дані "Нормалізація" від даних "Масштабування"? До цього часу я не думав, що обидва терміни стосуються одного і того ж процесу, але тепер я розумію, що є щось більше, чого я не знаю / не розумію. Крім того, якщо є різниця між нормалізацією та масштабуванням, коли нам слід використовувати …

1
Як інтерпретувати тип I, II тип та III тип ANOVA та MANOVA?
Моє первинне питання - як інтерпретувати вихід (коефіцієнти, F, P) при проведенні типу I (послідовного) ANOVA? Моя конкретна дослідницька проблема трохи складніша, тому я розбию свій приклад на частини. По-перше, якщо мене цікавить вплив густоти павуків (X1) на ріст рослини (Y1) і я висаджував розсаду у вольєри та маніпулював щільністю …

6
Мотивація відстані між розподілами Колмогорова
Існує багато способів оцінити, наскільки схожі два розподіли ймовірності. Серед популярних (у різних колах) методів є: відстань Колмогорова: відстань відстані між функціями розподілу; відстань Кантаровича-Рубінштейна: максимальна різниця очікувань двох розподілів функцій з постійною Ліпшица , яка також виявляється відстань між розподільними функціями;111L1L1L^1 обмежена відстань Ліпшиця: як і відстань KR, але …

8
Чи всі моделі марні? Чи можлива якась точна модель - чи корисна?
Це питання гнається в моїй свідомості вже більше місяця. Випуск Amstat News за лютий 2015 року містить статтю професора Берклі Марка ван дер Лаана, яка лаять людей за використання неточних моделей. Він заявляє, що, використовуючи моделі, статистика - це мистецтво, а не наука. За його словами, завжди можна використовувати "точну …

10
Що саме є великими даними?
Мені кілька разів задавали таке питання: Що таке Big-Data? Як студентами, так і моїми родичами, які переживають інформацію про статистику та ML. Я знайшов цей CV-пост . І я відчуваю, що згоден з єдиною відповіддю там. Сторінка Вікіпедії також має деякі коментарі до цього, але я не впевнений, чи дійсно …
44 large-data 


4
Чому статистики кажуть, що несуттєвий результат означає "ви не можете відхилити нуль" на відміну від прийняття нульової гіпотези?
Традиційні статистичні тести, як і тест двох вибірок, зосереджуються на спробі усунути гіпотезу про відсутність різниці між функцією двох незалежних вибірок. Потім ми вибираємо рівень довіри і кажемо, що якщо різниця засобів перевищує рівень 95%, ми можемо відкинути нульову гіпотезу. Якщо ні, ми "не можемо відкинути нульову гіпотезу". Це, мабуть, …

4
Як ядра застосовуються до карт функцій для створення інших карт функцій?
Я намагаюся зрозуміти складову частину згорткових нейронних мереж. Дивлячись на таку цифру: У мене немає проблем з розумінням першого шару згортки, де у нас є 4 різних ядра (розміром ), які ми переплітаємо з вхідним зображенням, щоб отримати 4 карти карт.k × kk×kk \times k Що я не розумію, це …

6
Який ваш улюблений статистичний графік?
Це моє улюблене Цей приклад є в жартівливій формі (заслуга має колишнього мого професора Стівена Гортмейкера), але мене також цікавлять графіки, за якими ви прекрасно фіксуєте та передаєте статистичну інформацію чи метод, а також ваші ідеї про те саме. Один запис на відповідь. Звичайно, це питання відповідає тій же лінії, …

5
Статистика, опублікована в наукових працях
Я читав багато еволюційних / екологічних наукових праць, іноді з конкретною метою бачити, як статистика використовується "в реальному світі" поза підручником. Я зазвичай сприймаю статистику в документах як євангелію і використовую ці документи, щоб допомогти в моєму статистичному навчанні. Зрештою, якщо документ писав багато років і пройшов суворий експертний огляд, …


3
При поєднанні p-значень, чому б не просто усереднювати?
Нещодавно я дізнався про метод Фішера для поєднання p-значень. Це ґрунтується на тому, що p-значення під нулем має рівномірний розподіл, і що який я думаю геній. Але моє запитання - чому йти цим звивистим шляхом? а чому б ні (що не так), просто використовуючи середнє значення p та використовуючи центральну …

1
Обчислення дисперсії Копа Коена (та стандартні помилки)
Статистика Kappa ( ) була введена в 1960 році Коеном [1] для вимірювання згоди між двома рейтинговими. Однак його розбіжність була джерелом суперечностей досить довгий час.κκ\kappa Моє запитання про те, який найкращий дисперсійний розрахунок використовувати для великих зразків. Я схильний вважати, що тестований та перевірений Фліссом [2] був би правильним …

7
Чому хтось використовує байєсівський підхід із "неінформативним" невідповідним замість класичного підходу?
Якщо інтерес полягає лише у оцінці параметрів моделі (точкове та / або інтервальне оцінювання) і попередня інформація не є достовірною, слабкою (я знаю, це трохи розпливчасто, але я намагаюся встановити сценарій, коли вибір вибору перед цим важко) ... Чому хтось вирішить використовувати байєсівський підхід із "неінформативними" неналежними пріорами замість класичного …

5
Оптимізовані реалізації алгоритму Random Forest
Я помітив, що є кілька реалізацій випадкових лісів, таких як ALGLIB, Waffles і деякі подібні R-пакети randomForest. Хтось може сказати мені, чи ці бібліотеки високо оптимізовані? Вони в основному еквівалентні випадковим лісам, як це детально описано в «Елементах статистичного навчання», або було додано багато зайвих хитрощів? Я сподіваюся, що це …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.