Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних


7
Чому додається термін регуляризації * до функції витрат (замість множення тощо)?
Щоразу, коли використовується регуляризація, вона часто додається до функції витрат, наприклад у наступній функції витрат. Це має для мене інтуїтивний сенс, оскільки мінімізувати значення Функція витрат означає мінімізацію похибки (лівий член) і мінімізацію величин коефіцієнтів (правий член) одночасно (або принаймні врівноваження двох мінімізацій).J(θ)=12(y−θXT)(y−θXT)T+α∥θ∥22J(θ)=12(y−θXT)(y−θXT)T+α‖θ‖22 J(\theta)=\frac 1 2(y-\theta X^T)(y-\theta X^T)^T+\alpha\|\theta\|_2^2 Моє запитання: …

8
Який хороший ресурс у дизайні столів?
Я бачив різні теоретичні погляди на графіку, наприклад Граматику графіки . Але я не бачив нічого еквівалентного щодо таблиць. За цей час я розробив неформальну модель передового досвіду в дизайні столів. Однак я хотів би мати змогу надати хороші рекомендації студентам. У посібнику зі стилів APA є кілька порад щодо …
51 tables 

4
Чому б не підходити до класифікації через регресію?
Деякий матеріал, який я бачив на машинному навчанні, говорив, що погана ідея підходити до проблеми класифікації шляхом регресії. Але я думаю, що завжди можна зробити безперервну регресію, щоб відповідати даним і скоротити безперервний прогноз, щоб отримати дискретні класифікації. То чому це погана ідея?

6
Як визначити найкращу точку відсічення та її довірчий інтервал за допомогою кривої ROC у R?
У мене є дані тесту, які можна було б використовувати для розрізнення нормальних і пухлинних клітин. Згідно кривої ROC, для цієї мети добре виглядає (площа під кривою 0,9): Мої запитання: Як визначити точку відсічення для цього тесту та його довірчий інтервал, коли показання слід оцінювати як неоднозначні? Який найкращий спосіб …

2
Чим відрізняється фільтр частинок (послідовний Монте-Карло) та фільтр Кальмана?
Фільтр частинок і фільтр Калмана є рекурсивним байесовськими . Я часто стикаюся з фільтрами Калмана у своїй галузі, але дуже рідко бачу використання фільтра для частинок. Коли один би використовувався над іншим?

3
Статистика та причинний висновок?
У своїй доповіді 1984 р. "Статистика і причинно-наслідкові умовиводи" Пол Голланд підняв одне з найбільш фундаментальних питань статистики: Що може сказати статистична модель про причинно-наслідкові зв’язки? Це призвело до його девізу: БЕЗ ПРИЧИНИ НЕ БУДУВАННЯ що підкреслювало важливість обмежень навколо експериментів, які вважають причиною. Ендрю Гельман робить подібний момент : …
51 causality 


3
Чи є у нас проблема "жалісних нагород"?
Я знаю, це може здатися, що це поза темою, але вислухай мене. У режимі переповнення стека і тут ми отримуємо голоси за повідомлення, все це зберігається в табличній формі. Наприклад: пост ідентифікатор виборця ідентифікатор типу голосування дата ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 …

5
Чи випадковий ліс є алгоритмом підвищення?
Коротке визначення стимулювання : Чи може набір слабких учнів створити одного сильного учня? Слабкий учень визначається як класифікатор, який лише трохи корелює з справжньою класифікацією (він може мітити приклади краще, ніж випадкові здогадки). Коротке визначення випадкових лісів : Випадкові ліси вирощують багато дерев класифікації. Щоб класифікувати новий об’єкт із вхідного …


3
Чи може бути використаний випадковий ліс для вибору ознак при множинній лінійній регресії?
Оскільки РФ може обробляти нелінійність, але не може надати коефіцієнтів, чи було б розумно використовувати випадковий ліс для збору найважливіших характеристик, а потім підключити ці функції до множинної лінійної регресійної моделі для отримання їх коефіцієнтів?

8
Як сказати ймовірність відмови, якщо не було відмов?
Мені було цікаво, чи є спосіб сказати ймовірність того, що щось вийде з ладу (продукт), якщо ми маємо 100 000 продуктів на місцях за 1 рік і без відмов? Яка ймовірність того, що один із наступних 10000 проданих продуктів провалиться?

4
Швидка лінійна регресія, міцна для людей, що втратили лих
Я маю справу з лінійними даними з випереджаючими людьми, деякі з яких мають більше 5 стандартних відхилень від розрахункової лінії регресії. Я шукаю техніку лінійної регресії, яка зменшує вплив цих точок. Поки що я зробив, це оцінити лінію регресії з усіма даними, потім відкинути точку даних з дуже великими залишками …

9
Хтось знає хороше програмне забезпечення з відкритим кодом для візуалізації даних із бази даних?
Нещодавно я натрапив на Tableau і спробував візуалізувати дані з бази даних та CSV-файлу. Користувальницький інтерфейс дозволяє користувачеві візуалізувати часові та просторові дані та створювати графіки за мить. Такий інструмент дійсно корисний, оскільки дозволяє графічно спостерігати за даними, не записуючи код. Оскільки є багато джерел даних, з яких мені доводиться …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.