Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Коли використовувати методи регуляризації для регресії?
За яких обставин слід розглянути можливість використання методів регуляризації (регрес хребта, ласо або найменший кут) замість OLS? Якщо це допомагає керувати дискусією, головним моїм інтересом є підвищення точності прогнозування.

7
Зміщення та відхилення в перехресній валідації "відхід-один-проти" до кратного перекладу
Як різні методи перехресної валідації порівнюють з точки зору дисперсії моделі та зміщення? Моє запитання частково мотивоване цією темою: Оптимальна кількість складок у кратній перехресній валідації: чи завжди рейтинг резюме найкращий вибір? KKKК. Відповідь наводить на думку, що моделі, засвоєні з перехресною валідацією «відхід один-один», мають більшу дисперсію, ніж ті, …


14
Чому надійні (і стійкі) статистичні дані не замінили класичні методи?
При вирішенні бізнес-проблем із використанням даних прийнято вважати, що принаймні одне ключове припущення про те, що класична статистика недостатку не є дійсною. Більшість часу ніхто не намагається перевірити ці припущення, щоб ви насправді ніколи не знали. Наприклад, що так багато загальних веб-метрик є "довгохвостими" (відносно звичайного розповсюдження), на сьогоднішній день …

8
Лінія, що найкраще підходить, не виглядає добре. Чому?
Подивіться на цей графік Excel: Лінія «здорового глузду» найкраще підійде як майже вертикальна лінія прямо через центр точок (відредагована рукою червоним кольором). Однак лінійна лінія тренду, визначена Excel, є діагональною чорною лінією. Чому Excel створив щось, що (для людського ока) виявляється невірним? Як я можу створити найкраще підходящу лінію, яка …

2
функція активації tanh проти функції активації сигмоїдів
Функція активації tanh: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Де , сигмоїдна функція, визначається як: .σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} Запитання: Чи дійсно має значення між цими двома функціями активації (tanh vs. sigma)? Яка функція краще в яких випадках?

5
Що означає "рішення закритої форми"?
Я досить часто зустрічаю термін "рішення закритої форми". Що означає рішення закритої форми? Як можна визначити, чи існує розв’язання формальної форми для даної проблеми? Шукаючи в Інтернеті, я знайшов деяку інформацію, але нічого в контексті розробки статистичної чи ймовірнісної моделі / рішення. Я дуже добре розумію регресію, тому, якщо хтось …

2
Модифікована теорема Байєса XKCD: насправді якась розумна?
Я знаю, що це з коміксу, який відомий тим, що скористався певними аналітичними тенденціями , але насправді це виглядає обґрунтовано після кількох хвилин погляду. Чи може хтось окреслити для мене, що робить ця " модифікована теорема Байєса "?

4
Яка різниця між нульовими і надутими моделями?
Цікаво, чи існує чітка різниця між так званими нульово-завищеними розподілами (моделями) та так званими розподілами перешкод-нуль (моделі)? У літературі такі терміни зустрічаються досить часто, і я підозрюю, що вони не однакові, але ви, будь ласка, поясніть мені різницю простими термінами?


3
Чи має значення незбалансований зразок під час логістичної регресії?
Гаразд, тому я думаю, що у мене достатньо гідний зразок, враховуючи велике правило 20: 1: досить великий зразок (N = 374) для загальної кількості 7 змінних прогнозних прогнозів. Моя проблема полягає в наступному: який би набір змінних предиктора я не використовував, класифікації ніколи не стають кращими, ніж специфічність 100% та …

10
Інтуїтивно зрозуміти «дисперсію»
Який найчистіший і найпростіший спосіб пояснити комусь поняття дисперсії? Що це означає інтуїтивно? Якщо потрібно пояснити це своїй дитині, як би це зробити? Це поняття, яке у мене є складним у артикуляції, особливо коли стосуються відмінність від ризику. Я розумію це математично і можу це пояснити і так. Але коли …

6
Чи є приклади, коли достовірні інтервали Байєса, очевидно, поступаються інтервалам довіри часто
Нещодавнє запитання про різницю між достовірністю та достовірними інтервалами змусило мене перечитати статтю Едвіна Джейнеса на цю тему: Jaynes, ET, 1976. «Інтервали довіри проти баєсовських інтервалів», в основах теорії ймовірностей, статистичних виводах та статистичних теоріях науки, В. Л. Харпер та Каліфорнія Хукер (ред.), Д. Райдель, Дордрехт, с. 175; ( pdf …

9
Щодо p-значень, чому 1% та 5%? Чому б не 6% чи 10%?
Щодо p-значення s, мені цікаво, чому % та % здаються золотим стандартом . Чому б не інші значення, наприклад, % чи %?111555"statistical significance"666101010 Чи є в цьому фундаментальна математична причина, чи це просто широко поширена конвенція?

6
Різниця між довірчими інтервалами та інтервалами прогнозування
Для інтервалу прогнозування в лінійній регресії ви все ще використовуєте для створення інтервалу. Ви також використовуєте це для створення довірчого інтервалу . Яка різниця між ними?Е[Y| x0]E^[Y|x]=β0^+β^1xE^[Y|x]=β0^+β^1x\hat{E}[Y|x] = \hat{\beta_0}+\hat{\beta}_{1}xE[Y|x0]E[Y|x0]E[Y|x_0]

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.