Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Навіщо використовувати регуляризацію при поліномічній регресії замість зниження ступеня?
Наприклад, при регресії, наприклад, обирати два гіперпараметри - це частота функції (наприклад, найбільший показник многочлена) та величина регуляризації. Що мене бентежить, це чому просто не вибрати функцію низької ємності, а потім ігнорувати будь-яку регуляризацію? Таким чином, це не буде надмірно. Якщо у мене є функція високої ємності разом з регуляризацією, …

5
Чому існують два написання "гетероскедастичного" або "гетероскедастичного"?
Я часто бачу як написання "гетероскедастичний" і "гетероскедастичний", так само і "гомоскедастичний" і "гомоскедастичний". Здається, немає різниці в значенні між варіантами "с" і "k", просто орфографічна різниця, пов'язана з грецькою етимологією слова. Які джерела двох чітко написаних? Чи є одне використання більш поширеним, ніж інше, і чи відображає вони різницю …

1
Виявлення аномалії зв'язку в тимчасовій мережі
Я натрапив на цей документ, який використовує виявлення аномалії посилань для прогнозування актуальних тем, і мені здалося, що це неймовірно інтригує. Документ - "Виявлення нових тем у соціальних потоках за допомогою виявлення аномалії посилань" . Я б хотів тиражувати це на інший набір даних, але я недостатньо знайомий з методами, …

3
Чи можна змінити гіпотезу, щоб відповідати спостережуваним даним (ака риболовецька експедиція) та уникнути збільшення помилок типу I?
Добре відомо, що дослідникам слід витрачати час на спостереження та дослідження існуючих даних та досліджень, перш ніж формувати гіпотезу, а потім збирати дані для перевірки цієї гіпотези (маючи на увазі тестування на значення нульової гіпотези). Багато базових книг статистики попереджають, що гіпотези повинні формуватися апріорно і не можуть бути змінені …

5
Вказівки AIC при виборі моделі
Я, як правило, використовую BIC, оскільки я розумію, що він оцінює парність сильніше, ніж AIC. Однак я вирішив зараз використовувати більш комплексний підхід і хотів би також використовувати AIC. Я знаю, що Raftery (1995) представив приємні вказівки щодо відмінностей BIC: 0-2 є слабким, 2-4 - позитивним доказом того, що одна …

2
Логістична регресія: Бернуллі проти біноміальних змін реакції
Я хочу виконати логістичну регресію з наступною біноміальною відповіддю та з та як мої прогнози. X1X1X_1X2X2X_2 Я можу представити ті самі дані, що й відповіді Бернуллі, у наступному форматі. Виходи логістичної регресії для цих двох наборів даних здебільшого однакові. Залишки відхилення та АПК різні. (Різниця між нульовим відхиленням і залишковим …


3
Набори даних, побудовані для цілей, подібних до квартету Anscombe
Я щойно натрапив на квартет Anscombe (чотири набори даних, які мають майже нерозрізнену описову статистику, але виглядають зовсім інакше, якщо побудовано на графіці), і мені цікаво, чи є інші більш-менш відомі набори даних, які були створені для демонстрації важливості певних аспектів статистичних аналізів.


5
Чому політичні опитування мають такі великі вибіркові розміри?
Коли я дивлюсь новини, я помітив, що опитування Галлапа за такими речами, як президентські вибори мають [я припускаю випадкові] розміри вибірки, що перевищує 1000. З того, що я пам’ятаю зі статистики коледжу, було те, що розмір вибірки 30 був «значно великим» зразком. Здавалося, що розмір вибірки понад 30 є безглуздим …

1
Порівняння двох моделей за допомогою функції anova () в R
З документації для anova(): Коли дається послідовність об'єктів, 'anova' перевіряє моделі один проти одного у визначеному порядку ... Що означає тестування моделей одна проти одної? І чому порядок має значення? Ось приклад з підручника GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, …
32 r  anova 

3
Логістична регресія ядра проти SVM
Як відомо всім, SVM може використовувати метод ядра для проектування точок даних у більш високих просторах, щоб точки могли бути розділені лінійним простором. Але ми також можемо використовувати логістичну регресію для вибору цієї межі в просторі ядра, тож які переваги SVM? Оскільки SVM використовує розріджену модель, в якій лише ті …
32 svm 

3
Чому інверсія коваріаційної матриці дає часткові кореляції між випадковими змінними?
Я чув, що часткові кореляції між випадковими змінними можна знайти, перевернувши матрицю коваріації та взявши відповідні комірки з такої результуючої матриці точності (цей факт згадується в http://en.wikipedia.org/wiki/Partial_correlation , але без доказів) . Чому це так?


6
Якою була б надійна байєсівська модель для оцінки масштабу приблизно нормального розподілу?
Існує ряд надійних оцінювачів масштабу . Помітним прикладом є середнє абсолютне відхилення, яке відноситься до стандартного відхилення як . У байєсівській системі існує ряд способів чітко оцінити розташування приблизно нормального розподілу (скажімо, нормального зараження сторонніми людьми), наприклад, можна припустити, що дані поширюються як при розподілі, так і по розподілу Лапласа. …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.