Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Регресія Пуассона для оцінки відносного ризику для бінарних результатів
Стислий підсумок Чому частіше застосовується логістична регресія (з коефіцієнтом шансів) у когортних дослідженнях з бінарними результатами, на відміну від регресії Пуассона (з відносними ризиками)? Фон На моєму досвіді курси статистики та епідеміології бакалавратів та випускників, як показує мій досвід, зазвичай вчать, що логістичну регресію слід використовувати для моделювання даних з …

3
Яка об’єктивна функція PCA?
Аналіз основних компонентів може використовувати матричне розкладання, але це лише інструмент для того, щоб потрапити. Як би ви знайшли основні компоненти без використання матричної алгебри? Що таке об'єктивна функція (мета) та які обмеження?
42 pca 


5
Невже машинне навчання менш корисне для розуміння причинності, таким чином, менш цікавим для суспільних наук?
Я розумію різницю між машинним навчанням / іншими методами статистичного прогнозування та типом статистики, яку використовують вчені-соціологи (наприклад, економісти) в тому, що економісти, схоже, дуже зацікавлені в розумінні ефекту однієї чи кількох змінних - і з точки зору величини та виявлення, чи є зв’язок причинним. Для цього ви закінчуєте експериментальні …

5
Яке значення коефіцієнтів логістичної регресії?
Зараз я читаю документ про місце голосування та перевагу голосування на виборах 2000 та 2004 років. У ній є діаграма, яка відображає коефіцієнти логістичної регресії. З курсів років назад і трохи читаючи, Я розумію, що логістична регресія є способом опису взаємозв'язку між декількома незалежними змінними та бінарною змінною відповіді. Що …

8
Як зробити виявлення спільноти у зваженій соціальній мережі / графіку?
Мені цікаво, чи хтось міг би запропонувати, які є хорошими вихідними пунктами, коли справа стосується виявлення спільноти / розподілу / кластеризації графіка на графіку, який має зважені , непрямі краї. Графік, про який йде мова, має приблизно 3 мільйони ребер, і кожен край виражає ступінь подібності між двома вершинами, які …

5
Як зробити часовий ряд нерухомим?
Окрім прийняття відмінностей, які ще методики нестаціонарного часового ряду є нерухомими? Як правило, серія називається " інтегрованою до порядку p ", якщо її можна зробити нерухомою через оператор відставання .( 1 - L )ПХт(1−L)PXt(1-L)^P X_t

8
Як змусити людей краще піклуватися про дані?
На моєму робочому місці працюють співробітники з дуже широкого спектру дисциплін, тому ми генеруємо дані в безлічі різних форм. Отже, кожна команда розробила власну систему зберігання даних. Деякі використовують бази даних Access або SQL; деякі команди (на моє жах) майже повністю залежать від електронних таблиць Excel. Часто формати даних змінюються …



6
Чому саме вибірка?
Припустимо, я хочу вивчити класифікатор, який передбачає, чи електронний лист є спамом. І припустимо, що лише 1% електронних листів - це спам. Найпростіше зробити це - дізнатися тривіальний класифікатор, який говорить, що жоден з електронних листів не є спамом. Цей класифікатор дав би нам 99% точності, але він не дізнався …


2
Різні способи запису термінів взаємодії в lm?
У мене є питання про те, який найкращий спосіб вказати взаємодію в регресійній моделі. Розглянемо наступні дані: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, …

5
Кореляції між неперервними та категоричними (номінальними) змінними
Я хотів би знайти співвідношення між суцільною (залежною змінною) та категоріальною (номінальною: стать, незалежна змінна) змінною. Постійні дані зазвичай не поширюються. Раніше я обчислював це за допомогою Spearman . Однак мені сказали, що це неправильно.ρρ\rho Під час пошуку в Інтернеті я виявив, що boxplot може дати уявлення про те, наскільки …

5
Як можна інтерпретувати SVM з вагами?
Я намагаюся інтерпретувати змінні ваги, задані встановленням лінійного SVM. (Я використовую scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Я не можу знайти нічого в документації, яка б конкретно вказувала, як обчислюються чи тлумачаться ці ваги. Чи має ознака ваги щось спільне з класом?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.