Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

2
Що саме є альфа в дистрибуті Діріхле?
Я досить новачок у байєсівській статистиці, і я натрапив на виправлену кореляційну міру, SparCC , яка використовує процес Діріхле у підставці його алгоритму. Я намагався пройти алгоритм поетапно, щоб зрозуміти, що відбувається, але я не впевнений, що саме робить alphaвекторний параметр при розподілі Діріхле і як він нормалізує alphaвекторний параметр? …

5
Чи є теорія ймовірності вивчення негативних функцій, які інтегруються / сумуються до одиниці?
Це, мабуть, нерозумне питання, але чи теорія ймовірності - це вивчення функцій, які інтегруються / збиваються в одну? EDIT. Я забув негативність. Тож чи є теорія ймовірності вивчення негативних функцій, які інтегруються / сумуються до однієї?

6
Як вибрати між ROC AUC та F1 балом?
Нещодавно я завершив змагання з Kaggle, в якому оцінку roc auc використовували згідно вимог змагань. Перед цим проектом я зазвичай використовував показник f1 як показник для вимірювання продуктивності моделі. Ідучи вперед, мені цікаво, як мені вибрати між цими двома показниками? Коли використовувати які та які їх плюси і мінуси? До …

3
R caret та NAs
Я дуже люблю піклуватися про його здатність до налаштування параметрів та рівномірний інтерфейс, але я помітив, що він завжди потребує повних наборів даних (тобто без NA), навіть якщо застосована "гола" модель дозволяє НС. Це дуже турбує, що стосовно цього слід застосовувати трудові методи імпутації, які в першу чергу не потрібні. …

1
Яка норма помилки реконструкції мінімізована матрицею наближення низького рангу, отриманою за допомогою PCA?
З огляду на наближення PCA (або SVD) з матриці XXX з матрицею X , ми знаємо , що X є найкращим нізкоразрядним наближенням X .X^X^\hat XX^X^\hat XXXX Це відповідно до індукованої норми ∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2 (тобто найбільшої норми власного значення) або відповідно до норми Frobenius ∥⋅∥F∥⋅∥F\parallel \cdot \parallel_F ?

1
Співвідношення між варіаційними Байесом та ЕМ
Я десь прочитав, що метод Варіаційного Байєса - це узагальнення алгоритму ЕМ. Дійсно, ітеративні частини алгоритмів дуже схожі. Щоб перевірити, чи алгоритм ЕМ є спеціальною версією Variational Bayes, я спробував наступне: YYY - це дані, - це збір прихованих змінних, а - параметри. У варіаційних Бейсах ми можемо зробити наближення …

7
Тестування гіпотез розподілу - який сенс робити це, якщо ви не можете “прийняти” свою нульову гіпотезу?
Різні тести гіпотез, такі як тест GOF , Колмогоров-Смирнов, Андерсон-Дарлінг тощо, дотримуються цього основного формату:χ2χ2\chi^{2} H0H0H_0 : Дані відповідають наведеному розподілу. H1H1H_1: The data do not follow the given distribution. Typically, one assesses the claim that some given data follows some given distribution, and if one rejects H0H0H_0, the data …

5
Інтуїтивне пояснення конвергенції у розподілі та конвергенції ймовірності
Яка інтуїтивно зрозуміла різниця між випадковою змінною, що сходиться у ймовірності, порівняно з випадковою змінною, що сходить у розподілі? Я прочитав численні визначення та математичні рівняння, але це не дуже допомагає. (Будь ласка, майте на увазі, я студент, який вивчає економетрику.) Як випадкова змінна може сходитися до одного числа, а …

2
Чому LDA, що вивчає Scitit Python, не працює належним чином і як він обчислює LDA за допомогою SVD?
Я використовував лінійний дискримінантний аналіз (LDA) з scikit-learnбібліотеки машинного навчання (Python) для зменшення розмірності і трохи цікавився результатами. Мені зараз цікаво, чим scikit-learnзаймається LDA , щоб результати виглядали інакше, ніж, наприклад, ручний підхід або LDA, зроблені в Р. Було б чудово, якби хтось міг дати мені тут деяку інформацію. Що …

1
One-vs-All і One-vs-One у svm?
Яка різниця між класифікатором SVM один-проти-всіх? Чи означає один класифікатор один проти всіх класифікацію всіх типів / категорій нового зображення, а один проти одного означає, що кожен тип / категорія нового зображення класифікується з різним класифікатором (кожна категорія обробляється спеціальним класифікатором)? Наприклад, якщо нове зображення слід класифікувати на коло, прямокутник, …

2
Який розподіл
Який розподіл коефіцієнта визначення, або R у квадраті, , в лінійній одновимірній множинній регресії за нульовою гіпотезою ?R2R2R^2H0:β=0Н0: β= 0H_0:\beta=0 Як це залежить від кількості предикторів та кількості вибірок ? Чи існує вираз закритої форми для режиму цього розподілу?kкkn>kn > kn>k Зокрема, у мене є відчуття, що для простої регресії …

5
Чому ці твердження в середньому не випливають із 95% ІС?
Я читав доповідь Hoekstra et al за 2014 рік на тему "Надійна неправильна інтерпретація довірчих інтервалів", яку я завантажив із веб-сайту Wagenmakers . На передостанній сторінці з’являється наступне зображення. На думку авторів, False - правильна відповідь на всі ці твердження. Я не дуже впевнений, чому твердження неправдиві, і наскільки я …


2
Оцініть квантил значення у векторі
У мене є набір реальних чисел. Мені потрібно оцінити квантил нового числа. Чи є чистий спосіб зробити це в R? загалом? Я сподіваюся, що це не ультратривіально ;-) Дуже вдячний за вашу відповідь. ПК
26 r 

2
Три варіанти дискримінаційного аналізу: відмінності та способи їх використання
Чи може хтось пояснити відмінності та навести конкретні приклади, як використовувати ці три аналізи? LDA - лінійний дискримінантний аналіз FDA - дискримінантний аналіз Фішера QDA - Квадратичний дискримінантний аналіз Я шукав всюди, але не міг знайти реальних прикладів з реальними значеннями, щоб побачити, як використовуються ці аналізи та обчислюють дані, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.