Статистика та великі дані

1

Чому ми використовуємо дивергенцію Куллбека-Лейблера, а не перехресну ентропію в цільовій функції t-SNE?

На мій погляд, розбіжність KL від розподілу вибірки до справжнього розподілу - це просто різниця між перехресною ентропією та ентропією. Чому ми використовуємо перехресну ентропію як функцію витрат у багатьох моделях машинного навчання, а використовуємо дивергенцію Kullback-Leibler в t-sne? Чи є різниця в швидкості навчання?

39 kullback-leibler tsne cross-entropy

5

Чи мінімізація помилки у квадраті еквівалентна мінімізації абсолютної помилки? Чому квадратна помилка популярніша за останню?

Коли ми проводимо лінійну регресію щоб помістити купу точок даних , класичний підхід мінімізує помилку у квадраті. Мене давно спантеличено питанням, що мінімізація помилки в квадраті дасть такий самий результат, як мінімізація абсолютної помилки ? Якщо ні, то чому мінімізувати помилку в квадраті краще? Чи є якась інша причина, крім …

39 least-squares error

5

LDA vs word2vec

Я намагаюся зрозуміти, що схоже між латентним розподілом Діріхле і word2vec для обчислення схожості слів. Як я розумію, LDA карти слів вектора ймовірностей латентних тим, в той час як word2vec відображає їх у вектор дійсних чисел (пов'язаних з сингулярного розкладання точкової взаємної інформації см О. Леві, Ю. Голдберг, «Neural Слово …

39 machine-learning self-study natural-language latent-variable word2vec

4

Повторний "надійний" варіант Stata в R

Я намагався повторити результати параметра Stata robustв Р. Я використав rlmкоманду з пакету MASS, а також команду lmrobз пакету "robustbase". В обох випадках результати сильно відрізняються від "надійного" варіанту в Stata. Чи може хтось запропонувати щось у цьому контексті? Ось результати, які я отримав, коли запустив надійний варіант у Stata: …

39 r stata robust robust-standard-error

3

Емпіричне обґрунтування одного стандартного правила помилки при використанні перехресної перевірки

Чи є якісь емпіричні дослідження, що виправдовують використання одного стандартного правила помилки на користь парсингу? Очевидно, це залежить від процесу генерації даних, але все, що аналізує великий масив наборів даних, було б дуже цікавим. "Одне стандартне правило помилки" застосовується під час вибору моделей за допомогою перехресної перевірки (або більш загально …

39 cross-validation model-selection regularization

3

Чи потрібна стандартизація перед відповідним логістичним регресом?

Моє запитання: чи потрібно нам стандартизувати набір даних, щоб переконатися, що всі змінні мають однакову шкалу між [0,1], перш ніж підходити до логістичної регресії. Формула така: хi- хв ( х)i)макс ( х)i) - хв ( хi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} У моєму наборі даних є дві змінні, вони описують одне і те ж для …

39 regression logistic standardization

1

Ранг в R - у порядку зменшення [закрито]

Я шукаю дані про ранжування, що в деяких випадках більша величина має ранг 1. Я відносно новий для R, але я не бачу, як я можу налаштувати це налаштування у функції ранжування. x <- c(23,45,12,67,34,89) rank(x) генерує: [1] 2 4 1 5 3 6 коли я хочу, щоб це було: …

39 r

5

Негативні значення для AICc (виправлений інформаційний критерій Akaike)

Я порахував AIC та AICc для порівняння двох загальних лінійних змішаних моделей; AIC є позитивними, коли модель 1 має нижчий AIC, ніж модель 2. Однак значення AICc є і негативними (модель 1 все ще <модель 2). Чи правильно використовувати та порівнювати негативні значення AICc?

39 mixed-model model-selection aic

11

Чи є якась хороша науково-популярна книга про статистику або машинне навчання?

Існує купа справді хороших науково-популярних книг, які стосуються реальної науки, а також історії та причини, що стоять за сучасними теоріями, залишаючись надзвичайно приємними для читання. Наприклад, "Хаос" Джеймса Гліка (хаос, фрактали, нелінійність), "Коротка історія часу" Стівена Хокінга (фізика, походження Всесвіту, час, чорні діри) або "Егоїстичний ген" Річарда Докінса (еволюція та …

39 references communication

1

Яка дисперсія зваженої суміші двох гаусів?

Скажіть, у мене є два нормальних розподілу A і B зі значеннями і та дисперсіями та . Я хочу взяти зважену суміш цих двох розподілів, використовуючи ваги і де і . Я знаю, що середнє значення цієї суміші було б .μ B σ A σ B p q 0 ≤ …

39 normal-distribution mixture

5

Яка різниця між сукупністю та вибіркою?

Яка різниця між сукупністю та вибіркою? Які загальні змінні та статистичні дані використовуються для кожної з них, і як вони співвідносяться між собою?

38 standard-deviation variance sample population

6

Чому я отримую дерево рішень на 100% точності?

Я отримую 100% точність для свого дерева рішень. Що я роблю неправильно? Це мій код: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = …

38 machine-learning python cart accuracy

3

Чому Дерева рішень не є обчислювально дорогими?

У Вступі до статистичного навчання з додатками на R автори пишуть, що встановлення дерева рішень дуже швидко, але це не має для мене сенсу. Алгоритм повинен пройти кожну функцію і всіляко розділити її, щоб знайти оптимальний розкол. Для числових ознак із спостереженнями це може призвести до розділів для кожної функції.nннnннn …

38 cart

2

Коли упереджений оцінювач кращий перед неупередженим?

Очевидно, що багато разів віддають перевагу неупередженому оцінювачу. Але чи існують обставини, за яких ми могли б насправді віддавати перевагу упередженому оцінювачу перед неупередженим?

38 bias unbiased-estimator estimators

4

Для побудови графіку з R я повинен вивчити ggplot2 або ggvis?

Для побудови графіку з R я повинен вивчити ggplot2 або ggvis? Я не обов'язково хочу вчитися обом, якщо хтось із них вищий у будь-якому відношенні. Чому R-спільнота продовжує створювати нові пакети з функціями, що перекриваються? Після введення блогу не згадує ні слова , чому ggvis створюється з урахуванням того, що …

38 r data-visualization software