Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

1
Чому ми використовуємо дивергенцію Куллбека-Лейблера, а не перехресну ентропію в цільовій функції t-SNE?
На мій погляд, розбіжність KL від розподілу вибірки до справжнього розподілу - це просто різниця між перехресною ентропією та ентропією. Чому ми використовуємо перехресну ентропію як функцію витрат у багатьох моделях машинного навчання, а використовуємо дивергенцію Kullback-Leibler в t-sne? Чи є різниця в швидкості навчання?

5
Чи мінімізація помилки у квадраті еквівалентна мінімізації абсолютної помилки? Чому квадратна помилка популярніша за останню?
Коли ми проводимо лінійну регресію щоб помістити купу точок даних , класичний підхід мінімізує помилку у квадраті. Мене давно спантеличено питанням, що мінімізація помилки в квадраті дасть такий самий результат, як мінімізація абсолютної помилки ? Якщо ні, то чому мінімізувати помилку в квадраті краще? Чи є якась інша причина, крім …

5
LDA vs word2vec
Я намагаюся зрозуміти, що схоже між латентним розподілом Діріхле і word2vec для обчислення схожості слів. Як я розумію, LDA карти слів вектора ймовірностей латентних тим, в той час як word2vec відображає їх у вектор дійсних чисел (пов'язаних з сингулярного розкладання точкової взаємної інформації см О. Леві, Ю. Голдберг, «Neural Слово …

4
Повторний "надійний" варіант Stata в R
Я намагався повторити результати параметра Stata robustв Р. Я використав rlmкоманду з пакету MASS, а також команду lmrobз пакету "robustbase". В обох випадках результати сильно відрізняються від "надійного" варіанту в Stata. Чи може хтось запропонувати щось у цьому контексті? Ось результати, які я отримав, коли запустив надійний варіант у Stata: …

3
Емпіричне обґрунтування одного стандартного правила помилки при використанні перехресної перевірки
Чи є якісь емпіричні дослідження, що виправдовують використання одного стандартного правила помилки на користь парсингу? Очевидно, це залежить від процесу генерації даних, але все, що аналізує великий масив наборів даних, було б дуже цікавим. "Одне стандартне правило помилки" застосовується під час вибору моделей за допомогою перехресної перевірки (або більш загально …

3
Чи потрібна стандартизація перед відповідним логістичним регресом?
Моє запитання: чи потрібно нам стандартизувати набір даних, щоб переконатися, що всі змінні мають однакову шкалу між [0,1], перш ніж підходити до логістичної регресії. Формула така: хi- хв ( х)i)макс ( х)i) - хв ( хi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} У моєму наборі даних є дві змінні, вони описують одне і те ж для …

1
Ранг в R - у порядку зменшення [закрито]
Я шукаю дані про ранжування, що в деяких випадках більша величина має ранг 1. Я відносно новий для R, але я не бачу, як я можу налаштувати це налаштування у функції ранжування. x <- c(23,45,12,67,34,89) rank(x) генерує: [1] 2 4 1 5 3 6 коли я хочу, щоб це було: …
39 r 

5
Негативні значення для AICc (виправлений інформаційний критерій Akaike)
Я порахував AIC та AICc для порівняння двох загальних лінійних змішаних моделей; AIC є позитивними, коли модель 1 має нижчий AIC, ніж модель 2. Однак значення AICc є і негативними (модель 1 все ще <модель 2). Чи правильно використовувати та порівнювати негативні значення AICc?

11
Чи є якась хороша науково-популярна книга про статистику або машинне навчання?
Існує купа справді хороших науково-популярних книг, які стосуються реальної науки, а також історії та причини, що стоять за сучасними теоріями, залишаючись надзвичайно приємними для читання. Наприклад, "Хаос" Джеймса Гліка (хаос, фрактали, нелінійність), "Коротка історія часу" Стівена Хокінга (фізика, походження Всесвіту, час, чорні діри) або "Егоїстичний ген" Річарда Докінса (еволюція та …

1
Яка дисперсія зваженої суміші двох гаусів?
Скажіть, у мене є два нормальних розподілу A і B зі значеннями і та дисперсіями та . Я хочу взяти зважену суміш цих двох розподілів, використовуючи ваги і де і . Я знаю, що середнє значення цієї суміші було б .μ B σ A σ B p q 0 ≤ …


6
Чому я отримую дерево рішень на 100% точності?
Я отримую 100% точність для свого дерева рішень. Що я роблю неправильно? Це мій код: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = …

3
Чому Дерева рішень не є обчислювально дорогими?
У Вступі до статистичного навчання з додатками на R автори пишуть, що встановлення дерева рішень дуже швидко, але це не має для мене сенсу. Алгоритм повинен пройти кожну функцію і всіляко розділити її, щоб знайти оптимальний розкол. Для числових ознак із спостереженнями це може призвести до розділів для кожної функції.nннnннn …
38 cart 


4
Для побудови графіку з R я повинен вивчити ggplot2 або ggvis?
Для побудови графіку з R я повинен вивчити ggplot2 або ggvis? Я не обов'язково хочу вчитися обом, якщо хтось із них вищий у будь-якому відношенні. Чому R-спільнота продовжує створювати нові пакети з функціями, що перекриваються? Після введення блогу не згадує ні слова , чому ggvis створюється з урахуванням того, що …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.