Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

3
Рекурентні проти рекурсивні нейронні мережі: що краще для НЛП?
Існують рекурентні нейронні мережі та рекурсивні нейронні мережі. Обидва зазвичай позначаються однаковим абревіатурою: RNN. Згідно з Вікіпедією , періодичні NN насправді є рекурсивними NN, але я не дуже розумію пояснення. Більше того, я не вважаю, що краще (із прикладами чи так) для обробки природних мов. Справа в тому, що, хоча …

6
Як я перевіряю незалежність двох безперервних змінних?
Припустимо , у мене є зразок від спільного розподілу X і Y . Як перевірити гіпотезу про те , що X і Y є незалежними ?( Xн, Yн) , n = 1 .. N(Xn,Yn),n=1..N(X_n,Y_n), n=1..NХXXYYYХXXYYY Ніяких припущень щодо законів спільного або граничного розподілу і Y не припускається (щонайменше, всі спільні …

7
Чи завжди чи-квадрат є однобічним тестом?
Опублікована стаття ( pdf ) містить ці 2 пропозиції: Більше того, неправильне звітування може бути спричинене застосуванням неправильних правил або недостатнім знанням статистичного тесту. Наприклад, загальний df в ANOVA може вважатися помилкою df у звіті про тест , або дослідник може розділити повідомлене значення p тесту або на два, щоб …

5
Чим відрізняється NaN від NA?
Мені хотілося б знати, чому деякі мови, такі як R, мають НА та NaN. Які відмінності чи вони однаково однакові? Чи справді потрібно мати NA?
48 r 

4
Як визначити бімодальний розподіл?
Я розумію, що як тільки ми побудуємо значення у вигляді діаграми, ми можемо визначити бімодальний розподіл, спостерігаючи подвійні піки, але як це знайти програмно? (Я шукаю алгоритм.)

17
Ваш улюблений блог візуалізації даних?
Який найкращий блог щодо візуалізації даних? Я роблю це питання вікі спільноти, оскільки воно є дуже суб'єктивним. Будь ласка, обмежте кожну відповідь одним посиланням. Зверніть увагу на такі критерії пропонованих відповідей: [A] прийнятні відповіді на подібні питання ... потрібно надати адекватні описи та обґрунтоване обґрунтування. Просте гіперпосилання цього не робить. …

7
Вплив перемикання відповіді та пояснювальної змінної в простій лінійній регресії
Скажімо, існує деякий "справжній" взаємозв'язок між yyy і xxx таким, що y=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilon , де aaa і bbb - постійні, а ϵϵ\epsilon - нормальний шум. Коли я випадково генерую дані з цього коду R: x <- 1:100; y <- ax + b + rnorm(length(x))а потім …
48 regression 

4
Яка різниця між нахилом градієнта на основі імпульсу та прискореним градієнтом спуску Нестерова?
Тож спуск на градієнті на основі імпульсу працює так: v = s e l f. m o m e n t u m ∗ m - l r ∗ gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g де - попереднє оновлення ваги, а g - поточний градієнт щодо параметрів p , l r - рівень навчання, а …

2
Інтуїтивно зрозумілі розбіжності між градієнтними підсилюючими деревами (ГБМ) та Адабоостом
Я намагаюся зрозуміти відмінності між GBM та Adaboost. Це те, що я зрозумів поки що: Існують обидва алгоритму підвищення, який вивчає помилки попередньої моделі і, нарешті, складає зважену суму моделей. GBM і Adaboost дуже схожі за винятком функцій втрат. Але все одно мені важко схопити уявлення про відмінності між ними. …
48 boosting  gbm  adaboost 


10
Який хороший алгоритм для оцінки медіани величезного набору даних за один раз?
Я шукаю хороший алгоритм (маючи на увазі мінімальні обчислення, мінімальні вимоги до пам’яті), щоб оцінити медіану набору даних, яка занадто велика для зберігання, так що кожне значення може бути прочитане лише один раз (якщо ви явно не зберігаєте це значення). Немає меж у даних, які можна припустити. Наближення добре, поки …

5
Інтуїція щодо розбіжності Куллбека-Лейблера (KL)
Я дізнався про інтуїцію, що лежить в основі KL Divergence, наскільки функція розподілу моделі відрізняється від теоретичного / правдивого розподілу даних. Джерело Читаю продовжує говорити про те , що інтуїтивне розуміння «відстаней» між цими двома розподілами є корисним, але не слід сприймати буквально , тому що для двох розподілів і …

7
З чого почати зі статистики для досвідченого розробника
Протягом першої половини 2015 року я пройшов курс машинного навчання (Ендрю Нг, ВЕЛИКИЙ курс). А також засвоїли основи машинного навчання (лінійна регресія, логістична регресія, SVM, нейронні мережі ...) Також я був розробником 10 років, тому вивчення нової мови програмування не було б проблемою. Останнім часом я почав вивчати R з …

1
Як застосувати стандартизацію / нормалізацію до поїзного і тестового набору, якщо мета прогнозування?
Чи я транслюю всі свої дані або складки (якщо застосовується резюме) одночасно? напр (allData - mean(allData)) / sd(allData) Чи трансформую поїздку та набір тестів окремо? напр (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Або я перетворюю набір поїздів і використовую обчислення на тестовому наборі? напр (trainData - …

11
Чи можна просту лінійну регресію зробити без використання графіків та лінійної алгебри?
Я повністю сліпий і походжу з фону програмування. Що я намагаюся зробити - це навчитися машинному навчанню, і для цього мені спочатку потрібно дізнатися про лінійну регресію. Усі пояснення в Інтернеті, які я знаходжу з цього приводу, спочатку описують дані. Я шукаю практичне пояснення лінійної регресії, яка не залежить від …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.