Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

3
Що говорить нам стандартне відхилення при ненормальному розподілі
У нормальному розподілі правило 68-95-99.7 надає стандартному відхиленню багато значення, але що означатиме стандартне відхилення при ненормальному розподілі (мультимодальному або перекошеному)? Чи все-таки всі дані даних підпадають під 3 стандартні відхилення? Чи є у нас такі правила, як 68-95-99,7 для ненормативних розподілів?

6
Правило великого пальця для кількості проб завантаження
Цікаво, чи хтось знає якісь загальні правила щодо кількості зразків завантажувальної програми, які слід використовувати на основі характеристик даних (кількість спостережень тощо) та / або включених змінних?

3
Ефект придушення в регресії: визначення та візуальне пояснення / змалювання
Що таке змінна супресора при множинній регресії та які можуть бути способи візуального відображення ефекту придушення (його механіки чи свідчення результатів)? Я хотів би запросити всіх, хто має думки, поділитися.

2
Як зробити дійсні висновки з "великих даних"?
"Великі дані" є скрізь у ЗМІ. Всі кажуть, що "великі дані" - це найбільша річ у 2012 році, наприклад, опитування KDNuggets на гарячі теми 2012 року . Однак у мене тут є глибокі занепокоєння. Маючи великі дані, всі, здається, щасливі лише отримати щось . Але чи не ми порушуємо всі …


2
Заходи змінного значення у випадкових лісах
Я граю з випадковими лісами за регресом і мені важко розібратися, що саме означають два важливі заходи, і як їх слід тлумачити. importance()Функція дає два значення для кожної змінної: %IncMSEі IncNodePurity. Чи є прості тлумачення цих двох значень? Бо, IncNodePurityзокрема, це просто сума збільшення RSS після видалення цієї змінної?

3
Як інтерпретувати значення F- та p у ANOVA?
Я новачок у статистиці, і зараз я маю справу з ANOVA. Я провожу тест ANOVA в R за допомогою aov(dependendVar ~ IndependendVar) Я отримую - серед інших - значення F та p-значення. Моя нульова гіпотеза ( ) полягає в тому, що всі групові засоби рівні.Н0H0H_0 Існує багато інформації про те, …

4
Логістична регресія в R (коефіцієнт коефіцієнта)
Я намагаюся провести логістичний регресійний аналіз R. Я відвідував курси з цього матеріалу за допомогою STATA. Мені дуже важко копіювати функціональні можливості в R. Чи дозріла вона в цій області? Здається, що документації чи керівництва мало. Вигляд коефіцієнта шансів, схоже, вимагає встановлення epicalcта / або epitoolsта / або інших, жоден …
40 r  logistic  odds-ratio 

3
Емпірична залежність між середньою, медіаною та модою
Для унімодального розподілу, який помірно перекошений, ми маємо таку емпіричну залежність між середньою, медіаною та модою: Яким чином були виведені ці відносини?(Середній - режим) ∼ 3(Середній - середній)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Чи побудував Карл Пірсон тисячі цих відносин, перш ніж сформувати цей висновок, …

7
Нормалізація даних і стандартизація в нейронних мережах
Я намагаюся передбачити результат складної системи за допомогою нейронних мереж (ANN). Значення результату (залежно) коливаються від 0 до 10000. Різні вхідні змінні мають різні діапазони. Усі змінні мають приблизно нормальний розподіл. Я розглядаю різні варіанти масштабування даних перед тренуванням. Один із варіантів - масштабувати вхідні (незалежні) та вихідні (залежні) змінні …

3
Різниця між випадковим лісом і надзвичайно рандомізованими деревами
Я зрозумів, що випадкові ліси та надзвичайно рандомізовані дерева відрізняються тим, що розщеплення дерев у Випадковому лісі є детермінованими, тоді як вони є випадковими у випадку надзвичайно рандомізованих дерев (якщо бути точнішим, наступний розкол - найкращий розкол серед випадкових рівномірних розщеплень у вибраних змінних для поточного дерева). Але я не …

1
Як центрування даних позбавляється від перехоплення в регресії та PCA?
Я постійно читаю про випадки, коли ми центруємо дані (наприклад, з регуляризацією або PCA), щоб видалити перехоплення (про що йдеться в цьому питанні ). Я знаю, що це просто, але мені важко інтуїтивно зрозуміти це. Чи міг би хтось надати інтуїцію чи довідку, яку я можу прочитати?

3
Чи бувають випадки, коли PCA більше підходить, ніж t-SNE?
Хочу побачити, як 7 заходів поведінки на коригування тексту (час, витрачений на коригування тексту, кількість натискань клавіш тощо) стосуються один одного. Заходи співвідносні. Я провів PCA, щоб побачити, як заходи проектуються на PC1 та PC2, що дозволяє уникнути перекриття виконання окремих двосторонніх кореляційних тестів між заходами. Мене запитали, чому б …
39 pca  tsne 

7
Які найпоширеніші упередження, які люди роблять під час збору чи інтерпретації даних?
Я екон / стат. Мені відомо, що економісти намагалися змінити свої припущення щодо поведінки та раціональності людини, визначивши ситуації, в яких люди не ведуть себе раціонально. Наприклад, припустимо, що я пропоную вам 100% шанс втрати 1000 доларів США або 50% шансу при втраті 2500 доларів , люди вибирають варіант 2500 …
39 bias 

4
Байєсівський еквівалент двох зразків t-тесту?
Я не шукаю методу підключення та відтворення, як BEST в R, а скоріше математичного пояснення, які деякі байєсівські методи я можу використати, щоб перевірити різницю середнього значення серед двох зразків.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.