Статистика та великі дані

3

Що говорить нам стандартне відхилення при ненормальному розподілі

У нормальному розподілі правило 68-95-99.7 надає стандартному відхиленню багато значення, але що означатиме стандартне відхилення при ненормальному розподілі (мультимодальному або перекошеному)? Чи все-таки всі дані даних підпадають під 3 стандартні відхилення? Чи є у нас такі правила, як 68-95-99,7 для ненормативних розподілів?

40 normal-distribution standard-deviation skewness

6

Правило великого пальця для кількості проб завантаження

Цікаво, чи хтось знає якісь загальні правила щодо кількості зразків завантажувальної програми, які слід використовувати на основі характеристик даних (кількість спостережень тощо) та / або включених змінних?

40 bootstrap inference monte-carlo

3

Ефект придушення в регресії: визначення та візуальне пояснення / змалювання

Що таке змінна супресора при множинній регресії та які можуть бути способи візуального відображення ефекту придушення (його механіки чи свідчення результатів)? Я хотів би запросити всіх, хто має думки, поділитися.

40 multiple-regression data-visualization geometry suppressor

2

Як зробити дійсні висновки з "великих даних"?

"Великі дані" є скрізь у ЗМІ. Всі кажуть, що "великі дані" - це найбільша річ у 2012 році, наприклад, опитування KDNuggets на гарячі теми 2012 року . Однак у мене тут є глибокі занепокоєння. Маючи великі дані, всі, здається, щасливі лише отримати щось . Але чи не ми порушуємо всі …

40 data-mining dataset large-data validation

5

Інтервал довіри для медіани

Я маю знайти 95% ІС на медіані та інших відсотках. Я не знаю, як до цього підійти. В основному я використовую R як інструмент програмування.

40 r confidence-interval median

2

Заходи змінного значення у випадкових лісах

Я граю з випадковими лісами за регресом і мені важко розібратися, що саме означають два важливі заходи, і як їх слід тлумачити. importance()Функція дає два значення для кожної змінної: %IncMSEі IncNodePurity. Чи є прості тлумачення цих двох значень? Бо, IncNodePurityзокрема, це просто сума збільшення RSS після видалення цієї змінної?

40 r machine-learning random-forest importance

3

Як інтерпретувати значення F- та p у ANOVA?

Я новачок у статистиці, і зараз я маю справу з ANOVA. Я провожу тест ANOVA в R за допомогою aov(dependendVar ~ IndependendVar) Я отримую - серед інших - значення F та p-значення. Моя нульова гіпотеза ( ) полягає в тому, що всі групові засоби рівні.Н0H0H_0 Існує багато інформації про те, …

40 r anova interpretation

4

Логістична регресія в R (коефіцієнт коефіцієнта)

Я намагаюся провести логістичний регресійний аналіз R. Я відвідував курси з цього матеріалу за допомогою STATA. Мені дуже важко копіювати функціональні можливості в R. Чи дозріла вона в цій області? Здається, що документації чи керівництва мало. Вигляд коефіцієнта шансів, схоже, вимагає встановлення epicalcта / або epitoolsта / або інших, жоден …

40 r logistic odds-ratio

3

Емпірична залежність між середньою, медіаною та модою

Для унімодального розподілу, який помірно перекошений, ми маємо таку емпіричну залежність між середньою, медіаною та модою: Яким чином були виведені ці відносини?(Середній - режим) ∼ 3(Середній - середній)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Чи побудував Карл Пірсон тисячі цих відносин, перш ніж сформувати цей висновок, …

40 distributions mathematical-statistics descriptive-statistics history

7

Нормалізація даних і стандартизація в нейронних мережах

Я намагаюся передбачити результат складної системи за допомогою нейронних мереж (ANN). Значення результату (залежно) коливаються від 0 до 10000. Різні вхідні змінні мають різні діапазони. Усі змінні мають приблизно нормальний розподіл. Я розглядаю різні варіанти масштабування даних перед тренуванням. Один із варіантів - масштабувати вхідні (незалежні) та вихідні (залежні) змінні …

40 machine-learning neural-networks multidimensional-scaling

3

Різниця між випадковим лісом і надзвичайно рандомізованими деревами

Я зрозумів, що випадкові ліси та надзвичайно рандомізовані дерева відрізняються тим, що розщеплення дерев у Випадковому лісі є детермінованими, тоді як вони є випадковими у випадку надзвичайно рандомізованих дерев (якщо бути точнішим, наступний розкол - найкращий розкол серед випадкових рівномірних розщеплень у вибраних змінних для поточного дерева). Але я не …

40 machine-learning correlation references random-forest

1

Як центрування даних позбавляється від перехоплення в регресії та PCA?

Я постійно читаю про випадки, коли ми центруємо дані (наприклад, з регуляризацією або PCA), щоб видалити перехоплення (про що йдеться в цьому питанні ). Я знаю, що це просто, але мені важко інтуїтивно зрозуміти це. Чи міг би хтось надати інтуїцію чи довідку, яку я можу прочитати?

40 regression pca centering

3

Чи бувають випадки, коли PCA більше підходить, ніж t-SNE?

Хочу побачити, як 7 заходів поведінки на коригування тексту (час, витрачений на коригування тексту, кількість натискань клавіш тощо) стосуються один одного. Заходи співвідносні. Я провів PCA, щоб побачити, як заходи проектуються на PC1 та PC2, що дозволяє уникнути перекриття виконання окремих двосторонніх кореляційних тестів між заходами. Мене запитали, чому б …

39 pca tsne

7

Які найпоширеніші упередження, які люди роблять під час збору чи інтерпретації даних?

Я екон / стат. Мені відомо, що економісти намагалися змінити свої припущення щодо поведінки та раціональності людини, визначивши ситуації, в яких люди не ведуть себе раціонально. Наприклад, припустимо, що я пропоную вам 100% шанс втрати 1000 доларів США або 50% шансу при втраті 2500 доларів , люди вибирають варіант 2500 …

39 bias

4

Байєсівський еквівалент двох зразків t-тесту?

Я не шукаю методу підключення та відтворення, як BEST в R, а скоріше математичного пояснення, які деякі байєсівські методи я можу використати, щоб перевірити різницю середнього значення серед двох зразків.

39 hypothesis-testing bayesian t-test