Статистика та великі дані

4

Чи можна розглядати завантажувальний засіб як «ліки» для невеликого розміру зразка?

Це питання було викликане чимось, що я читав у цьому підручнику зі статистики випускників, а також (незалежно), почутий під час цієї презентації на статистичному семінарі. В обох випадках заява проходила по лінії "оскільки розмір вибірки досить малий, ми вирішили виконати оцінку за допомогою завантажувальної програми замість (або поряд з цим …

71 bootstrap small-sample

8

Створити випадкову змінну з визначеною кореляцією до існуючої змінної

Для дослідження моделювання я повинен генерувати випадкові змінні , які показують prefined (населення) кореляцію з існуючою YYY . Я подивився в Rпакети copulaі CDVineякі можуть виробляти випадкові багатовимірні розподілу із заданою структурою залежностей. Однак неможливо зафіксувати одну із отриманих змінних до існуючої змінної. Будь-які ідеї та посилання на існуючі функції …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

4

Як уявити, що робить канонічний кореляційний аналіз (порівняно з тим, що робить аналіз основних компонентів)?

Канонічний кореляційний аналіз (CCA) - це техніка, що стосується аналізу основних компонентів (PCA). Хоча легко навчити PCA або лінійну регресію за допомогою діаграми розкидання (див. Кілька тисяч прикладів пошуку зображень google), я не бачив подібного інтуїтивного двовимірного прикладу для CCA. Як наочно пояснити, що робить лінійна CCA?

70 regression data-visualization pca canonical-correlation geometry

12

Які є найпоширеніші помилки щодо лінійної регресії?

Мені цікаво, для тих із вас, хто має великий досвід співпраці з іншими дослідниками, які найпоширеніші помилки щодо лінійної регресії, з якими ви стикаєтесь? Я думаю, може бути корисною вправою, щоб заздалегідь подумати про поширені помилки, щоб це зробити Передбачте помилки людей і зможете успішно сформулювати, чому деякі неправильні уявлення …

70 regression multiple-regression

5

Використання k-кратної перехресної перевірки для вибору моделі часових рядів

Запитання: Я хочу бути впевненим у чомусь, чи просто використання перехресної валідації k із кратною послідовністю із часовими рядами чи це потрібно звернути особливу увагу, перш ніж її використовувати? Передумови: я моделюю часовий ряд на 6 років (із напівмарковним ланцюгом) із зразком даних кожні 5 хв. Для порівняння декількох моделей …

70 time-series modeling cross-validation

9

Які основні філософські, методологічні та термінологічні відмінності між економетрикою та іншими статистичними сферами?

Економетрія суттєво збігається з традиційною статистикою, але часто використовує власний жаргон з різних тем ("ідентифікація", "екзогенна" тощо). Я одного разу почув професора прикладної статистики в іншій галузі коментаря, що часто термінологія інша, але поняття однакові. Однак він також має свої методи та філософські відмінності (на думку спадає відомий твір Гекмана). …

70 econometrics terminology

10

Чи потрібний мінімальний розмір вибірки, щоб t-тест був дійсним?

Зараз я працюю над документом про квазіекспериментальні дослідження. Я маю розмір вибірки лише 15 через низьку кількість населення в обраній області, і лише 15 відповідають моїм критеріям. Чи 15 мінімальний розмір вибірки для обчислення для t-тесту та F-тесту? Якщо так, то де я можу отримати статтю чи книгу, щоб підтримати …

70 t-test sample-size assumptions power

9

Чому можна отримати значну F статистику (p <.001), але несуттєві регресорні t-тести?

Чому в декількох лінійних регресіях, чому можна мати дуже значну статистику F (p <.001), але мати дуже високі значення p у всіх тестах регресора? У моїй моделі є 10 регресорів. Один має р-значення 0,1, а решта вище 0,9 Для вирішення цієї проблеми див. Подальше запитання .

70 hypothesis-testing regression t-test multicollinearity

15

Практичні думки щодо пояснювального та прогнозного моделювання

Ще в квітні я взяв участь у бесіді на семінарі семінарів групи статистики відділу математики UMD під назвою "Пояснити чи передбачити?". З доповіддю виступив професор Галіт Шмулі, який викладає в Смітській бізнес-школі UMD. Її розмова ґрунтувалася на дослідженні, яке вона зробила для статті під назвою "Прогнозне проти пояснювального моделювання в …

70 predictive-models

2

Як працює шар "Вбудовування" Кераса?

Потрібно зрозуміти, як працює шар «Вбудовування» у бібліотеці Кераса. Я виконую наступний код у Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) що дає наступний вихід input_array = [[4 …

70 text-mining word-embeddings keras

3

Чому дослідники нейронної мережі піклуються про епохи?

Епоха стохастичного градієнтного спуску визначається як один прохід через дані. Для кожної міні-партії SGD малюється зразків, обчислюється градієнт і параметри оновлюються. У налаштуваннях епохи проби беруть без заміни.kkk Але це здається непотрібним. Чому б не намалювати кожну міні-партію SGD так, як випадково витягується з усього набору даних при кожній ітерації? …

69 neural-networks deep-learning gradient-descent

9

Який алгоритм слід використовувати для виявлення аномалій у часових рядах?

Фон Я працюю в Центрі мережевих операцій, ми відстежуємо комп'ютерні системи та їх роботу. Однією з ключових показників для моніторингу є кількість відвідувачів / клієнтів, які зараз підключені до наших серверів. Щоб зробити його видимим, ми (команда Ops) збираємо такі показники, як дані часових рядів та малюємо графіки. Графіт дозволяє …

69 machine-learning time-series python computational-statistics anomaly-detection

4

Чим відрізняється коефіцієнт кореляції від нахилу регресії?

Я б очікував, що коефіцієнт кореляції буде таким же, як і нахил регресії (бета), однак лише порівнявши два, вони різні. Чим вони відрізняються - яку різну інформацію вони дають?

69 regression correlation

1

Як розділити набір даних для перехресної перевірки, кривої навчання та остаточного оцінювання?

Яка відповідна стратегія розподілу набору даних? Я прошу зворотний зв'язок на наступний підхід ( а нема на окремих параметрів , таких як test_sizeабо n_iter, але якщо я X, y, X_train, y_train, X_test, і y_testвідповідним чином і , якщо послідовність має сенс): (продовження цього прикладу з документації scikit-learn) 1. Завантажте набір …

69 machine-learning cross-validation python scikit-learn

2

Форма довірчого інтервалу для прогнозованих значень при лінійній регресії

Я помітив, що довірчий інтервал для прогнозованих значень в лінійній регресії має тенденцію бути вузьким навколо середнього значення прогноктора і жиру навколо мінімальних і максимальних значень прогноктора. Це можна побачити на графіках цих 4 лінійних регресій: Я спочатку думав, що це тому, що більшість значень предикторів були сконцентровані навколо середнього …

69 regression confidence-interval linear-model standard-error prediction-interval