Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Чи можна розглядати завантажувальний засіб як «ліки» для невеликого розміру зразка?
Це питання було викликане чимось, що я читав у цьому підручнику зі статистики випускників, а також (незалежно), почутий під час цієї презентації на статистичному семінарі. В обох випадках заява проходила по лінії "оскільки розмір вибірки досить малий, ми вирішили виконати оцінку за допомогою завантажувальної програми замість (або поряд з цим …

8
Створити випадкову змінну з визначеною кореляцією до існуючої змінної
Для дослідження моделювання я повинен генерувати випадкові змінні , які показують prefined (населення) кореляцію з існуючою YYY . Я подивився в Rпакети copulaі CDVineякі можуть виробляти випадкові багатовимірні розподілу із заданою структурою залежностей. Однак неможливо зафіксувати одну із отриманих змінних до існуючої змінної. Будь-які ідеї та посилання на існуючі функції …

4
Як уявити, що робить канонічний кореляційний аналіз (порівняно з тим, що робить аналіз основних компонентів)?
Канонічний кореляційний аналіз (CCA) - це техніка, що стосується аналізу основних компонентів (PCA). Хоча легко навчити PCA або лінійну регресію за допомогою діаграми розкидання (див. Кілька тисяч прикладів пошуку зображень google), я не бачив подібного інтуїтивного двовимірного прикладу для CCA. Як наочно пояснити, що робить лінійна CCA?

12
Які є найпоширеніші помилки щодо лінійної регресії?
Мені цікаво, для тих із вас, хто має великий досвід співпраці з іншими дослідниками, які найпоширеніші помилки щодо лінійної регресії, з якими ви стикаєтесь? Я думаю, може бути корисною вправою, щоб заздалегідь подумати про поширені помилки, щоб це зробити Передбачте помилки людей і зможете успішно сформулювати, чому деякі неправильні уявлення …

5
Використання k-кратної перехресної перевірки для вибору моделі часових рядів
Запитання: Я хочу бути впевненим у чомусь, чи просто використання перехресної валідації k із кратною послідовністю із часовими рядами чи це потрібно звернути особливу увагу, перш ніж її використовувати? Передумови: я моделюю часовий ряд на 6 років (із напівмарковним ланцюгом) із зразком даних кожні 5 хв. Для порівняння декількох моделей …

9
Які основні філософські, методологічні та термінологічні відмінності між економетрикою та іншими статистичними сферами?
Економетрія суттєво збігається з традиційною статистикою, але часто використовує власний жаргон з різних тем ("ідентифікація", "екзогенна" тощо). Я одного разу почув професора прикладної статистики в іншій галузі коментаря, що часто термінологія інша, але поняття однакові. Однак він також має свої методи та філософські відмінності (на думку спадає відомий твір Гекмана). …

10
Чи потрібний мінімальний розмір вибірки, щоб t-тест був дійсним?
Зараз я працюю над документом про квазіекспериментальні дослідження. Я маю розмір вибірки лише 15 через низьку кількість населення в обраній області, і лише 15 відповідають моїм критеріям. Чи 15 мінімальний розмір вибірки для обчислення для t-тесту та F-тесту? Якщо так, то де я можу отримати статтю чи книгу, щоб підтримати …

9
Чому можна отримати значну F статистику (p <.001), але несуттєві регресорні t-тести?
Чому в декількох лінійних регресіях, чому можна мати дуже значну статистику F (p &lt;.001), але мати дуже високі значення p у всіх тестах регресора? У моїй моделі є 10 регресорів. Один має р-значення 0,1, а решта вище 0,9 Для вирішення цієї проблеми див. Подальше запитання .

15
Практичні думки щодо пояснювального та прогнозного моделювання
Ще в квітні я взяв участь у бесіді на семінарі семінарів групи статистики відділу математики UMD під назвою "Пояснити чи передбачити?". З доповіддю виступив професор Галіт Шмулі, який викладає в Смітській бізнес-школі UMD. Її розмова ґрунтувалася на дослідженні, яке вона зробила для статті під назвою "Прогнозне проти пояснювального моделювання в …

2
Як працює шар "Вбудовування" Кераса?
Потрібно зрозуміти, як працює шар «Вбудовування» у бібліотеці Кераса. Я виконую наступний код у Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) що дає наступний вихід input_array = [[4 …

3
Чому дослідники нейронної мережі піклуються про епохи?
Епоха стохастичного градієнтного спуску визначається як один прохід через дані. Для кожної міні-партії SGD малюється зразків, обчислюється градієнт і параметри оновлюються. У налаштуваннях епохи проби беруть без заміни.kkk Але це здається непотрібним. Чому б не намалювати кожну міні-партію SGD так, як випадково витягується з усього набору даних при кожній ітерації? …

9
Який алгоритм слід використовувати для виявлення аномалій у часових рядах?
Фон Я працюю в Центрі мережевих операцій, ми відстежуємо комп'ютерні системи та їх роботу. Однією з ключових показників для моніторингу є кількість відвідувачів / клієнтів, які зараз підключені до наших серверів. Щоб зробити його видимим, ми (команда Ops) збираємо такі показники, як дані часових рядів та малюємо графіки. Графіт дозволяє …


1
Як розділити набір даних для перехресної перевірки, кривої навчання та остаточного оцінювання?
Яка відповідна стратегія розподілу набору даних? Я прошу зворотний зв'язок на наступний підхід ( а нема на окремих параметрів , таких як test_sizeабо n_iter, але якщо я X, y, X_train, y_train, X_test, і y_testвідповідним чином і , якщо послідовність має сенс): (продовження цього прикладу з документації scikit-learn) 1. Завантажте набір …

2
Форма довірчого інтервалу для прогнозованих значень при лінійній регресії
Я помітив, що довірчий інтервал для прогнозованих значень в лінійній регресії має тенденцію бути вузьким навколо середнього значення прогноктора і жиру навколо мінімальних і максимальних значень прогноктора. Це можна побачити на графіках цих 4 лінійних регресій: Я спочатку думав, що це тому, що більшість значень предикторів були сконцентровані навколо середнього …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.