Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

3
Розуміння стратифікованої перехресної перевірки
Яка різниця між стратифікованою перехресною валідацією та перехресною валідацією ? У Вікіпедії сказано: У стратифікованій перехресній валідації k-кратної складки вибираються таким чином, щоб середнє значення відгуку було приблизно рівним у всіх складках. У випадку дихотомічної класифікації це означає, що кожна складка містить приблизно однакові пропорції двох типів етикетки класів. Але …

3
Box-Cox як перетворення для незалежних змінних?
Чи існує трансформація типу Box-Cox для незалежних змінних? Тобто перетворення, яке оптимізує змінну так, що волевиявлення зробить більш розумним пристосування для лінійної моделі?хxxy~f(x) Якщо так, чи є функція для цього R?

4
Як генерувати корельовані випадкові числа (задані засоби, відхилення та ступінь кореляції)?
Вибачте, якщо це здається занадто базовим, але я думаю, що я просто прагну підтвердити розуміння тут. Я розумію, що я повинен був би зробити це в два кроки, і я почав намагатися врізати кореляційні матриці, але це тільки починає здаватися дійсно пов'язаним. Я шукаю коротке пояснення (в ідеалі з натяками …

3
API / канали даних, доступні як пакети в R
EDIT: Перегляд завдань CRAN веб-технологій та послуг містить набагато більш повний перелік джерел даних та API, доступних у Р. Ви можете надіслати запит на виклик на github, якщо ви хочете додати пакет до подання завдання. Я складаю список різних каналів даних, які вже підключені до R або які легко налаштувати. …
53 r  references  dataset 

10
Машинне навчання за допомогою Python
Я розглядаю можливість використання бібліотек Python для експериментів з машинного навчання. Поки що я покладався на WEKA, але в цілому був досить незадоволений. Це передусім тому, що я вважаю, що WEKA не настільки добре підтримується (дуже мало прикладів, документація є рідкою, а підтримка спільноти є меншою, ніж бажана на моєму …

5
Найкраща практика при аналізі конструкцій, які проводяться після лікування
Уявіть наступний загальний дизайн: 100 учасників випадковим чином розподіляються або на лікування, або на контрольну групу залежна змінна є числовою та вимірюється до та після обробки Три очевидних варіанти аналізу таких даних: Випробування групи за часом взаємодії в змішаній ANOVA Зробіть ANCOVA з умовою як IV, а попередній захід - …

6
Ефективна онлайн-лінійна регресія
Я аналізую деякі дані там, де мені хотілося б виконати звичайну лінійну регресію, однак це неможливо, оскільки я маю справу з он-лайн налаштуваннями з безперервним потоком вхідних даних (який швидко стане занадто великим для пам’яті) і потрібно для оновлення оцінок параметрів під час споживання. тобто я не можу просто завантажити …

9
Вимірювання ентропії / інформації / моделей 2d бінарної матриці
Я хочу виміряти ентропію / щільність інформації / подібність малюнка двовимірної двійкової матриці. Дозвольте показати кілька зображень для уточнення: Цей дисплей повинен мати досить високу ентропію: А) Це має мати середню ентропію: Б) Нарешті, ці зображення повинні мати ентропію майже нуля: C) Г) Е) Чи є якийсь індекс, який фіксує …


5
Які недоліки державно-просторових моделей та фільтра Кальмана для моделювання часових рядів?
Враховуючи всі хороші властивості державно-просторових моделей та KF, мені цікаво - які недоліки моделювання простору стану та використання фільтра Kalman (або EKF, UKF або фільтра частинок) для оцінки? Скажімо, звичайні методології, такі як ARIMA, VAR або спеціальні / евристичні методи. Їх важко відкалібрувати? Чи є вони складними і важко зрозуміти, …

7
Періодичне виявлення загального часового ряду
Цей пост є продовженням іншої публікації, пов’язаної із загальним методом виявлення зовнішньої хронології у часових рядах . В основному, на даний момент мене цікавить надійний спосіб виявити періодичність / сезонність загальних часових рядів, на які впливає багато шуму. З точки зору розробника, я хотів би простий інтерфейс, такий як: unsigned …

6
Оптимізатор Адама з експоненціальним розпадом
У більшості кодів Tensorflow, який я бачив, використовується оптимізатор Адама з постійною швидкістю навчання 1e-4(тобто 0,0001). Код зазвичай виглядає наступним чином: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

2
Що означає наявність «постійної дисперсії» в моделі лінійної регресії?
Що означає наявність «постійної дисперсії» у терміні помилки? Як я бачу, у нас є дані з однією залежною змінною та однією незалежною змінною. Постійна дисперсія є одним із припущень лінійної регресії. Мені цікаво, що означає гомоскедастичність. Оскільки навіть якщо у мене 500 рядків, я мав би значення однієї дисперсії, яке, …

3
Чому ми так сильно піклуємося про нормально розподілених термінах помилок (і гомоскедастичності) в лінійній регресії, коли нам цього не потрібно?
Я припускаю, що я засмучуюся кожного разу, коли чую, як хтось каже, що ненормальність залишків та / або гетерокедастичність порушує припущення OLS. Для оцінки параметрів в моделі OLS жодне з цих припущень теоремою Гаусса-Маркова не потрібно. Я бачу, як це має значення в Тестуванні гіпотез для моделі OLS, тому що, …

3
Здійснювати нормалізацію функції до або в процесі перевірки моделі?
Поширена практика в машинному навчанні полягає в нормалізації характеристик або стандартизації даних змінних прогнозника, саме так, центрувати дані, що віднімають середнє значення, і нормалізувати його діленням на дисперсію (або стандартне відхилення теж). Для стримування самопочуття і, наскільки я розумію, ми робимо це для досягнення двох головних речей: Уникайте зайвих малих …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.