Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

3
(Чому) SOM у стилі Kohonen не прихильнився?
Наскільки я можу сказати, СМС у стилі Кохонена мав пік ще в 2005 році і останнім часом не відчував такої великої прихильності. Я не знайшов жодної статті, в якій було б сказано, що СОМ були заміщені іншим методом, або що було б еквівалентним чомусь іншим (у більших розмірах, як би …

2
Це сучасна методологія регресії?
Я спостерігаю за змаганнями за Kaggle довгий час, і я усвідомлюю, що багато виграшних стратегій передбачають використання принаймні однієї з "великих трійки": розстрілювання, підсилення та складання. Що стосується регресії, а не концентруватись на побудові однієї найкращої можливої ​​регресійної моделі, створюється кілька регресійних моделей, таких як (Узагальнена) лінійна регресія, випадкові лісові, …

8
Чи гарно видаляти людей, які не впадають у життя?
Я шукав спосіб видалити залишків із набору даних і знайшов це питання . Однак у деяких коментарях та відповідях на це запитання люди згадували, що видаляти з людей, які втратили життя, є поганою практикою. У моєму наборі даних є декілька людей, які, ймовірно, пов'язані лише з помилками вимірювання. Навіть якщо …
33 outliers 

3
Попередня підготовка в глибокій згорткової нейромережі?
Хтось бачив якусь літературу про попередню підготовку в глибокій згортковій нейронній мережі? Я бачив лише непідготовлену попередню підготовку в автоінкодерах або машинах з обмеженим набором болцманів.

2
Знаходження квартилів в R
Я працюю підручником зі статистикою під час навчання R і натрапив на камеру спотикання на наступному прикладі: Після перегляду ?quantileя спробував відтворити це в R за допомогою наступного: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% …
33 r  quantiles 

2
Ступені свободи
Статистика тесту для тесту Хосмера-Лемешоу (HLT) на корисність (GOF) моделі логістичної регресії визначається наступним чином: Потім зразок розбивають на децилів, , на децил, обчислюють такі величини:г= 10d=10d=10D1, D2, … , DгD1,D2,…,DdD_1, D_2, \dots , D_{d} D dО1 д= ∑i ∈ DгуiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , тобто спостерігається кількість позитивних …


3
Інтерпретація залишкових діагностичних діаграм для моделей GLM?
Я шукаю вказівки, як інтерпретувати залишкові сюжети GLM-моделей. Особливо пуассонова, негативна біноміальна, біноміальна моделі. Чого ми можемо очікувати від цих сюжетів, коли моделі "правильні"? (наприклад, ми очікуємо, що дисперсія буде зростати зі збільшенням прогнозованого значення для роботи з моделлю Пуассона) Я знаю, що відповіді залежать від моделей. Будь-які посилання (або …

2
Відмінності між дистанцією Бхаттачарія та різницею KL
Я шукаю інтуїтивне пояснення для наступних питань: У теорії статистики та інформації, чим відрізняється відстань Бхаттачарія від розбіжності KL як міри різниці між двома дискретними розподілами ймовірностей? Чи не мають вони абсолютно ніяких зв’язків і вимірюють відстань між двома розподілами ймовірностей абсолютно різним чином?

3
Чи є цифри
Припустимо, ви дотримуєтеся послідовності: 7, 9, 0, 5, 5, 5, 4, 8, 0, 6, 9, 5, 3, 8, 7, 8, 5, 4, 0, 0, 6, 6, 4, 5, 3, 3, 7, 5, 9, 8, 1, 8, 6, 2, 8, 4, 6, 4, 1, 9, 9, 0, 5, 2, 2, 0, …

4
(Чому) у переоснащених моделей властиві великі коефіцієнти?
Я думаю, що чим більший коефіцієнт змінної, тим більше здатність моделі до того, щоб «розгойдуватися» в цьому вимірі, забезпечуючи збільшену можливість підключення шуму. Хоча я думаю, що у мене є розумний сенс взаємозв'язку між дисперсією моделі та великими коефіцієнтами, я не маю настільки хорошого розуміння того, чому вони трапляються в …

7
Парадокс дня народження з (величезним) поворотом: ймовірність поділитися точно такою ж датою народження з партнером?
Я поділяю таку ж дату народження, як і мій хлопець, та сама дата, але також того ж року, наші народження відокремлюються лише 5 годин. Я знаю, що шанси зустріти того, хто народився в одну і ту ж дату, ніж я, досить високі, і я знаю кількох людей, з якими я …

1
Яка інтуїтивно зрозуміла причина обертання у Факторному аналізі / PCA та як вибрати відповідне обертання?
Мої запитання Яка інтуїтивно зрозуміла причина обертання факторів у факторному аналізі (або компонентів у PCA)? Моє розуміння: якщо змінні майже однаково завантажені у верхніх компонентах (або факторах), то, очевидно, складно диференціювати компоненти. Тож у цьому випадку можна використовувати обертання для кращої диференціації компонентів. Це правильно? Які наслідки ротації? На які …

1
Як тренувати та перевіряти модель нейронної мережі в R?
Я новачок у моделюванні нейронних мереж, але мені вдалося створити нейронну мережу з усіма доступними точками даних, яка добре відповідає спостережуваним даним. Нейронна мережа була виконана в R за допомогою пакету nnet: require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., data = MyData, size = 6, decay …

5
Чи може SVM робити потокове навчання одним прикладом?
У мене є набір потокових даних, приклади доступні по одному. Мені потрібно було б зробити їх класичну класифікацію. Як тільки я подав навчальний приклад навчальному процесу, я мушу відкинути приклад. Одночасно я також використовую найновішу модель для прогнозування даних без маркування. Наскільки я знаю, нейронна мережа здатна здійснювати потокове навчання, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.