Статистика та великі дані

3

(Чому) SOM у стилі Kohonen не прихильнився?

Наскільки я можу сказати, СМС у стилі Кохонена мав пік ще в 2005 році і останнім часом не відчував такої великої прихильності. Я не знайшов жодної статті, в якій було б сказано, що СОМ були заміщені іншим методом, або що було б еквівалентним чомусь іншим (у більших розмірах, як би …

33 clustering self-organizing-maps

2

Це сучасна методологія регресії?

Я спостерігаю за змаганнями за Kaggle довгий час, і я усвідомлюю, що багато виграшних стратегій передбачають використання принаймні однієї з "великих трійки": розстрілювання, підсилення та складання. Що стосується регресії, а не концентруватись на побудові однієї найкращої можливої регресійної моделі, створюється кілька регресійних моделей, таких як (Узагальнена) лінійна регресія, випадкові лісові, …

33 predictive-models boosting bagging stacking model-averaging

8

Чи гарно видаляти людей, які не впадають у життя?

Я шукав спосіб видалити залишків із набору даних і знайшов це питання . Однак у деяких коментарях та відповідях на це запитання люди згадували, що видаляти з людей, які втратили життя, є поганою практикою. У моєму наборі даних є декілька людей, які, ймовірно, пов'язані лише з помилками вимірювання. Навіть якщо …

33 outliers

3

Попередня підготовка в глибокій згорткової нейромережі?

Хтось бачив якусь літературу про попередню підготовку в глибокій згортковій нейронній мережі? Я бачив лише непідготовлену попередню підготовку в автоінкодерах або машинах з обмеженим набором болцманів.

33 machine-learning neural-networks deep-learning conv-neural-network autoencoders

2

Знаходження квартилів в R

Я працюю підручником зі статистикою під час навчання R і натрапив на камеру спотикання на наступному прикладі: Після перегляду ?quantileя спробував відтворити це в R за допомогою наступного: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% …

33 r quantiles

2

Ступені свободи

Статистика тесту для тесту Хосмера-Лемешоу (HLT) на корисність (GOF) моделі логістичної регресії визначається наступним чином: Потім зразок розбивають на децилів, , на децил, обчислюють такі величини:г= 10d=10d=10D1, D2, … , DгD1,D2,…,DdD_1, D_2, \dots , D_{d} D dО1 д= ∑i ∈ DгуiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , тобто спостерігається кількість позитивних …

33 regression logistic goodness-of-fit degrees-of-freedom hosmer-lemeshow-test

5

Чи завжди матриця коваріації вибірки симетрична і позитивна?

При обчисленні коваріаційної матриці вибірки гарантується тоді отримання симетричної та визначеної позитивної матриці? Наразі моя проблема має вибірку з 4600 векторів спостереження та 24 виміри.

33 sampling covariance

3

Інтерпретація залишкових діагностичних діаграм для моделей GLM?

Я шукаю вказівки, як інтерпретувати залишкові сюжети GLM-моделей. Особливо пуассонова, негативна біноміальна, біноміальна моделі. Чого ми можемо очікувати від цих сюжетів, коли моделі "правильні"? (наприклад, ми очікуємо, що дисперсія буде зростати зі збільшенням прогнозованого значення для роботи з моделлю Пуассона) Я знаю, що відповіді залежать від моделей. Будь-які посилання (або …

33 generalized-linear-model diagnostic residuals

2

Відмінності між дистанцією Бхаттачарія та різницею KL

Я шукаю інтуїтивне пояснення для наступних питань: У теорії статистики та інформації, чим відрізняється відстань Бхаттачарія від розбіжності KL як міри різниці між двома дискретними розподілами ймовірностей? Чи не мають вони абсолютно ніяких зв’язків і вимірюють відстань між двома розподілами ймовірностей абсолютно різним чином?

33 mathematical-statistics information-theory kullback-leibler bhattacharyya

3

Чи є цифри

Припустимо, ви дотримуєтеся послідовності: 7, 9, 0, 5, 5, 5, 4, 8, 0, 6, 9, 5, 3, 8, 7, 8, 5, 4, 0, 0, 6, 6, 4, 5, 3, 3, 7, 5, 9, 8, 1, 8, 6, 2, 8, 4, 6, 4, 1, 9, 9, 0, 5, 2, 2, 0, …

33 random-generation randomness

4

(Чому) у переоснащених моделей властиві великі коефіцієнти?

Я думаю, що чим більший коефіцієнт змінної, тим більше здатність моделі до того, щоб «розгойдуватися» в цьому вимірі, забезпечуючи збільшену можливість підключення шуму. Хоча я думаю, що у мене є розумний сенс взаємозв'язку між дисперсією моделі та великими коефіцієнтами, я не маю настільки хорошого розуміння того, чому вони трапляються в …

33 regression variance linear-model bias regularization

7

Парадокс дня народження з (величезним) поворотом: ймовірність поділитися точно такою ж датою народження з партнером?

Я поділяю таку ж дату народження, як і мій хлопець, та сама дата, але також того ж року, наші народження відокремлюються лише 5 годин. Я знаю, що шанси зустріти того, хто народився в одну і ту ж дату, ніж я, досить високі, і я знаю кількох людей, з якими я …

33 probability birthday-paradox

1

Яка інтуїтивно зрозуміла причина обертання у Факторному аналізі / PCA та як вибрати відповідне обертання?

Мої запитання Яка інтуїтивно зрозуміла причина обертання факторів у факторному аналізі (або компонентів у PCA)? Моє розуміння: якщо змінні майже однаково завантажені у верхніх компонентах (або факторах), то, очевидно, складно диференціювати компоненти. Тож у цьому випадку можна використовувати обертання для кращої диференціації компонентів. Це правильно? Які наслідки ротації? На які …

33 pca interpretation factor-analysis dimensionality-reduction factor-rotation

1

Як тренувати та перевіряти модель нейронної мережі в R?

Я новачок у моделюванні нейронних мереж, але мені вдалося створити нейронну мережу з усіма доступними точками даних, яка добре відповідає спостережуваним даним. Нейронна мережа була виконана в R за допомогою пакету nnet: require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., data = MyData, size = 6, decay …

33 r neural-networks

5

Чи може SVM робити потокове навчання одним прикладом?

У мене є набір потокових даних, приклади доступні по одному. Мені потрібно було б зробити їх класичну класифікацію. Як тільки я подав навчальний приклад навчальному процесу, я мушу відкинути приклад. Одночасно я також використовую найновішу модель для прогнозування даних без маркування. Наскільки я знаю, нейронна мережа здатна здійснювати потокове навчання, …

33 machine-learning svm neural-networks