Статистика та великі дані

4

У мене взагалі питання щодо класифікації. Нехай f - класифікатор, який виводить набір ймовірностей, заданих деякими даними D. Зазвичай, можна сказати: добре, якщо P (c | D)> 0,5, ми призначимо клас 1, інакше 0 (нехай це буде двійковий класифікація). Моє запитання полягає в тому, що якщо я дізнаюся, що якщо …

49 machine-learning classification binary-data threshold

1

Яким повинен бути розмір партії для стохастичного градієнтного спуску?

Я розумію, що стохастичний градієнтний спуск може бути використаний для оптимізації нейронної мережі за допомогою зворотного розповсюдження шляхом оновлення кожної ітерації іншим зразком навчального набору даних. Яким повинен бути розмір партії?

49 machine-learning neural-networks gradient-descent backpropagation

2

Як слід інтерпретувати порівняння засобів різних розмірів вибірки?

Візьміть випадок рейтингів книг на веб-сайті. Книгу А оцінюють 10 000 людей із середньою оцінкою 4,25 та дисперсією . Так само Книгу B оцінюють 100 осіб та мають рейтинг 4,5 із σ = 0,25 .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Тепер через великий розмір зразка книги A "середнє значення стабілізувалося" до …

49 t-test mean sample-size

4

Як регресія, t-тест і ANOVA всі версії загальної лінійної моделі?

Як вони всі версії одного основного статистичного методу?

49 regression self-study anova generalized-linear-model t-test

4

Чому коефіцієнт кореляції між X та XY випадковими змінними, як правило, дорівнює 0,7

Взяте з Практичної статистики медичних досліджень, де Дуглас Альтман пише на сторінці 285: ... для будь-яких двох величин X і Y, X буде співвідноситися з XY. Дійсно, навіть якщо X і Y є вибірками випадкових чисел, ми очікуємо, що співвідношення X і XY буде 0,7 Я спробував це в R, …

49 correlation random-variable intuition

6

Чи вводить в оману "середній рейтинг" Amazon?

Якщо я правильно розумію, рейтинги книг за шкалою 1-5 - це бали Лікерта. Тобто, 3 для мене не обов'язково може бути 3 для когось іншого. Це порядковий масштаб ІМО. Насправді не слід мати середню порядкову шкалу, але, безумовно, можна приймати режим, медіану та процентилі. Тож чи «нормально» дотримуватись правил, оскільки …

49 mean ordinal-data likert

1

Bootstrap vs. jackknife

Як методи завантаження, так і jackkfefe можуть бути використані для оцінки упередженості та стандартної похибки оцінки, а механізми обох методів перекомпонування не дуже відрізняються: вибірки із заміною порівняно не залишають одночасно спостереження. Однак джекніф не настільки популярний, як завантажувальний тренінг у наукових дослідженнях та практиці. Чи є якась очевидна перевага …

49 r confidence-interval bootstrap jackknife

3

Чому логістична регресія є лінійним класифікатором?

Оскільки ми використовуємо логістичну функцію для перетворення лінійної комбінації вхідних даних у нелінійний вихід, як можна вважати логістичну регресію лінійним класифікатором? Лінійна регресія подібна до нейронної мережі без прихованого шару, тому чому нейронні мережі вважаються нелінійними класифікаторами, а логістична регресія - лінійною?

49 logistic classification neural-networks

4

Ручне обчислення значення P від t-значення в t-тесті

У мене є вибірковий набір даних із 31 значенням. Я провів двосхилий t-тест, використовуючи R, щоб перевірити, чи справжня середня величина дорівнює 10: t.test(x=data, mu=10, conf.level=0.95) Вихід: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 …

49 r statistical-significance t-test p-value

2

Яка різниця між випадковими ефектами, фіксованими ефектами та граничною моделлю?

Я намагаюся розширити свої знання зі статистики. Я походжу з фізичних наук із "підходом до рецептів" підходу до статистичного тестування, де ми говоримо, чи це постійно, чи нормально він розподілений - регресія OLS . У своєму читанні я натрапив на терміни: модель випадкових ефектів, модель фіксованих ефектів, гранична модель. Мої …

49 random-effects-model fixed-effects-model marginal

6

Який найкращий спосіб запам'ятати різницю між чутливістю, специфічністю, точністю, точністю та згадуванням?

Незважаючи на те, що я бачив ці терміни 502847894789 разів, я не можу за все життя запам’ятати різницю між чутливістю, специфічністю, точністю, точністю і згадкою. Вони досить прості поняття, але назви для мене вкрай неінтуїтивні, тому я продовжую плутати їх між собою. Який хороший спосіб подумати над цими поняттями, щоб …

49 terminology accuracy sensitivity-specificity

4

Випадковий час лісових обчислень в R

Я використовую пакет партії в R з 10000 рядків і 34 ознаками, а деякі функції фактора мають більше 300 рівнів. Час обчислення занадто довгий. (Минуло 3 години, і це ще не закінчилося.) Хочу знати, які елементи мають великий вплив на час обчислення випадкового лісу. Це фактори, які мають занадто багато …

49 r random-forest

1

Показники ефективності для оцінки непідвладного навчання

Що стосується непідконтрольного навчання (наприклад, кластеризації), чи є які-небудь показники для оцінки ефективності?

49 machine-learning clustering data-mining unsupervised-learning

6

Що таке iid випадкові величини?

Як би ви могли пояснити iid (незалежний та однаково розподілений) нетехнічним людям?

49 random-variable intuition

4

Чи означає співвідношення = 0,2, що існує асоціація "лише у 1-го з 5-ти людей"?

У "Ідіотському мозку: нейрознавець пояснює, що насправді має голова" , написав Дін Бернетт Кореляція між зростом та інтелектом зазвичай називається приблизно , тобто висота та інтелект, схоже, пов'язані лише у з людей.0.20.20.2111555 Для мене це звучить неправильно: я розумію кореляцію більше, як помилку (відсутність), яку ми отримуємо, коли намагаємось передбачити …

48 correlation neuroscience