Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

4
Поріг ймовірності класифікації
У мене взагалі питання щодо класифікації. Нехай f - класифікатор, який виводить набір ймовірностей, заданих деякими даними D. Зазвичай, можна сказати: добре, якщо P (c | D)> 0,5, ми призначимо клас 1, інакше 0 (нехай це буде двійковий класифікація). Моє запитання полягає в тому, що якщо я дізнаюся, що якщо …

1
Яким повинен бути розмір партії для стохастичного градієнтного спуску?
Я розумію, що стохастичний градієнтний спуск може бути використаний для оптимізації нейронної мережі за допомогою зворотного розповсюдження шляхом оновлення кожної ітерації іншим зразком навчального набору даних. Яким повинен бути розмір партії?

2
Як слід інтерпретувати порівняння засобів різних розмірів вибірки?
Візьміть випадок рейтингів книг на веб-сайті. Книгу А оцінюють 10 000 людей із середньою оцінкою 4,25 та дисперсією . Так само Книгу B оцінюють 100 осіб та мають рейтинг 4,5 із σ = 0,25 .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Тепер через великий розмір зразка книги A "середнє значення стабілізувалося" до …


4
Чому коефіцієнт кореляції між X та XY випадковими змінними, як правило, дорівнює 0,7
Взяте з Практичної статистики медичних досліджень, де Дуглас Альтман пише на сторінці 285: ... для будь-яких двох величин X і Y, X буде співвідноситися з XY. Дійсно, навіть якщо X і Y є вибірками випадкових чисел, ми очікуємо, що співвідношення X і XY буде 0,7 Я спробував це в R, …

6
Чи вводить в оману "середній рейтинг" Amazon?
Якщо я правильно розумію, рейтинги книг за шкалою 1-5 - це бали Лікерта. Тобто, 3 для мене не обов'язково може бути 3 для когось іншого. Це порядковий масштаб ІМО. Насправді не слід мати середню порядкову шкалу, але, безумовно, можна приймати режим, медіану та процентилі. Тож чи «нормально» дотримуватись правил, оскільки …

1
Bootstrap vs. jackknife
Як методи завантаження, так і jackkfefe можуть бути використані для оцінки упередженості та стандартної похибки оцінки, а механізми обох методів перекомпонування не дуже відрізняються: вибірки із заміною порівняно не залишають одночасно спостереження. Однак джекніф не настільки популярний, як завантажувальний тренінг у наукових дослідженнях та практиці. Чи є якась очевидна перевага …

3
Чому логістична регресія є лінійним класифікатором?
Оскільки ми використовуємо логістичну функцію для перетворення лінійної комбінації вхідних даних у нелінійний вихід, як можна вважати логістичну регресію лінійним класифікатором? Лінійна регресія подібна до нейронної мережі без прихованого шару, тому чому нейронні мережі вважаються нелінійними класифікаторами, а логістична регресія - лінійною?

4
Ручне обчислення значення P від ​​t-значення в t-тесті
У мене є вибірковий набір даних із 31 значенням. Я провів двосхилий t-тест, використовуючи R, щоб перевірити, чи справжня середня величина дорівнює 10: t.test(x=data, mu=10, conf.level=0.95) Вихід: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 …

2
Яка різниця між випадковими ефектами, фіксованими ефектами та граничною моделлю?
Я намагаюся розширити свої знання зі статистики. Я походжу з фізичних наук із "підходом до рецептів" підходу до статистичного тестування, де ми говоримо, чи це постійно, чи нормально він розподілений - регресія OLS . У своєму читанні я натрапив на терміни: модель випадкових ефектів, модель фіксованих ефектів, гранична модель. Мої …

6
Який найкращий спосіб запам'ятати різницю між чутливістю, специфічністю, точністю, точністю та згадуванням?
Незважаючи на те, що я бачив ці терміни 502847894789 разів, я не можу за все життя запам’ятати різницю між чутливістю, специфічністю, точністю, точністю і згадкою. Вони досить прості поняття, але назви для мене вкрай неінтуїтивні, тому я продовжую плутати їх між собою. Який хороший спосіб подумати над цими поняттями, щоб …

4
Випадковий час лісових обчислень в R
Я використовую пакет партії в R з 10000 рядків і 34 ознаками, а деякі функції фактора мають більше 300 рівнів. Час обчислення занадто довгий. (Минуло 3 години, і це ще не закінчилося.) Хочу знати, які елементи мають великий вплив на час обчислення випадкового лісу. Це фактори, які мають занадто багато …
49 r  random-forest 



4
Чи означає співвідношення = 0,2, що існує асоціація "лише у 1-го з 5-ти людей"?
У "Ідіотському мозку: нейрознавець пояснює, що насправді має голова" , написав Дін Бернетт Кореляція між зростом та інтелектом зазвичай називається приблизно , тобто висота та інтелект, схоже, пов'язані лише у з людей.0.20.20.2111555 Для мене це звучить неправильно: я розумію кореляцію більше, як помилку (відсутність), яку ми отримуємо, коли намагаємось передбачити …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.