Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних

3
Побудова автоінкодера в Тенсдорфлоу, щоб перевершити PCA
Гінтон і Салаххутдінов у зменшенні розмірності даних за допомогою нейронних мереж Science 2006 запропонували нелінійну PCA шляхом використання глибокого автокодера. Я кілька разів намагався створити і навчити автокодер PCA з Tensorflow, але мені ніколи не вдалося отримати кращий результат, ніж лінійний PCA. Як я можу ефективно тренувати автокодер? (Пізніше редагуйте …

1
Негативне запитання про біноміальну регресію - це погана модель?
Я читаю дуже цікаву статтю Продавців та Шмуелі про регресійні моделі для підрахунку даних. Близько початку (стор. 944) вони цитують МакКаллау та Нелдера (1989), які стверджують, що негативна біноміальна регресія непопулярна і має проблематичну канонічну зв'язок. Я знайшов згаданий уривок, і він говорить (стор. 374 М і N) "Здається, мало …

4
Чи менші р-значення більш переконливі?
Я читав на , коефіцієнтах помилок типу 1, рівнях значущості, обчисленні потужності, розмірах ефектів та дебатах Фішера проти Неймана-Пірсона. Це залишило мене відчуття трохи переповненого. Прошу вибачення за стіну тексту, але я вважав, що потрібно надати огляд мого сучасного розуміння цих понять, перш ніж перейти до своїх актуальних питань.ppp З …

5
Рекомендації щодо кольорів та товщини ліній для графіків ліній
Багато написано про вибір кольорових сліпих кольорів для карт, полігонів та затінених регіонів загалом (див., Наприклад, http://colorbrewer2.org ). Мені не вдалося знайти рекомендації щодо кольорів ліній та різної товщини ліній для графіків ліній. Цілі: легко розрізнити лінії, навіть коли вони переплітаються лінії легко відрізнити окремими особами з найпоширенішими формами кольорової …

2
Чи точне значення 'p-значення' безглуздо?
Я мав дискусію зі статистиком ще в 2009 році, де він заявив, що точне значення р-значення не має значення: важливо лише те, чи є воно важливим чи ні. Тобто один результат не може бути більш значущим, ніж інший; наприклад, ваші зразки походять або з однієї популяції, або ні. У мене …

8
Заміна випускників середнім рівнем
Це питання мені задав мій друг, який не користується Інтернетом. У мене немає статистичних даних, і я шукав Інтернет з цього питання. Питання полягає в тому, чи можна замінити середньостатистичні показники? якщо це можливо, чи є довідники / журнали для резервного копіювання цього твердження?

1
Які корисні вказівки щодо параметрів GBM?
Які корисні вказівки щодо тестування параметрів (наприклад, глибина взаємодії, мінчік, частота вибірки тощо) з використанням ГБМ? Скажімо, у мене 70-100 функцій, кількість населення 200 000, і я маю намір перевірити взаємодію на глибині 3 і 4. Ясно, що мені потрібно зробити кілька тестувань, щоб побачити, яка комбінація параметрів найкраще вибірка. …

2
Яка різниця між "глибоким навчанням" та багаторівневим / ієрархічним моделюванням?
Чи "глибоке навчання" - це ще один термін для багаторівневого / ієрархічного моделювання? Я набагато більше знайомий з останнім, ніж з першим, але, як я можу сказати, головна відмінність полягає не в їх визначенні, а в тому, як вони використовуються та оцінюються в межах своєї області застосування. Схоже, кількість вузлів …

4
Чому нижчі р-значення не є більшими доказами проти нуля? Аргументи з Йохансона 2011 року
Йоханссон (2011) у " Вітаю неможливе: значення p, докази та ймовірність " (тут також посилання на журнал ) стверджує, що більш низькі часто розглядаються як сильніші докази проти нуля. Йоханссон передбачає, що люди вважають, що докази проти нуля є більш сильними, якби їх статистичний тест видавав -значення , ніж якщо …

1
Зменшення розмірності (SVD або PCA) на великій розрідженій матриці
/ редагувати: подальше спостереження зараз ви можете використовувати irlba :: prcomp_irlba / редагувати: слідкувати за моєю власною публікацією. irlbaтепер є аргументи "центр" і "шкала", які дозволяють використовувати його для обчислення основних компонентів, наприклад: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v У мене є велика кількість розрізнених Matrixфункцій, які …

3
Ентропійне спростування Байєсової стрілки назад Шадозі, парадокс часу?
У цій роботі талановитий дослідник Косма Шалізі стверджує, що для повного прийняття суб'єктивного байєсівського погляду необхідно також прийняти нефізичний результат того, що стрілка часу (дана потоком ентропії) насправді повинна йти назад . Це в основному спроба сперечатися проти максимальної ентропії / повністю суб'єктивного байєсівського погляду, висунутого та популяризованого Е.Т. Джейнес …

5
Виявлення значних прогнозів з багатьох незалежних змінних
У наборі даних про дві групи, що не перетинаються (пацієнти та здорові, загальна ), я хотів би знайти (із незалежних змінних) значних прогнозів для постійної залежної змінної. Кореляція між предикторами є. Мені цікаво з'ясувати, чи пов’язаний будь-який з предикторів із залежною змінною "насправді" (а не прогнозувати залежну змінну якомога точніше). …

3
Чому необхідний вибір змінних?
Загальні процедури вибору змінних на основі даних (наприклад, вперед, назад, поетапно, всі підмножини), як правило, дають моделі з небажаними властивостями, включаючи: Коефіцієнти відхиляються від нуля. Стандартні помилки, які занадто малі, і довірчі інтервали, які занадто вузькі. Статистика тестів та p-значень, які не мають рекламованого значення. Оцінки відповідності моделі, які надмірно …

2
Як побудувати межу рішення k-найближчого класифікатора сусіда з елементів статистичного навчання?
Я хочу створити сюжет, описаний у книзі ElemStatLearn "Елементи статистичного навчання: видобуток даних, висновок та прогнозування. Друге видання" Тревор Хасті та Роберт Тібширані та Джером Фрідман. Сюжет: Мені цікаво, як я можу створити цей точний графік R, особливо зверніть увагу на сітку графіку та обчислення, щоб показати межу.

1
Чи є статистичні уроки з епізоду «Біблійний кодекс»
Хоча це питання є дещо суб'єктивним, я сподіваюсь, що це кваліфікується як хороший суб'єктивне запитання згідно з настановами по faq . Він ґрунтується на питанні, яке мені задав рік тому Олле Яггстрем, і хоча у мене є деякі думки з цього приводу, я не маю однозначної відповіді, і я буду …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.