Статистика та великі дані

Питання та відповіді для людей, зацікавлених у статистиці, машинному навчанні, аналізі даних, інтелектуальному аналізу даних та візуалізації даних


6
Кластеризація на виході t-SNE
У мене є додаток, де було б зручно кластерувати шумний набір даних, перш ніж шукати ефекти підгруп у кластерах. Я спершу подивився на PCA, але для отримання 90% варіабельності потрібно ~ 30 компонентів, тому кластеризація лише на декількох комп'ютерах викине багато інформації. Потім я спробував t-SNE (вперше), який надає мені …

7
Які "великі проблеми" в статистиці?
Математика має свої відомі Проблеми тисячоліття (і, історично, Гільбертові 23 ), питання, які допомогли сформувати напрямок поля. Я мало маю уявлення, однак, якими будуть гіпотези Рімана та П проти НП у статистиці. Отже, які загальні відкриті питання в статистиці? Відредаговано, щоб додати: Як приклад загального духу (якщо не зовсім конкретики) …
77 history 


9
Математик бажає еквівалентних знань до рівня статистики якості
Я знаю, що люди люблять закривати дублікати, тому я не прошу посилання почати вивчати статистику (як тут ). Я маю докторську ступінь з математики, але ніколи не вивчав статистику. Який найкоротший шлях до еквівалентних знань до найвищого ступеня статистики BS і як я вимірюю, коли я досяг цього. Якщо переліку …


3
Вибір функції та перехресне підтвердження
Нещодавно я багато читав на цьому веб-сайті (@Aniko, @Dikran Marsupial, @Erik) та інших місцях про проблему пристосування, що виникає з перехресною валідацією - (Smialowski et al. 2010 Біоінформатика, Хасті, Елементи статистичного навчання). Припущення полягає в тому, що будь-який підбір контрольованих функцій (використовуючи кореляцію з мітками класів), виконаний поза оцінкою продуктивності …

5
Які сучасні, легко використовувані альтернативи ступінчастій регресії?
У мене є набір даних з близько 30 незалежних змінних і я б хотів побудувати узагальнену лінійну модель (GLM) для дослідження взаємозв'язку між ними та залежною змінною. Я усвідомлюю, що метод, якого я вчив для цієї ситуації, поетапна регресія, зараз вважається статистичним гріхом . Які сучасні методи вибору моделі слід …

1
Допоможіть мені зрозуміти підтримку векторних машин
Я розумію основи того, що мета підтримки Vector Vector Machines полягає в класифікації вхідного набору на декілька різних класів, але те, що я не розумію, - це деякі деталі, що містять круту. Для початку мене трохи бентежить використання Slack Variables. Яке їх призначення? Я займаюся класифікаційною проблемою, коли я фіксував …

6
Вибір особливостей для "остаточної" моделі при виконанні перехресної перевірки в машинному навчанні
Я трохи розгублений щодо вибору функцій та машинного навчання, і мені було цікаво, чи можете ви мені допомогти. У мене є набір даних мікромасив, який класифікується на дві групи та має 1000 функцій. Моя мета - отримати невелику кількість генів (мої особливості) (10-20) у підписі, які я теоретично зможу застосувати …

3
Чому Lasso забезпечує змінний вибір?
Я читав Елементи статистичного навчання , і хотів би знати, чому Лассо забезпечує змінний вибір, а регрес хребта не робить. Обидва способи мінімізують залишкову суму квадратів і обмежують можливі значення параметрів . Для Лассо обмеження є , тоді як для хребта це , для деякого .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt …

3
Чому логістичну регресію не називають логістичною класифікацією?
Оскільки логістична регресія є моделлю статистичної класифікації, яка займається категорично залежними змінними, чому її не називають логістичною класифікацією ? Чи не слід ім'я "Регресія" зарезервувати для моделей, що працюють з постійними залежними змінними?

5
Поясніть, будь ласка, парадокс очікування
Кілька років тому я створив детектор випромінювання, який працює, вимірюючи інтервал між подіями, а не рахуючи їх. Моє припущення полягало в тому, що при вимірюванні неспоріднених проб я в середньому вимірював половину фактичного інтервалу. Однак, коли я тестував схему з каліброваним джерелом, показник був надмірним у два рази, що означало, …

3
Найкращий спосіб представити випадковий ліс у публікації?
Я використовую алгоритм випадкових лісів як надійний класифікатор двох груп у мікромасивному дослідженні з 1000-ма функціями. Який найкращий спосіб представити випадковий ліс, щоб було достатньо інформації для його відтворення на папері? Чи є метод R в R фактично побудувати дерево, якщо є невелика кількість особливостей? Чи є оцінка OOB рівня …

3
Діагностика логістичної регресії?
Для лінійної регресії ми можемо перевірити діагностичні графіки (графіки залишків, графіки нормальної QQ тощо), щоб перевірити, чи порушено припущення про лінійну регресію. Для логістичної регресії у мене виникають проблеми з пошуком ресурсів, які пояснюють, як діагностувати придатність моделі логістичної регресії. Викопуючи деякі курсові записки для GLM, це просто стверджує, що …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.