Статистика та великі дані

26

Яка єдина найвпливовіша книга, яку повинен прочитати кожен статистик?

Якщо ви могли б повернутися у часі і сказати собі, щоб прочитати конкретну книгу на початку своєї кар’єри статистики, якою це була б книга?

77 references

6

Кластеризація на виході t-SNE

У мене є додаток, де було б зручно кластерувати шумний набір даних, перш ніж шукати ефекти підгруп у кластерах. Я спершу подивився на PCA, але для отримання 90% варіабельності потрібно ~ 30 компонентів, тому кластеризація лише на декількох комп'ютерах викине багато інформації. Потім я спробував t-SNE (вперше), який надає мені …

77 clustering interpretation k-means tsne

7

Які "великі проблеми" в статистиці?

Математика має свої відомі Проблеми тисячоліття (і, історично, Гільбертові 23 ), питання, які допомогли сформувати напрямок поля. Я мало маю уявлення, однак, якими будуть гіпотези Рімана та П проти НП у статистиці. Отже, які загальні відкриті питання в статистиці? Відредаговано, щоб додати: Як приклад загального духу (якщо не зовсім конкретики) …

77 history

5

Перехресне підтвердження простою англійською мовою?

Як би ви описали перехресну перевірку для когось без фону аналізу даних?

77 cross-validation

9

Математик бажає еквівалентних знань до рівня статистики якості

Я знаю, що люди люблять закривати дублікати, тому я не прошу посилання почати вивчати статистику (як тут ). Я маю докторську ступінь з математики, але ніколи не вивчав статистику. Який найкоротший шлях до еквівалентних знань до найвищого ступеня статистики BS і як я вимірюю, коли я досяг цього. Якщо переліку …

77 references careers

14

Що означає "Усі моделі неправильні, але деякі корисні"

"По суті, всі моделі неправильні, але деякі корисні." --- Коробка, Джордж ЕП; Норман Р. Дрейпер (1987). Емпірична побудова моделі та поверхні реагування, с. 424, Вілі. ISBN 0471810339. Яке саме значення має наведена фраза?

76 modeling

3

Вибір функції та перехресне підтвердження

Нещодавно я багато читав на цьому веб-сайті (@Aniko, @Dikran Marsupial, @Erik) та інших місцях про проблему пристосування, що виникає з перехресною валідацією - (Smialowski et al. 2010 Біоінформатика, Хасті, Елементи статистичного навчання). Припущення полягає в тому, що будь-який підбір контрольованих функцій (використовуючи кореляцію з мітками класів), виконаний поза оцінкою продуктивності …

76 cross-validation feature-selection

5

Які сучасні, легко використовувані альтернативи ступінчастій регресії?

У мене є набір даних з близько 30 незалежних змінних і я б хотів побудувати узагальнену лінійну модель (GLM) для дослідження взаємозв'язку між ними та залежною змінною. Я усвідомлюю, що метод, якого я вчив для цієї ситуації, поетапна регресія, зараз вважається статистичним гріхом . Які сучасні методи вибору моделі слід …

76 regression generalized-linear-model model-selection stepwise-regression

1

Допоможіть мені зрозуміти підтримку векторних машин

Я розумію основи того, що мета підтримки Vector Vector Machines полягає в класифікації вхідного набору на декілька різних класів, але те, що я не розумію, - це деякі деталі, що містять круту. Для початку мене трохи бентежить використання Slack Variables. Яке їх призначення? Я займаюся класифікаційною проблемою, коли я фіксував …

76 machine-learning classification svm

6

Вибір особливостей для "остаточної" моделі при виконанні перехресної перевірки в машинному навчанні

Я трохи розгублений щодо вибору функцій та машинного навчання, і мені було цікаво, чи можете ви мені допомогти. У мене є набір даних мікромасив, який класифікується на дві групи та має 1000 функцій. Моя мета - отримати невелику кількість генів (мої особливості) (10-20) у підписі, які я теоретично зможу застосувати …

76 machine-learning classification cross-validation feature-selection genetics

3

Чому Lasso забезпечує змінний вибір?

Я читав Елементи статистичного навчання , і хотів би знати, чому Лассо забезпечує змінний вибір, а регрес хребта не робить. Обидва способи мінімізують залишкову суму квадратів і обмежують можливі значення параметрів . Для Лассо обмеження є , тоді як для хребта це , для деякого .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt …

76 regression feature-selection lasso regularization

3

Чому логістичну регресію не називають логістичною класифікацією?

Оскільки логістична регресія є моделлю статистичної класифікації, яка займається категорично залежними змінними, чому її не називають логістичною класифікацією ? Чи не слід ім'я "Регресія" зарезервувати для моделей, що працюють з постійними залежними змінними?

75 regression machine-learning logistic classification terminology

5

Поясніть, будь ласка, парадокс очікування

Кілька років тому я створив детектор випромінювання, який працює, вимірюючи інтервал між подіями, а не рахуючи їх. Моє припущення полягало в тому, що при вимірюванні неспоріднених проб я в середньому вимірював половину фактичного інтервалу. Однак, коли я тестував схему з каліброваним джерелом, показник був надмірним у два рази, що означало, …

75 poisson-process paradox

3

Найкращий спосіб представити випадковий ліс у публікації?

Я використовую алгоритм випадкових лісів як надійний класифікатор двох груп у мікромасивному дослідженні з 1000-ма функціями. Який найкращий спосіб представити випадковий ліс, щоб було достатньо інформації для його відтворення на папері? Чи є метод R в R фактично побудувати дерево, якщо є невелика кількість особливостей? Чи є оцінка OOB рівня …

75 r machine-learning classification random-forest microarray

3

Діагностика логістичної регресії?

Для лінійної регресії ми можемо перевірити діагностичні графіки (графіки залишків, графіки нормальної QQ тощо), щоб перевірити, чи порушено припущення про лінійну регресію. Для логістичної регресії у мене виникають проблеми з пошуком ресурсів, які пояснюють, як діагностувати придатність моделі логістичної регресії. Викопуючи деякі курсові записки для GLM, це просто стверджує, що …

74 regression logistic