Запитання з тегом «outliers»

Зовнішній вигляд - це спостереження, яке видається незвичним або недостатньо добре описаним щодо простої характеристики набору даних. Неприємна можливість полягає в тому, що ці дані походять від іншої сукупності, ніж та, яка призначена для вивчення.

13
Який найкращий спосіб визначити людей, що переживають люди в багатовимірних даних?
Припустимо, у мене є великий набір багатоваріантних даних, принаймні три змінні. Як я можу знайти аутлієрів? Парні розсіювачі не працюватимуть, оскільки можливе існування зовнішньої структури в трьох вимірах, що не є стороннім у жодному з двох розмірних підпросторів. Я думаю не про проблему регресії, а про справжні багатовимірні дані. Тож …

6
Основні тести перевірки даних
У своїй робочій ролі я часто працюю з наборами даних інших людей, неспеціалісти приносять мені клінічні дані, і я допомагаю їм узагальнити їх та провести статистичні тести. Проблема, яку я маю, полягає в тому, що набори даних, які мені привозять, майже завжди пронизані друкарськими помилками, невідповідностями та всіма іншими проблемами. …

1
Інтерпретація plot.lm ()
У мене виникло питання про інтерпретацію графіків, породжених сюжетом (лм) в Р. Мені було цікаво, чи можете ви, хлопці, сказати мені, як інтерпретувати розміщення розміру та залишкові важелі? Будь-які коментарі будуть вдячні. Припустимо базові знання зі статистики, регресії та економетрики.

14
Простий алгоритм виявлення загального часового ряду в Інтернеті
Я працюю з великою кількістю часових рядів. Ці часові ряди - це в основному мережеві вимірювання, що відбуваються кожні 10 хвилин, а деякі з них періодичні (тобто пропускна здатність), а інші - не (тобто кількість трафіку маршрутизації). Мені хотілося б простого алгоритму для того, щоб зробити онлайн-виявлення «зовнішніх». В основному, …

14
Чому надійні (і стійкі) статистичні дані не замінили класичні методи?
При вирішенні бізнес-проблем із використанням даних прийнято вважати, що принаймні одне ключове припущення про те, що класична статистика недостатку не є дійсною. Більшість часу ніхто не намагається перевірити ці припущення, щоб ви насправді ніколи не знали. Наприклад, що так багато загальних веб-метрик є "довгохвостими" (відносно звичайного розповсюдження), на сьогоднішній день …

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
Як слід поводитися з випускниками в лінійному регресійному аналізі?
Часто статистичному аналітику вручають встановлений набір даних і запитують підходити до моделі за допомогою такої методики, як лінійна регресія. Дуже часто набір даних супроводжується відмовою від відповідальності, подібною до "О так, ми заплуталися, збираючи деякі з цих точок даних - робіть все, що можете". Така ситуація призводить до регресійних припадків, …

8
Створити випадкову змінну з визначеною кореляцією до існуючої змінної
Для дослідження моделювання я повинен генерувати випадкові змінні , які показують prefined (населення) кореляцію з існуючою YYY . Я подивився в Rпакети copulaі CDVineякі можуть виробляти випадкові багатовимірні розподілу із заданою структурою залежностей. Однак неможливо зафіксувати одну із отриманих змінних до існуючої змінної. Будь-які ідеї та посилання на існуючі функції …

4
Швидка лінійна регресія, міцна для людей, що втратили лих
Я маю справу з лінійними даними з випереджаючими людьми, деякі з яких мають більше 5 стандартних відхилень від розрахункової лінії регресії. Я шукаю техніку лінійної регресії, яка зменшує вплив цих точок. Поки що я зробив, це оцінити лінію регресії з усіма даними, потім відкинути точку даних з дуже великими залишками …

8
Суворе визначення чужого?
Люди часто говорять про те, що мають справу зі старшими в статистиці. Що мене турбує з цього приводу, це те, що, наскільки я можу сказати, визначення спокійного обличчя є абсолютно суб'єктивним. Наприклад, якщо справжній розподіл якоїсь випадкової змінної є дуже важким або бімодальним, будь-яка стандартна візуалізація або зведена статистика для …

1
Виявлення випускників у часових рядах (LS / AO / TC) за допомогою пакету tsoutliers в Р. Як представити форматів у форматі рівнянь?
Коментарі: По-перше, я хотів би сказати велике спасибі авторові нового пакету tsoutliers, який реалізує виявлення зовнішнього часу Чен та Лю, який був опублікований в Журналі Американської статистичної асоціації в 1993 році в програмному забезпеченні Open Source .RRR Пакет ітераційно виявляє 5 різних типів випускників у даних часових рядів: Адитивна добавка …

8
Чи гарно видаляти людей, які не впадають у життя?
Я шукав спосіб видалити залишків із набору даних і знайшов це питання . Однак у деяких коментарях та відповідях на це запитання люди згадували, що видаляти з людей, які втратили життя, є поганою практикою. У моєму наборі даних є декілька людей, які, ймовірно, пов'язані лише з помилками вимірювання. Навіть якщо …
33 outliers 

3
Яким чином випадкові ліси не чутливі до людей, що пережили?
Я читав у кількох джерелах, включаючи це , про те, що випадкові ліси не чутливі до людей, що переживають люди (наприклад, Логістична регресія та інші методи боротьби з МС). Однак дві інтуїції говорять мені про інше: Щоразу, коли будується дерево рішень, усі точки повинні бути класифіковані. Це означає, що навіть …

1
Виявлення аномалії зв'язку в тимчасовій мережі
Я натрапив на цей документ, який використовує виявлення аномалії посилань для прогнозування актуальних тем, і мені здалося, що це неймовірно інтригує. Документ - "Виявлення нових тем у соціальних потоках за допомогою виявлення аномалії посилань" . Я б хотів тиражувати це на інший набір даних, але я недостатньо знайомий з методами, …

8
Заміна випускників середнім рівнем
Це питання мені задав мій друг, який не користується Інтернетом. У мене немає статистичних даних, і я шукав Інтернет з цього питання. Питання полягає в тому, чи можна замінити середньостатистичні показники? якщо це можливо, чи є довідники / журнали для резервного копіювання цього твердження?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.