Запитання з тегом «outliers»

Зовнішній вигляд - це спостереження, яке видається незвичним або недостатньо добре описаним щодо простої характеристики набору даних. Неприємна можливість полягає в тому, що ці дані походять від іншої сукупності, ніж та, яка призначена для вивчення.

1
Як врахувати вплив відпусток у прогнозі
У мене є досить передбачуваний щоденний ряд із щотижневою сезонністю. Я можу придумати прогнози, які здаються досить точними (підтверджені перехресною валідацією), коли немає свят. Однак, коли є свята, у мене є такі питання: У моєму прогнозі я отримую ненульові цифри для свят, хоча всі історичні свята дорівнюють 0. Це, правда, …

3
чому метод прискорення чутливий до людей, що втрачають перевагу
Я знайшов багато статей, в яких говориться, що прискорені методи чутливі до виснажувачів, але жодна стаття не пояснює, чому. На моєму досвіді, люди, що працюють із людьми, погані для будь-якого алгоритму машинного навчання, але чому прискорені методи виокремлюються як особливо чутливі? Яким чином такі алгоритми можна класифікувати за чутливістю до …

4
Хороша форма для видалення залишків?
Я працюю над статистикою для побудови програмного забезпечення. У мене є дані про кожну збірку про пропуск / відмову та минулий час, і ми генеруємо ~ 200 таких / тиждень. Коефіцієнт успішності легко агрегувати, я можу сказати, що 45% пройшли будь-який тиждень. Але я також хотів би узагальнити минулий час, …

3
STL у часових рядах із відсутніми значеннями для виявлення аномалії
Я намагаюсь виявити аномальні значення у часовій серії кліматичних даних з деякими відсутніми спостереженнями. Шукаючи в Інтернеті, я знайшов багато доступних підходів. З них, розкладання stl здається привабливим, у сенсі вилучення тренду та сезонних компонентів та вивчення решти. Читання STL: Процедура декомпозиції сезонного тренду, що базується на Лоссі , stlвидається …

1
Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи
Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
Зовнішнє виявлення в дуже малих наборах
Мені потрібно отримати максимально точне значення для яскравості головного стабільного джерела світла з урахуванням дванадцяти значень освітленості зразка. Датчик недосконалий, і світло може час від часу «мерехтіти» яскравішим або темнішим, що можна ігнорувати, отже, моя потреба у зовнішньому виявленні (я думаю?). Я трохи прочитав тут різні підходи і не можу …

4
Виявлення поза часом у часовій серії: Як зменшити помилкові позитиви?
Я намагаюся автоматизувати зовнішнє виявлення у часових рядах, і я використав модифікацію рішення, запропонованого тут Роб Хайндманом . Скажімо, я вимірюю щоденні відвідування веб-сайту з різних країн. Для деяких країн, де щоденних відвідувань є кілька тисяч або тисячі, мій метод, здається, працює розумно. Однак у тих випадках, коли країна веде …

1
Надійна оцінка куртозу?
Я використовую звичайний оцінювач для , але я помітивщо навіть невеликі «викиди» в моєму емпіричному розподілі, тобто невеликі піки далеко від центру, впливаютьйого надзвичайно. Чи є надійніший оцінювач куртозу?K^=μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

2
Узагальнені лінійні змішані моделі: діагностика
У мене є випадкова логістична регресія перехоплення (за рахунок повторних вимірювань), і я хотів би провести деяку діагностику, зокрема стосовно людей, що перебувають у спокої та впливових спостережень. Я подивився на залишки, щоб побачити, чи існують спостереження. Але я також хотів би поглянути на щось на кшталт відстані Кука або …

2
Наскільки точний IQR для виявлення людей, що вижили
Я пишу сценарій, який аналізує час запуску процесів. Я не впевнений у їх розподілі, але хочу знати, чи процес триває "занадто довго". Поки що я використовував 3 стандартні відхилення останніх періодів запуску (n> 30), але мені сказали, що це не дає нічого корисного, якщо дані не є нормальними (що, здається, …

1
Автоматичний вибір функції для виявлення аномалії
Який найкращий спосіб автоматичного вибору функцій для виявлення аномалії? Я зазвичай розглядаю функцію виявлення аномалії як алгоритм, де функції вибираються експертами людини: важливим є діапазон виводу (як у "ненормальному введенні - ненормальний вихід"), тому навіть при багатьох функціях ви можете створити набагато менший підмножина шляхом комбінування особливості. Однак, якщо припустити, …

3
Пошук середньої точки GPS
Мені потрібно написати програму, щоб знайти середню точку GPS від кількості точок. На практиці відбувається таке: Щомісяця людина записує GPS-точку того самого статичного активу. Через природу GPS ці пункти щомісяця різняться. Іноді людина робить помилку, записуючи неправильну думку в зовсім іншому місці. Кожна точка GPS має вагу визначеності ( HDOP …
11 outliers  spatial 

2
Зовнішнє виявлення за допомогою регресії
Чи може бути використана регресія для виявлення лієрів. Я розумію, що є способи вдосконалити регресійну модель шляхом видалення залишків. Але головна мета тут - не підходити до регресійної моделі, а з’ясувати корисність за допомогою регресії

6
Ідентифікація нелінійних регресій
Я займаюся дослідженнями в області функціональної реакції кліщів. Я хотів би зробити регресію для оцінки параметрів (швидкість атаки та час обробки) функції Роджерса типу II. У мене є набір даних про вимірювання. Як я можу найкращим чином визначити людей, що вижили? Для моєї регресії я використовую наступний скрипт у R …

3
Хороші книги, що охоплюють попередню обробку даних та методи виявлення зовнішньої інформації
Згідно з назвою, чи знає хто-небудь про хорошу, сучасну книгу, яка охоплює попередню обробку даних загалом, і особливо методи зовнішнього виявлення? Книга не повинна зосереджуватись виключно на цьому, але вона повинна вичерпно стосуватися вищезазначених тем - я не був би задоволений чимось, що є відправною точкою, і цитую перелік робіт, …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.