Запитання з тегом «outliers»

Зовнішній вигляд - це спостереження, яке видається незвичним або недостатньо добре описаним щодо простої характеристики набору даних. Неприємна можливість полягає в тому, що ці дані походять від іншої сукупності, ніж та, яка призначена для вивчення.

4
Виявлення залишків за допомогою стандартних відхилень
Після мого запитання тут мені цікаво, чи існують чіткі погляди на або проти використання стандартного відхилення для виявлення людей, що втрачають похилого віку (наприклад, будь-яка точка даних, що перевищує 2 стандартних відхилення, - це більше). Я знаю, що це залежить від контексту дослідження, наприклад, точка даних, що становить 48 кг, …
27 outliers 

1
Чому PCA чутливий до людей, що втрачають спокій?
У цій SE є багато публікацій, в яких обговорюються надійні підходи до аналізу основних компонентів (PCA), але я не можу знайти єдиного хорошого пояснення того, чому PCA чутливий в першу чергу до людей, що переживають люди.

4
Чому RANSAC не використовується найбільш широко в статистиці?
Виходячи з області комп’ютерного зору, я часто використовував метод RANSAC (Random Sample Consensus) для пристосування моделей до даних з великою кількістю видатків. Однак я ніколи не бачив, щоб його використовували статистики, і я завжди мав враження, що це не вважається "статистично обгрунтованим" методом. Чому це так? Він є випадковим за …

3
Застосування вейвлетів до алгоритмів виявлення аномалій на основі часових рядів
Я почав працювати над навчальними посібниками зі статистичних даних з Ендрю Мура (дуже рекомендується для всіх, хто вперше зайнявся цією сферою). Я почав з прочитання цього надзвичайно цікавого PDF під назвою "Вступний огляд алгоритмів виявлення аномалій на основі часових рядів", в якому Мур простежує багато методів, що використовуються при створенні …

3
Зовнішнє виявлення на перекошених дистрибутивах
За класичним визначенням зовнішньої форми як точки даних, що витісняє 1,5 * IQR від верхнього або нижнього кватилі, існує припущення про несказаний розподіл. Для косих розподілів (Експоненціальна, Пуассонова, Геометрична тощо) найкращий спосіб виявити сторонність шляхом аналізу перетворення вихідної функції? Наприклад, дистрибутиви, керовані експоненціальним розподілом, можуть бути перетворені за допомогою функції …

2
У якому порядку слід робити лінійну регресійну діагностику?
При лінійному регресійному аналізі ми аналізуємо чужих людей, досліджуємо мультиколінеарність, тестуємо гетеросцедастику. Питання: Чи є наказ застосувати їх? Я маю на увазі, чи треба нам спочатку проаналізувати людей, а потім вивчити мультиколінеарність? Або назад? Чи є щодо цього правило?

2
Розподіл відстані махаланобіса на рівні спостереження
Якщо у мене є багатоваріантний нормальний зразок iid X1,…,Xn∼Np(μ,Σ)X1,…,Xn∼Np(μ,Σ)X_1, \ldots, X_n \sim N_p(\mu,\Sigma) , і визначити (яка є різновидом відстані махаланобіса [в квадраті] від вибіркової точки до вектора використовуючи матрицю для зважування), який розподіл (відстань махаланобіса до вибірки середнє значення використанням матриці коваріації вибірки )?a Ad2i(b,A)=(Xi−b)′A−1(Xi−b)di2(b,A)=(Xi−b)′A−1(Xi−b)d_i^2(b,A) = (X_i - b)' …

4
Чи слід видаляти випадки, які зазначаються статистичними програмними засобами як переживаючі при здійсненні багаторазової регресії?
Я роблю кілька регресійних аналізів, і не впевнений, чи слід видаляти застарілі дані з моїх даних. Дані, які мене турбують, з’являються як "кола" на скриньках SPSS, однак зірочок немає (що змушує мене думати, що вони не такі "погані"). Випадки, які мене турбують, відображаються у таблиці "Діагностика випадкових випадків" на виході …

1
Виявлення залишків у даних підрахунку
У мене є те, що я наївно вважав проблемою досить прямої, яка передбачає виявлення зовнішньої кількості для багатьох різних наборів даних про підрахунок. Зокрема, я хочу визначити, чи одне або більше значень у ряді даних підрахунку є вищими чи нижчими, ніж очікувалося, щодо решти підрахунків у розподілі. Помилковий фактор полягає …

3
Як оцінити скосистість від коробки?
Як визначити скасованість, подивившись на побудовану з цих даних коробку: 340, 300, 520, 340, 320, 290, 260, 330 В одній книзі сказано: "Якщо нижній квартал знаходиться далі від медіани, ніж верхній квартал, то розподіл негативно перекошений". Кілька інших джерел сказали більш-менш те саме. Я побудував боксер за допомогою Р. Це …

2
Запуск завантаження - чи потрібно мені спочатку видалити інші люди?
Ми провели спліт-тест на нову функцію продукту і хочемо оцінити, чи значне підвищення доходу. Наші спостереження, безумовно, зазвичай не розподіляються (більшість наших користувачів не витрачають коштів, і в межах тих, хто це робить, він сильно перекошений до безлічі маленьких витрачальників і кількох дуже великих витрачених). Ми вирішили використати завантажувальну систему …

2
Виявлення аномалії за допомогою манекенів (та інших дискретних / категоричних особливостей)
тл; д-р Який рекомендований спосіб поводження з discreteданими при виявленні аномалії? Який рекомендований спосіб поводження з categoricalданими при виявленні аномалії? Ця відповідь пропонує використовувати дискретні дані для простого фільтрування результатів. Можливо, замініть значення категорії на шанс спостереження? Вступ Це моя перша публікація тут, тому, будь ласка, якщо щось не здається …

4
Що ґрунтується на визначенні граніту "Графік" та "Віскі"?
Стандартне визначення викиду для ділянки Box і бакенбард точки за межами діапазону , де я Q R = Q 3 - Q 1 і Q 1 є перший квартал і Q 3 - третій квартал даних.{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 Що є основою для цього визначення? Маючи велику кількість балів, навіть абсолютно нормальний …

1
Чи можемо ми використовувати одне середнє і стандартне відхилення, щоб виявити людей, що вижили?
Припустимо, я нормально поширював дані. Для кожного елементу даних я хочу перевірити, наскільки кількість SD знаходиться далеко від середнього. У даних може бути зовнішній вигляд (ймовірно, лише один, але може бути і два-три), чи ні, але в основному це те, що я шукаю. Чи має сенс тимчасово виключити елемент, на …

3
Як представити сюжет коробки з екстремальним зовнішнім виглядом?
Я можу скористатись деякими вказівками щодо представлення деяких даних. Цей перший графік являє собою порівняльний випадок для цитокіну IL-10. Я вручну встановив вісь y, щоб включати 99% даних. Я встановив це вручну, тому що група випадків має надзвичайний зовнішній вигляд. Мої співробітники вагаються з видаленням зовнішнього набору даних. Я з …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.