Запитання з тегом «outliers»

Зовнішній вигляд - це спостереження, яке видається незвичним або недостатньо добре описаним щодо простої характеристики набору даних. Неприємна можливість полягає в тому, що ці дані походять від іншої сукупності, ніж та, яка призначена для вивчення.

5
Чи може очищення даних погіршити результати статистичного аналізу?
Збільшення кількості випадків та випадків смерті відбувається під час епідемій (раптове збільшення кількості) через циркуляцію вірусу (як Вірус Західного Нілу в США у 2002 р.) Або зменшення опірності людей, забруднення їжі чи води або збільшення кількості комарі. Ці епідемії представлятимуть пережиті люди, які можуть виникати кожні 1 - 5 років. …

1
Міцна PCA та міцна відстань махаланобіса для виявлення зовнішньої форми
Надійна PCA (розроблена Candes et al. 2009 або ще краще Netrepalli et al. 2014 ) є популярним методом для виявлення багатоваріантного зовнішнього середовища , але відстань махаланобіса також може бути використана для виявлення зовнішньої тканини з урахуванням надійної, регульованої оцінки коваріаційної матриці . Мені цікаво (не) переваги використання одного методу …

2
Як робити прогнозування з виявленням залишків у R? - Порядок та метод аналізу часових рядів
У мене є дані про щомісячні часові ряди, і я хотів би робити прогнозування з виявленням людей, що вижили. Це зразок мого набору даних: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 …

3
Міцне виявлення зовнішньої торгівлі у фінансових періодах
Я шукаю кілька надійних методів усунення випадків та помилок (незалежно від причини) з даних фінансових часових рядів (тобто тикдатів). Дані про фінансові часові серії "Позначте за кліком" дуже брудні. Він містить величезні (часові) прогалини, коли обмін закритий, і роблять величезні стрибки, коли обмін відкриється знову. Коли біржа відкрита, усі види …

5
Чи це обман для того, щоб скинути авангардистів на основі осередкової середньої абсолютної помилки для вдосконалення регресійної моделі
У мене є модель прогнозування, протестована чотирма методами, як ви бачите на малюнку boxplot нижче. Атрибут, який передбачає модель, знаходиться в межах 0-8. Ви можете помітити, що існує одна верхня межа та три нижньої межі, що вказана усіма методами. Цікаво, чи доцільно видалити ці дані з даних? Або це свого …

2
Точне значення та порівняння між впливовою точкою, високою точкою важеля та іншими?
З Вікіпедії Впливові спостереження - це ті спостереження, які мають відносно великий вплив на прогнози регресійної моделі. З Вікіпедії Отримані позитивні точки - це спостереження, якщо такі є, зроблені при екстремальних або зовнішніх значеннях незалежних змінних, так що відсутність сусідніх спостережень означає, що відповідна модель регресії буде проходити близько до …

2
Оцінка параметрів нормального розподілу: медіана замість середньої?
Загальний підхід для оцінки параметрів нормального розподілу полягає у використанні середнього та стандартного відхилення / дисперсії вибірки. Однак якщо є якісь пережиті люди, медіана та відхилення медіани від медіани повинні бути набагато стійкішими, правда? У деяких наборах даних, які я намагався, звичайний розподіл, оцінений N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|) здається, набагато …

3
Збій ходу в надійній середній оцінці
У мене є маса (приблизно 1000) оцінок, і всі вони повинні бути оцінками довготривалої еластичності. Трохи більше половини з них оцінюється за допомогою методу A, а решта - за допомогою методу B. Десь я прочитав щось на кшталт "Я думаю, що метод B оцінює щось зовсім інше, ніж метод А, …

3
Розуміння смуги довіри від поліноміальної регресії
Я намагаюся зрозуміти результат, який я бачу в своєму графіку нижче. Зазвичай я схильний використовувати Excel і отримую лінійно-регресійну лінію, але у випадку нижче я використовую R і отримую поліноміальну регресію з командою: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Тож мої запитання зводяться до цього: Яка сіра зона (стрілка №1) …

5
Чи існує простий спосіб виявлення людей, що пережили?
Мені цікаво, чи існує простий спосіб виявлення людей, що вижили. Для одного з моїх проектів, який, в основному, був співвідношенням кількості разів, коли респонденти беруть участь у фізичних навантаженнях за тиждень, і кількістю разів, коли вони їдять поза домом (фаст-фуд) протягом тижня, я намалював розсип і буквально видалив точки даних, …

1
Відкидання випускників на основі "в 2,5 рази більше RMSE"
У Kahneman and Deaton (2010) автори пишуть наступне:††^\dagger Ця регресія пояснює 37% дисперсії із середньоквадратичною помилкою (RMSE) 0,67852. Для усунення збитків та неправдоподібних звітів про прибутки ми відхилили спостереження, в яких абсолютна величина різниці між доходами журналу та його прогнозом перевищила в 2,5 рази більше RMSE. Це звичайна практика? Яка …


2
використання інформації про сусідів для введення даних або пошуку даних (у R)
У мене є набір даних з припущенням, що найближчі сусіди є найкращими прогнозами. Просто прекрасний приклад двостороннього візуалізації градієнта- Припустимо, у нас є випадок, коли мало значень не вистачає, ми можемо легко передбачити, виходячи з сусідів та тенденції. Відповідна матриця даних у R (макетний приклад для тренування): miss.mat <- matrix …

1
ЛАРС проти координатного спуску для ласо
Які плюси та мінуси використання LARS [1] проти використання координатного спуску для встановлення L1-регульованої лінійної регресії? Мене в основному цікавлять аспекти ефективності (мої проблеми мають, як правило, Nсотні тисяч і p<20). Однак, будь-які інші дані також будуть оцінені. редагувати: Оскільки я розмістив запитання, chl люб'язно вказав на статтю [2] Friedman …

4
Виділення двох сукупностей від вибірки
Я намагаюся відокремити дві групи значень з одного набору даних. Я можу припустити, що одна з популяцій зазвичай розподілена і становить щонайменше половину розміру вибірки. Значення другого є і нижчими, або вищими, ніж значення першого (розподіл невідомий). Що я намагаюся зробити - це знайти верхню і нижню межі, які охоплювали …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.