Ідентифікація нелінійних регресій


11

Я займаюся дослідженнями в області функціональної реакції кліщів. Я хотів би зробити регресію для оцінки параметрів (швидкість атаки та час обробки) функції Роджерса типу II. У мене є набір даних про вимірювання. Як я можу найкращим чином визначити людей, що вижили?

Для моєї регресії я використовую наступний скрипт у R (нелінійна регресія): (набір дат - це простий текстовий data.txtфайл із двома стовпцями, який називається файлом зі N0значеннями (кількість початкової здобичі) та FRзначеннями (кількість з'їденої здобичі протягом 24 годин):

library("nlstools")
dat <- read.delim("C:/data.txt")    
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <-  nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter=    10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters

Для побудови графіків кальсових залишків я використовую наступний сценарій:

res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
    qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
    qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
    boxplot (res$resi2,main="boxplot normalised residuals")

Запитання

  • Як я можу найкраще визначити, які точки даних є аутлайнерами?
  • Чи є тести, які я можу використовувати в R, які є об'єктивними і показують мені, які точки даних є видатками?

Відповіді:


9

У outliersпакеті в Р. доступно кілька тестів для людей, що переживають люди, включаючи Діксона та Грубба. Перелік тестів див. У документації до пакету. Посилання, що описують тести, наведені на довідкових сторінках відповідних функцій.

У випадку, якщо ви планували вилучити залишків даних зі своїх даних, майте на увазі, що це не завжди доцільно. Дивіться, наприклад, це питання для обговорення цього питання (а також ще кілька пропозицій щодо того, як виявити людей, що втратили життя).


8

Я також не є статистиком. Тому я використовую свої експертні знання щодо цих даних, щоб знайти людей, що не існують. Тобто я шукаю фізичні / біологічні / з будь-яких причин, які зробили деякі вимірювання різними від інших.

У моєму випадку це, наприклад

  • космічні промені псують частину вимірюваного сигналу
  • хтось входить у лабораторію, включаючи світло
  • просто весь спектр якось виглядає інакше
  • Перший вимірювальний ряд був зроблений у звичайний робочий час і на порядок більший за шум, ніж серія 10 вечора

Напевно, ви могли б сказати нам подібні ефекти.

Зауважте, що моя третя точка відрізняється від інших: я не знаю, що сталося. Це може бути вигляд, про який ви питаєте. Однак, не знаючи, що це спричинило (і що ця причина недійсна точка даних), важко сказати, що вона не повинна відображатися в наборі даних. Також: ваш американець може бути моїм найцікавішим зразком ...

Тому я часто кажу не про чужих людей, а про підозрілі моменти даних. Це нагадує всім, що їх потрібно двічі перевірити на їх значення.

Це добре чи не виключати дані (хто хоче знайти інших людей лише заради того, щоб їх мати?) Дуже залежить від того, що це за завдання і які "граничні умови" для цього завдання. Деякі приклади:

  • Ви щойно відкрили новий підвид Jolieimii outlierensis ;-) немає причин їх виключати. Виключіть усі інші.

  • Ви хочете передбачити часи вилучення кліщів. Якщо допустимо обмежувати передбачення певними умовами, ви можете сформулювати їх і виключити всі інші зразки і сказати, що ваша прогнозована модель стосується тієї чи іншої ситуації, хоча ви вже знаєте, що інші ситуації (опишіть тут) трапляються.

  • Майте на увазі, що виключення даних за допомогою модельної діагностики може створити своєрідне самореалізаційне пророцтво або надмірно оптимістичне упередження (тобто, якщо ви заявляєте, що ваш метод є загальноприйнятим): чим більше зразків ви виключаєте, оскільки вони не відповідають вашим припущення, тим кращими є припущення, якими відповідають інші зразки. Але це лише через виключення.

  • На даний момент у мене є завдання, де у мене є маса поганих вимірювань (я знаю фізичну причину, чому я вважаю вимірювання поганим), та ще декілька, які якось "виглядають дивно". Що я роблю, це те, що я виключаю ці зразки з тренінгу моделі (передбачення), але окремо випробовую модель з ними, щоб я могла щось сказати про надійність моєї моделі проти тих, хто знає, що відбуватимуться кожен раз у поки . Таким чином, додатку так чи інакше потрібно боротися з цими людьми.

  • Ще один спосіб поглянути на людей, що не мають права, - це запитання: «Наскільки вони впливають на мою модель? (Важелі). З цієї точки зору ви можете виміряти стійкість або стабільність щодо дивних навчальних зразків.

  • Яку б статистичну процедуру ви не використовували, вона або не ідентифікує жодних людей, які не випадають, або матиме помилкові позитиви. Ви можете охарактеризувати процедуру тестування на зовнішніх рівнях, як і інші діагностичні тести: вона має чутливість та специфіку, і - що важливіше для вас - вони відповідають (через частку, що перевищує ваші дані), позитивному та негативному прогнозному значенню. Іншими слова, особливо якщо ваші дані дуже мало викидів, в probablility що випадок ідентифікований з допомогою тесту аномального значення дійсно є останцем (тобто не повинен бути в даних) може бути дуже низькими.
    Я вважаю, що експертні знання про наявні дані, як правило, набагато кращі для виявлення людей, що перебувають у віці, ніж статистичні тести: тест настільки ж хороший, як і припущення, що стоять за ним. І один-розмір-все часто не дуже добре для аналізу даних. Принаймні, я часто маю справу з видом людей, де фахівці (щодо такого типу вимірювання) не мають проблеми з ідентифікацією точної частини сигналу, яка є компрометованою, а автоматизовані процедури часто не спрацьовують (їх легко виявити, що існує проблема, але дуже важко змусити їх знайти, де проблема починається і де вона закінчується).


Тут багато хорошої інформації. Особливо мені подобаються кульові точки №4 і 5.
gung - Відновіть Моніку

4

Для однонаціональних людей, що переживають люди, існує тест на співвідношення Діксона і тест Груббса, припускаючи нормальність. Для тестування на інше, ви повинні припустити розподіл популяції, оскільки ви намагаєтесь показати, що спостережуване значення є надзвичайним або незвичним, щоб виходити з припущеного розподілу. У 1982 році у мене є стаття американського статистика, на яку я, можливо, посилався тут, де видно, що тест на відношення Діксона можна використовувати в невеликих зразках навіть для деяких ненормальних розподілів. Chernick, MR (1982) "Примітка про стійкість коефіцієнта Діксона у малих зразках" Американський статистик, стор. 140. Для багатоваріантних людей, що переживають люди та люди, що перебувають у стані часових рядів, функції впливу для оцінок параметрів є корисними заходами для неофіційного виявлення людей, що втратили життя (я не знаю формальних тестів, побудованих для них, хоча такі випробування можливі)."Випускники статистичних даних" для детального оброблення методів виявлення сторонніх людей.


3

Див. Http://www.waset.org/journals/waset/v36/v36-45.pdf , "Про виявлення зовнішньої структури в нелінійній регресії" [ sic ].

Анотація

Виявлення чужих людей дуже важливо через їх відповідальність за створення величезної інтерпретаційної проблеми як в лінійному, так і в нелінійному регресійному аналізі. Проведено велику роботу з ідентифікації зовнішньої структури в лінійній регресії, але не в нелінійній регресії. У цій статті ми пропонуємо кілька методів виявлення зовнішньої форми для нелінійної регресії. Основна ідея полягає у використанні лінійного наближення нелінійної моделі та розглядати градієнт як матрицю проектування. Згодом формулюються методи виявлення. Розроблено шість заходів виявлення, які поєднуються з трьома методиками оцінки, такими як найменші квадрати, М та ММ-оцінки. Дослідження показує, що серед шести заходів лише ступінчасті залишки та відстань Кука, які поєднуються з оцінкою ММ,


+1 Незважаючи на очевидні проблеми з англійською мовою (і в математичному наборі), цей документ є корисним внеском у питання.
whuber

2

Аутлер - це точка, яка "занадто далека" від "якоїсь базової лінії". Хитрість полягає у визначенні обох цих фраз! За допомогою нелінійної регресії не можна просто використовувати одновимірні методи, щоб перевірити, чи не стороннє «надто далеко» від кривої найкращого пристосування, тому що аутлієр може мати величезний вплив на саму криву.

Ми з Ронам Брауном розробили унікальний метод (який ми називаємо ROUT - міцна регресія та видалення Outlier) для виявлення залишків з нелінійною регресією, не дозволяючи навколишньому впливати на криву занадто сильно. По-перше, підготуйте дані за допомогою надійного методу регресії, коли люди, що переживають люди, мають незначний вплив. Це формує базову лінію. Потім використовуйте ідеї False Discovery Rate (FDR), щоб визначити, коли точка "занадто далека" від цієї базової лінії, і так це більше. Нарешті, він видаляє ідентифіковані люди, що залишилися, та умовно підходить до решти пунктів.

Метод опублікований у журналі з відкритим доступом: Мотульський HJ та Браун Р.Е. Виявлення людей, що випадають при встановленні даних з нелінійною регресією - новий метод, що ґрунтується на надійній нелінійній регресії та швидкості виявлення помилок , BMC Bioinformatics 2006, 7: 123. Ось реферат:

Фон Нелінійна регресія, як лінійна регресія, передбачає, що розсіювання даних навколо ідеальної кривої слід за Гауссовим або нормальним розподілом. Це припущення призводить до звичної мети регресії: мінімізувати суму квадратів вертикальних або Y-значень відстаней між точками та кривою. Отримані люди можуть домінувати над розрахунком суми квадратів та призводити до оманливих результатів. Однак ми не знаємо жодного практичного методу для рутинної ідентифікації людей, що випадають, при встановленні кривих з нелінійною регресією.

Результати. Ми описуємо новий метод ідентифікації людей, що випадають, при встановленні даних з нелінійною регресією. Ми спочатку підходимо до даних, використовуючи стійку форму нелінійної регресії, грунтуючись на припущенні, що розсіювання слід за розподілом Лоренція. Ми розробили новий адаптивний метод, який поступово стає більш надійним у міру протікання методу. Для того, щоб визначити людей, що залишилися, ми адаптували підхід із помилковою швидкістю виявлення до обробки кількох порівнянь. Потім ми видаляємо залишки та аналізуємо дані за допомогою звичайної регресії найменших квадратів. Оскільки метод поєднує в собі надійну регресію та видалення зовні, ми називаємо це методом ROUT.

Аналізуючи імітовані дані, де всі розкиди є гауссовими, наш метод виявляє (помилково) одне або більше чужих лише у 1–3% експериментів. При аналізі даних, забруднених одним або декількома особами, метод ROUT добре працює при виявленні зовнішньої кількості, із середнім рівнем помилкового виявлення менше 1%.

Висновок. Наш метод, який поєднує новий метод робастної нелінійної регресії з новим методом ідентифікації зовнішньої форми, ідентифікує залишків з нелінійної кривої, що відповідає розумній потужності та мало хибних позитивних результатів.

Він не був (наскільки я знаю) реалізований в Р. Але ми реалізували його в GraphPad Prism. і надайте просте пояснення у довідці про призму .


0

Ваше запитання занадто загальне. Не існує єдиного найкращого методу для виключення "людей, що вижили".

Вам довелося знати деякі властивості щодо "чужих людей". або ви не знаєте, який метод найкращий. Вирішивши, який метод потрібно використовувати, потрібно ретельно відкалібрувати параметри методу.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.