Чи припускають статистики, що не можна перезволожувати рослину, або я просто використовую неправильні пошукові терміни для криволінійної регресії?


18

Майже всі , що я читав про лінійної регресії і GLM зводиться до цього: , де є незростаюча або неубивающей функцією і є параметр , який ви оцінити та перевірити гіпотези про. Існують десятки функцій зв'язку та перетворень і щоб зробити лінійною функцією .f ( x , β ) x β y x y f ( x , β )y=f(x,β)f(x,β)xβyxyf(x,β)

Тепер, якщо ви вилучите вимогу, що не збільшується / зменшується, для , я знаю лише два варіанти встановлення параметричної лінеаризованої моделі: тригонні функції та поліноми. Обидва створюють штучну залежність між кожним передбачуваним і всім набором , що робить їх дуже ненадійним пристосуванням, якщо немає попередніх причин вважати, що ваші дані насправді генеруються циклічним чи поліноміальним процесом.y Xf(x,β)yX

Це не якийсь езотеричний крайний випадок. Це фактична, здорова взаємозв'язок між врожайністю води та врожаю (як тільки ділянки будуть досить глибокими під водою, урожайність урожаю почне зменшуватися), або між витраченими калоріями під час сніданку та результатами математичної вікторини, або кількістю працівників на заводі та кількість віджетів, які вони виробляють ... коротше кажучи, майже будь-який випадок із реального життя, для якого використовуються лінійні моделі, але з даними, що охоплюють достатньо широкий діапазон, що ви проходите повз зменшення повертається в негативну віддачу.

Я намагався шукати терміни «увігнутий», «опуклий», «криволінійний», «немонотонний», «ванна», і забуваю, скільки інших. Мало відповідних запитань і ще менше корисних відповідей. Так, на практиці, якщо у вас були такі дані (R-код, y - функція безперервної змінної x та дискретна група змінних):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

Діаграма розкиду

Спершу ви можете спробувати трансформацію Box-Cox і побачити, чи має це механістичний сенс, а якщо цього не вдасться, вам може підійти нелінійна модель найменших квадратів з функцією логістичного або асимптотичного зв’язку.

Отже, навіщо вам повністю відмовитися від параметричних моделей і повернутися назад до методу чорної скриньки, як сплайни, коли дізнаєтесь, що повний набір даних виглядає так ...

plot(y~x,updown,col=group);

Мої запитання:

  • Які терміни слід шукати, щоб знайти функції зв’язку, які представляють цей клас функціональних зв’язків?

або

  • Що я повинен читати та / або шукати, щоб навчити себе проектувати функції зв’язку до цього класу функціональних зв’язків або розширювати існуючі, які наразі призначені лише для монотонних відповідей?

або

  • Чорт, навіть те, що тег StackExchange є найбільш підходящим для такого типу питань!

4
Я поняття не маю, про що ви питаєте. Ви хочете вписати немонотонну функцію ... яка саме ваша проблема з поліноміальною регресією чи знову синусоїдною регресією ?? Також ... "функція зв'язку" ... ви продовжуєте використовувати це слово ... Я не думаю, що це означає, що ви думаєте, що воно означає. x
Джейк Уестпад

5
(1) У вашому Rкоді є синтаксичні помилки: groupїх не слід цитувати. (2) Сюжет прекрасний: червоні точки демонструють лінійну залежність, тоді як чорні можуть бути встановлені декількома способами, включаючи кусочно-лінійну регресію (отриману за допомогою моделі зміни точки) і, можливо, навіть як експоненціальну. Я , однак, не рекомендую їх, тому що вибір моделювання повинен бути поінформований розумінням того, що спричинило дані та мотивовано теоріями у відповідних дисциплінах. Вони можуть стати кращим початком для ваших досліджень.
whuber

1
@whuber дякую! Виправлений код. Щодо теоретичної мотивації: звідки вони беруться в першу чергу? Співробітники мого стендового вченого із задоволенням будуть дихотомізувати змінні прогнозувальника та робити тести на них. Тож мені падає знайти спосіб зупинити витрачання даних шляхом пошуку математичної залежності, яка фіксує перехід від "y корелює позитивно з x" до "y має мало відповіді на x" до "y корелює негативно з x". Якщо цього не вдасться, мені доведеться переказати те, що, наприклад, зробили Майклiс та Ментен, коли вони знайшли зв’язок між ферментом, субстратом та продуктом.
f1r3br4nd

1
Чи відомі заздалегідь пункти, коли ці речі «перехитуються»?
Glen_b -Встановити Моніку

3
+1 за провокаційний заголовок та продовження, що насправді має сенс
Stumpy Joe Pete

Відповіді:


45

Зауваження у питанні про функції зв’язку та монотонність - це червона оселедець. В основі їх, здається, є неявне припущення, що узагальнена лінійна модель (GLM), виражаючи очікування відповіді як монотонної функції f лінійної комбінації X β пояснювальних змінних X , не є достатньо гнучкою для обліку не- монотонні відповіді. Це просто не так.YfXβX


Можливо, спрацьований приклад висвітлить цю точку. У дослідженні 1948 р. (Опублікованому посмертно в 1977 р. І ніколи не проводилось рецензування) Дж. Толкін повідомив про результати експерименту з поливу рослин, в якому 13 групам з 24 соняшників ( Helianthus Gondorensis ) було надано контрольовані кількості води, починаючи при проростанні через три місяці. зростання. Загальна кількість застосованих сум варіювалася від одного дюйма до 25 дюймів з кроком у два дюйма.

Фігура 1

Існує чітка позитивна реакція на полив і сильна негативна реакція на перезволоження. У попередній роботі, заснованій на гіпотетичних кінетичних моделях транспортування іонів, було висунуто гіпотезу, що два конкуруючих механізми можуть пояснювати цю поведінку: один призводив до лінійної реакції на малу кількість води (як вимірюється в журналах шансів виживання), а інший - -інгібуючий фактор - діяв експоненціально (що є сильно нелінійним ефектом). При великій кількості води гальмуючий фактор перекриє позитивні ефекти води і помітно збільшить смертність.

κYnx

Binomial(n,f(β0+β1xβ2exp(κx)))
fxκβ0β1β2f1(E[Y])x1β0xβ1exp(κx)β2

κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

Немає технічних труднощів; розрахунок займає лише 1/30 секунди.

Малюнок 2

E[Y]

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Відповіді на запитання:

Які терміни слід шукати, щоб знайти функції зв’язку, які представляють цей клас функціональних зв’язків?

Ні : це не є метою функції зв'язку.

Що я повинен ... шукати, щоб ... розширити існуючі [функції зв’язку], які наразі призначені лише для монотонних відповідей?

Нічого : це засновано на нерозумінні способів моделювання відповідей.

Очевидно, спершу слід зосередитись на тому, які пояснювальні змінні використовувати або будувати при побудові регресійної моделі. Як запропоновано в цьому прикладі, шукайте настанови з минулого досвіду та теорії.


приголомшлива відповідь! Це фактичні дані лише з роману?
Cam.Davidson.Pilon

1
@Cam Дані не зробили остаточне скорочення :-). (Я боюся, що контекст - це досить язик у щоку.)
whuber

1
κ

5
κκχ2(1)

1
@zipzapboing Приклад, який я наводжу тут, є особливим, оскільки він був проінформований в основі теорії. Коли така інформація доступна, це може бути потужним посібником щодо вибору моделі. У багатьох випадках, однак, такої інформації немає, або можна лише сподіватися, що очікувана реакція монотонно відрізнятиметься від регресорів. Мабуть, найбільш фундаментальна причина, на яку можна вказати, - це надія на те, що реакція різниться різниться в порівнянні з регресорами і що для діапазону регресорів у даних зміна похідної невелика: лінійна відповідь наближає це добре.
whuber

9

Виновно дивиться на вмираючу рослину на своєму столі .... мабуть, ні

У коментарях @whuber зазначає, що "вибір моделей повинен бути поінформований через розуміння того, що спричинило дані та мотивоване теоріями у відповідних дисциплінах", до якого ви запитали, як можна робити це.

Кінетика Майкла і Ментена насправді є досить корисним прикладом. Ці рівняння можна отримати, починаючи з деяких припущень (наприклад, субстрат знаходиться в рівновазі зі своїм комплексом, фермент не споживається) та деяких відомих принципів (закон масової дії). Математична біологія Мюррея: Вступ розглядає виведення в главі 6 (я б став би на те, що багато інших книг теж роблять!).

Більш загально, це допомагає формувати "репертуар" моделей та припущень. Я впевнений, що у вашій галузі є деякі загальноприйняті, перевірені часом моделі. Наприклад, якщо щось заряджається або розряджається, я б досягв показника, щоб моделювати його напругу як функцію часу. І навпаки, якщо я бачу форму, схожу на експоненцію, на графіку напруги та часу, першим моїм припущенням буде те, що щось в ланцюзі ємнісно розряджається, і, якби я не знав, що це таке, я б спробував його знайти. В ідеалі теорія може як допомогти вам побудувати модель, так і запропонувати нові експерименти.

y=k(x+h)2CO2 захоплення від меншої транспірації?) та повені (бактерії, що харчуються корінням?), можуть запропонувати певну форму для кожного шматка.


8

Я маю досить неофіційну відповідь з точки зору того, хто половину свого наукового життя провів на лавці, а іншу половину за комп’ютером, граючи зі статистикою. Я спробував викласти коментар, але це було занадто довго.

Розумієте, якби я вчений спостерігав за типом результатів, які ви отримуєте, я був би в захваті. Різні монотонні стосунки нудні та важко розрізнені. Однак тип відносин, який ви нам показуєте, передбачає дуже особливий ефект. Це дає нам чудовий майданчик для теоретика для висунення гіпотез про те, що таке взаємозв'язок, як воно змінюється в крайніх межах. Це дає чудовий майданчик для вченого-лавника, щоб зрозуміти, що відбувається, і широко експериментувати над умовами.

У певному сенсі я скоріше маю випадок, який ви показуєте, і не знаєте, як підходити до простої моделі (але вміти розробити нову гіпотезу), ніж мати просту взаємозв'язок, просту для моделювання, але важче досліджувати механістично. Однак я ще не стикався з таким випадком у своїй практиці.

Нарешті, є ще один розгляд. Якщо ви шукаєте тест, який показує, що чорний колір відрізняється від червоного (у ваших даних) - як колишній науковець на лавці, я кажу, чому навіть це турбує? Це досить зрозуміло з фігури.


5

Для таких даних я б, мабуть, враховував принаймні лінійні сплайни.

Ви можете зробити це в lm або glm досить легко.

Якщо ви скористаєтесь таким підходом, вашою проблемою буде вибір кількості вузлів та місць розташування вузлів; одне рішення може полягати в розгляді достатньої кількості можливих локацій, а також використовувати щось на зразок ласо або інших методів регуляризації та відбору для виявлення невеликого набору; вам потрібно буде врахувати ефект такого відбору у висновку.


Але чи не регресія сплайну в основному говорить: "є невідома функція, що описує форму відповіді, і ми лише перевіримо гіпотези про те, як інші змінні зміщують цю криву вгору / вниз або нахиляють її"? Що робити, якщо лікування змінює саму форму - як інтерпретувати такий термін взаємодії, якщо він є значущим?
f1r3br4nd

2
Наскільки загальна альтернатива? Навіть для загального випадку існують різноманітні підходи, де можна порівняти придатність, передбачаючи однакові непараметричні функції порівняно з окремими. Такі моделі порівнянь можуть узагальнювати адитивні моделі та узагальнені моделі добавок.
Glen_b -Встановити Моніку

Як приклад більш загального випадку, ніж ви обговорюєте (з посиланнями, що обговорюють різноманітні інші підходи), якщо ви зможете його одержати, погляньте на цей документ J.Roca-Pardiñas et al (2006) "На базі Bootstrap методи тестування взаємодій між факторами на кривих в узагальнених моделях адитивів: оцінка нейронної активності префронтальної кори, пов'язаної з прийняттям рішень ", Статистика в медицині , 30 липня; 25 (14): 2483-501. У цьому документі вони використовують завантажувальний інструмент (і бінінг для зменшення обчислювального навантаження), але там згадуються й інші підходи.
Glen_b -Встановіть Моніку

Більш базовим і старішим посиланням буде щось на зразок Hastie та Tibshirani (1990), узагальнені моделі добавок (наприклад, див. P265). Крім того , подивіться тут , в зокрема, останнє рівняння на слайді 34. Навколо також пояснює , як вмістити таку модель , використовуючи gamв пакеті R mgcv.
Glen_b -Встановити Моніку

2

Я не встиг прочитати всю вашу публікацію, але, здається, ваша основна проблема полягає в тому, щоб функціональні форми відповідей могли зміститися з лікуванням. Існують методи боротьби з цим, але вони є великими.
На ваш конкретний приклад:

G - зростання W - вода T - обробка

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

В останнє десятиліття було проведено багато досліджень напівпараметричної регресії, і ці яловичини про функціональні форми стають все більш керованими. Але наприкінці дня статистика грає з цифрами, і корисна лише, оскільки вона формує інтуїцію щодо спостережуваних явищ. Це, в свою чергу, вимагає розуміння способів гри з числами. Тон вашого допису вказує на готовність викинути дитину разом з водою.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.