Я переглянув безліч наборів даних R, публікацій в DASL та інших місцях, і не знаходжу дуже багато хороших прикладів цікавих наборів даних, що ілюструють аналіз коваріації експериментальних даних. У підручниках зі статистикою є численні набори "іграшкових" даних із надуманими даними.
Я хотів би мати приклад, де:
- Дані справжні, з цікавою історією
- Існує хоча б один фактор лікування та два коваріати
- Щонайменше на один ковариант впливає один або кілька факторів лікування, а на лікування не впливає один.
- Переважно експериментальний, а не спостережний
Фон
Моя реальна мета - знайти хороший приклад, щоб скласти віньєтку для мого пакету R. Але більша мета полягає в тому, що люди повинні бачити хороші приклади, щоб проілюструвати деякі важливі проблеми при аналізі коваріації. Розгляньте наступний складений сценарій (і, будь ласка, зрозумійте, що мої знання сільського господарства в кращому випадку поверхневі).
- Ми робимо експеримент, коли добрива рандомізовано на ділянки, і висаджують урожай. Після відповідного періоду вирощування ми збираємо урожай і вимірюємо деякі характеристики якості - ось змінна відповідь. Але ми також фіксуємо загальну кількість опадів протягом періоду вегетації, а також кислотність ґрунту під час збору врожаю - і, звичайно, яке добриво було використано. Таким чином, у нас є два ковариати і лікування.
Звичайним способом аналізу отриманих даних було б встановлення лінійної моделі з трактуванням як фактором та адитивними ефектами для коваріатів. Потім для підбиття підсумків слід обчислити «скориговані засоби» (AKA найменших квадратів), які є прогнозами з моделі для кожного добрива, при середній кількості опадів та середній кислотності грунту3. Це ставить усе на рівних, тому що тоді, коли ми порівнюємо ці результати, ми тримаємо постійну кількість опадів і кислотність.
Але це, мабуть, неправильно робити - адже добриво, ймовірно, впливає на кислотність ґрунту, а також на реакцію. Це робить скориговані засоби вводити в оману, тому що ефект лікування включає його вплив на кислотність. Одним із способів впоратися з цим було б вилучення кислотності з моделі, тоді засоби, що регулюються опадами, забезпечили б справедливе порівняння. Але якщо кислотність важлива, ця справедливість досягає великої вартості, збільшуючи залишкові зміни.
Існують способи обійти це за допомогою коригуваної версії кислотності в моделі замість початкових значень. Майбутнє оновлення мого пакету lsmeans зробить це абсолютно просто. Але я хочу мати гарний приклад, щоб проілюструвати це. Я буду дуже вдячний і належним чином визнаю кожного, хто може вказати мені на кілька хороших ілюстративних наборів даних.