Я намагаюся запустити модель, щоб оцінити, наскільки добре катастрофічні захворювання, такі як туберкульоз, СНІД тощо, впливають на витрати на госпіталізацію. Я маю "затрати на госпіталізацію" як залежну змінну та різні індивідуальні маркери як незалежні змінні, майже всі з яких є манекенами, такими як стать, голова домогосподарства, статус бідності і, звичайно, манекен на те, чи є у вас захворювання (плюс вік та вік у квадраті) та купа термінів взаємодії.
Як і слід було очікувати, є значна кількість - і я маю на увазі багато - даних, накопичених у нулі (тобто немає витрат на госпіталізацію за 12-місячний референтний період). Що було б найкращим способом поводження з такими даними?
На сьогодні я вирішив перетворити вартість на ln(1+cost)
те, щоб включити всі спостереження, а потім запустити лінійну модель. Я на правильному шляху?