Залишаючи осторонь очевидну проблему низької потужності квадратика у таких обставинах, уявіть, що ви зробите тест корисності чі-квадрата на деяку щільність з невстановленими параметрами, порівнюючи дані.
Для конкретності, скажімо, експоненціальний розподіл з невідомим середнім і розміром вибірки, наприклад, 100.
Для отримання розумної кількості очікуваних спостережень за кошик потрібно брати до уваги дані (наприклад, якщо ми вирішили поставити 6 бункерів нижче середнього та 4 над ним, це все одно використовувало б межі відрізків на основі даних) .
Але таке використання бункерів на основі перегляду даних, ймовірно, вплине на розподіл тестової статистики під нулем.
Я бачив багато дискусій з приводу того, що - якщо параметри оцінюються за максимальною ймовірністю з бінізованих даних - ви втрачаєте 1 df за розрахунковий параметр (проблема, що відноситься до Фішера проти Карла Пірсона) - але я не пригадую читаючи що-небудь про пошук самих меж сміття на основі даних. (Якщо ви оцінюєте їх за небінованими даними, то при bins розподіл тестової статистики лежить десь між і .)
Чи впливає цей вибір на основі даних бункерів суттєво на рівень значущості чи потужність? Чи є якісь підходи, які мають значення більше, ніж інші? Якщо ефекту багато, чи це щось, що проходить у великих зразках?
Якщо це має суттєвий вплив, це, мабуть, зробить тест хі-квадрата, коли параметри невідомі у багатьох випадках майже непридатні (незважаючи на те, що вони використовуються в досить багатьох текстах), якщо ви не мали хорошого -приорі оцінка параметра.
Обговорення питань чи покажчиків посилань (бажано, із зазначенням їх висновків) було б корисним.
Редагуйте, майже вбік головного питання:
Мені здається, що існують потенційні рішення для конкретного випадку експоненціалу * (і уніформа приходить до цього думати), але мене все ж цікавить більш загальне питання впливу вибору меж бін.
* Наприклад, для експоненціалу можна використовувати найменше спостереження (скажімо, воно дорівнює ), щоб отримати дуже приблизне уявлення про те, де розмістити бункери (оскільки найменше спостереження є експоненціальним із середнім μ / n ), а потім перевірити решта n - 1 відмінностей ( x i - m ) на експоненційність. Звичайно, це може дати дуже погану оцінку μі, отже, поганий вибір бункера, хоча я гадаю, що можна використовувати аргумент рекурсивно, щоб взяти найнижчі два-три спостереження, з яких вибирати розумні бункери, а потім перевіряти відмінності решти спостережень над найбільшою з цих найменших статистичних даних для експоненціальність)