У мене є два набори даних, що представляють параметри зірок: спостережуваний та модельований. За допомогою цих наборів я створюю те, що називається двоколірною діаграмою (TCD). Зразок можна побачити тут:
Бути спостерігаються дані і Аргументи B даних , витягнуті з моделі (не кажучи вже про чорних лініях, точки представляють дані) У мене є тільки один A - схема, але можуть робити безліч різних B діаграм , як я хочу, і що мені потрібно щоб зберегти той , який найкраще підходить А .
Тому мені потрібно надійний спосіб перевірити правильність пристосування діаграми B (моделі) до діаграми A (спостерігається).
Зараз що я роблю, це створити 2D гістограму або сітку (так я називаю це, можливо, вона має більш правильну назву) для кожної діаграми, пошикуючи обидві осі (100 бункерів на кожну). Потім я проходжу кожну комірку сітки і я знаходжу абсолютну різницю в підрахунках між A і B для даної комірки. Після того , як пройшов через усі клітини, я підсумувати значення для кожного осередку , і тому я в кінцевому підсумку з одного позитивного параметра , що представляє ступінь згоди ( ) між A і B . Чим ближче до нуля, тим краще розміщення. В основному, такий параметр виглядає так:
; де я J є число зірок в діаграміАдля цієї конкретної комірки (визначається я J ) і б я J є число дляB.
Ось як виглядають ті відмінності підрахунків у кожній комірці у створеній сітці (зауважте, що я не використовую абсолютних значень ( a i j - b i j ) у цьому зображенні, але Я зробити їх використовувати при обчисленні г ф параметра):
Проблема полягає в тому, що мені повідомили, що це може бути не дуже хорошим оцінкою, головним чином тому, що крім того, щоб сказати, що це підходить, краще, ніж це інше, оскільки параметр нижчий , я дійсно більше нічого не можу сказати.
Важливо :
(дякую @PeterEllis за те, що підняв це)
1 Точки B не пов'язані один-до-одного з точками A . Це важлива річ , щоб мати на увазі при пошуку найкращого: число точок А і В є НЕ обов'язково те ж саме і благість пригонки тесту слід також враховувати цю невідповідність і спробувати звести його до мінімуму.
2- Кількість балів у кожному наборі даних B (вихід моделі), який я намагаюся вписати в A , не визначено.
Я бачив тест Chi-Squared, який використовується в деяких випадках:
Крім того, я читав, що деякі люди рекомендують застосовувати тест Пуассона на вірогідність журналу у таких випадках, коли стосуються гістограми. Якщо це правильно, я дуже вдячний, якби хтось міг доручити мені, як використовувати цей тест у цьому конкретному випадку (пам’ятайте, мої знання зі статистики досить погані, тому будь ласка, будьте так просто, як ви можете :)