Нещодавно я провів аналіз впливу репутації на рекламних рефератах (див. Допис у блозі ), а згодом у мене виникло кілька питань щодо можливо більш просвічуючого (або більш підходящого) аналізу та графіки.
Отож кілька запитань (і сміливо відповідайте на когось, зокрема, ігноруйте інших):
У своєму втіленні я не мав на увазі номер центру. Я думаю, що це робить - це хибна поява негативної кореляції в розсипці, оскільки в нижньому кінці кількості публікацій є більше повідомлень (ви бачите, що це не відбувається на панелі "Скіт Джон", лише у смертних користувачів панель). Чи недоцільно не означати центральний номер допису (оскільки я маю на увазі середній бал на середній бал користувача)?
З графіків повинно бути очевидно, що оцінка вкрай правильно перекошена (а середнє центрування цього не змінило). Під час встановлення регресійної лінії я підходив як до лінійних моделей, так і до моделі, використовуючи сендвіч-помилки Huber-White (через
rlm
пакет MASS R ), і це не змінило оцінок нахилу. Чи слід було б розглянути перетворення даних замість сильної регресії? Зауважте, що будь-яка трансформація повинна враховувати можливість 0 та негативних балів. Або я повинен використовувати якусь іншу модель для обчислення даних замість OLS?Я вважаю, що останні дві графіки, в цілому, можна вдосконалити (і пов'язані також із вдосконаленими стратегіями моделювання). На мою (невмілену) думку, я б підозрював, що ефекти репутації справжні, вони будуть реалізовані досить рано в історії плакатів (я припускаю, що якщо це правда, то вони можуть бути переглянуті "ви дали чудові відповіді, тому зараз я схвалюю всі ваші пости "замість" репутації за загальною оцінкою "ефектів). Як я можу створити графіку, щоб продемонструвати, чи це правда, беручи до уваги надмірну графіку? Я подумав, що, можливо, хорошим способом продемонструвати це було б відповідати моделі форми;
де являє собою (так само , як в поточних діаграмах розсіювання), Х 1 є , а Z 1 ⋯ Z до фіктивні змінні , що представляють певний довільний діапазон поштових чисел (наприклад Z 1 одно якщо пост число є , Z 2 дорівнює, якщо номер пошти тощо). β 0 і ϵ - великі терміни перехоплення та помилки відповідно. Тоді я би просто вивчив оцінену γscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
нахили, щоб визначити, чи з’явилися ефекти репутації на початку історії плакатів (або графічно відображати їх). Це розумний (і відповідний) підхід?
Мабуть, популярним є пристосування певного типу непараметричної лінії згладжування до таких розсіяних (наприклад, лес або шлейфів), але моє експериментування зі сплайнами не виявило нічого просвічуючого (будь-які докази позитивних ефектів на початку історії плакатів були незначними та темпераментними до кількості сплайнів, які я включив). Оскільки у мене є гіпотеза, що ефекти трапляються на ранніх етапах, чи є мій підхід моделювання вище розумним, ніж сплайни?
Також зауважте, хоча я досить сильно затопив усі ці дані, є ще багато інших спільнот, щоб їх вивчити (а такі, як суперпользователь і сервер за замовчуванням, мають такі ж великі зразки), тому в майбутньому є розумним запропонувати аналіз, що я використовую вибірковий зразок, щоб вивчити будь-які відносини.