Мені буде цікаво отримати пропозиції про те, коли слід використовувати " коефіцієнт " над простою сумою балів при побудові шкал. Тобто "Вишуканий" над "нерафінованими" методами оцінки коефіцієнта. Від DiStefano та ін. (2009; pdf ), наголос додано:
Існує два основні класи методів обчислення факторної оцінки: вдосконалений та неочищений. Неочищені методи - це відносно прості, кумулятивні процедури для надання інформації про розміщення осіб на розподіл факторів. Простота піддається деяким привабливим особливостям, тобто не уточнені методи одночасно легко обчислити і легко інтерпретувати. Вдосконалені методи обчислення створюють факторні бали, використовуючи більш складні та технічні підходи. Вони є більш точними та складними, ніж неочищені методи, і дають оцінки, які є стандартизованими балами.
На мій погляд, якщо мета полягає у створенні шкали, яка може бути використана для досліджень та установок, то проста сума або середня оцінка всіх предметів шкали має сенс. Але скажімо, що мета полягає в тому, щоб оцінити ефекти лікування програми, і важлива контрастність знаходиться в межах вибірки - лікування та контрольна група. Чи є якась причина, чому ми можемо віддавати перевагу коефіцієнтам, щоб оцінювати суми чи середні показники?
Щоб бути конкретним щодо альтернатив, візьміть цей простий приклад:
library(lavaan)
library(devtools)
# read in data from gist ======================================================
# gist is at https://gist.github.com/ericpgreen/7091485
# this creates data frame mydata
gist <- "https://gist.github.com/ericpgreen/7091485/raw/f4daec526bd69557874035b3c175b39cf6395408/simord.R"
source_url(gist, sha1="da165a61f147592e6a25cf2f0dcaa85027605290")
head(mydata)
# v1 v2 v3 v4 v5 v6 v7 v8 v9
# 1 3 4 3 4 3 3 4 4 3
# 2 2 1 2 2 4 3 2 1 3
# 3 1 3 4 4 4 2 1 2 2
# 4 1 2 1 2 1 2 1 3 2
# 5 3 3 4 4 1 1 2 4 1
# 6 2 2 2 2 2 2 1 1 1
# refined and non-refined factor scores =======================================
# http://pareonline.net/pdf/v14n20.pdf
# non-refined -----------------------------------------------------------------
mydata$sumScore <- rowSums(mydata[, 1:9])
mydata$avgScore <- rowSums(mydata[, 1:9])/9
hist(mydata$avgScore)
# refined ---------------------------------------------------------------------
model <- '
tot =~ v1 + v2 + v3 + v4 + v5 + v6 + v7 + v8 + v9
'
fit <- sem(model, data = mydata, meanstructure = TRUE,
missing = "pairwise", estimator = "WLSMV")
factorScore <- predict(fit)
hist(factorScore[,1])
"more exact"
. Серед лінійно обчислених оцінок коефіцієнтів регресійний метод найбільш "точний" в сенсі "найбільш корельований з невідомими істинними значеннями фактора". Так, так, точніше (в рамках лінійного алгебраїчного підходу), але не зовсім точне.