"Немає графічних методів" - це свого роду великий гандикап, але ... ось кілька дивних ідей. Обидва трактують рейтинги як безперервні, що є дещо концептуальною слабкістю, і, мабуть, не єдиною ...
Куртоз
- Куртоз {1,1,1,5,5,5} = 1. Ви не отримаєте нижчого куртозу з будь-яким комбінацією 1-5 оцінок.
- Куртоз {1,2,3,4,5} = 1,7. Нижнє означає більш екстремальні значення; вищий означає більше середнього.
- Це не спрацює, якщо розподіл не буде приблизно симетричним. Я продемонструю нижче.
Негативна біноміальна регресія
R a t i n g12345F r e qu e n c y31157937
Ф р еqu e n c y ∼ R a t i n g + R a t i n g------√R a t i n g------√
FWIW, ось код r, з яким я грав:
x=rbinom(99,4,c(.1,.9))+1;y=sample(0:4,99,replace=T)+1 #Some polarized & uniform rating data
table(x);table(y) #Frequencies
require(moments);kurtosis(x);kurtosis(y) #Kurtosis
Y=data.frame(n=as.numeric(table(y)),rating=as.numeric(levels(factor(y)))) #Data frame setup
X=data.frame(n=as.numeric(table(x)),rating=as.numeric(levels(factor(x)))) #Data frame setup
require(MASS);summary(glm.nb(n~rating+sqrt(rating),X)) #Negative binomial of polarized data
summary(glm.nb(n~rating+sqrt(rating),Y)) #Negative binomial of uniform data
Не втримаюсь від того, щоб кинути сюжет ...
require(ggplot2);ggplot(X,aes(x=rating,y=n))+geom_point()+stat_smooth(formula=y~x+I(sqrt(x)),method='glm',family='poisson')
R a t i n g------√
Редагувати: щойно побачив це питання, що рекламується на бічній панелі:
і коли я натиснув, я побачив це у "Гарячих запитаннях до мережі", що посилаються на себе, як це іноді трапляється ,
тому я подумав, що це, можливо, заслуговує на перегляд у більш загальному вигляді. Я вирішив спробувати свої методи на відгуках клієнтів Amazon щодо Трійка з коротким рукавом The Mountain Three Wolf Moon :
R a t i n gF r e qu e n c y1208254389419852273 рік
βR a t i n g√= - 19,1
σ2F r e qu e n c yОцінки трійників з коротким рукавом на гірському три вовки= 1,31
x=rep(5:1,c(2273,198,89,54,208))
var(x)/(4*length(x)/(length(x)-1))