Як слід інтерпретувати порівняння засобів різних розмірів вибірки?


49

Візьміть випадок рейтингів книг на веб-сайті. Книгу А оцінюють 10 000 людей із середньою оцінкою 4,25 та дисперсією . Так само Книгу B оцінюють 100 осіб та мають рейтинг 4,5 із σ = 0,25 .σ=0.5σ=0.25

Тепер через великий розмір зразка книги A "середнє значення стабілізувалося" до 4,25. Зараз для 100 людей може статися так, що якщо більше людей прочитають Книгу B, середній рейтинг може впасти до 4 або 4,25.

  • як слід інтерпретувати порівняння засобів з різних зразків і які найкращі висновки можна зробити / зробити?

Наприклад - чи можна насправді сказати, що Книга B краща за книгу А.


Вас конкретно цікавить контекст рейтингу?
Джеромі Англім

@JeromyAnglim - Хммм ... певно. Не впевнений. Це найпоширеніший приклад. Що ви мали на увазі?
Кандидат

2
Дивіться мою відповідь стосовно байєсівських рейтингових систем нижче. Застосовувані рейтингові контексти, як правило, містять сотні чи тисячі об'єктів, що оцінюються, і метою є часто сформувати найкращу оцінку рейтингу для об'єкта з урахуванням наявної інформації. Це дуже відрізняється від простого порівняння у двох групах, як можна сказати, в медичному експерименті з двома групами.
Джеромі Англім

Відповіді:


57

Nn

Щоб уточнити мою думку про потужність, ось дуже простого моделювання, написаного для R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

N=100n1=50n2=50n1=75n2=25n1=90n2=10. Далі зауважимо, що стандартизований середній різниця / процес формування даних був однаковим у всіх випадках. Однак, хоча тест був "значним" 70% часу для 50-50 проби, потужність склала 56% при 75-25 і лише 33%, коли розміри групи становили 90-10.

Я думаю про це за аналогією. Якщо ви хочете знати площу прямокутника, а периметр зафіксований, то площа буде максимальною, якщо довжина і ширина рівні (тобто якщо прямокутник є квадратом ). З іншого боку, у міру розходження довжини та ширини (у міру того, як прямокутник стає витягнутим) площа зменшується.


потужність максимальна ?? Я не зовсім впевнений, що розумію. Чи можете ви надати приклад, якщо це можливо?
Кандидат

5
Причина, завдяки якій тест t може впоратися з неоднаковими розмірами вибірки, полягає в тому, що він враховує стандартну похибку оцінок засобів для кожної групи. Це стандартне відхилення розподілу групи, поділене на квадратний корінь розміру вибірки групи. Гуп із значно більшим розміром вибірки матиме меншу стандартну помилку, якщо стандартні відхилення сукупності будуть біт рівними або майже так.
Майкл Черник

@gung - Я не впевнений, що я справді знаю, на якій мові написано це моделювання. Я здогадуюсь 'R'? і я все ще намагаюся розшифрувати його :)
кандидат наук

2
Код для Р. Я прокоментував це, щоб полегшити його дотримання. Ви можете просто скопіювати та вставити його в R та запустити його самостійно, якщо у вас є R; set.seed()функція гарантує , ви отримаєте однакову продуктивність. Дайте мені знати, якщо це все ще занадто важко слідувати.
gung - Відновити Моніку

8
N=n1+n2n1×n2n1n2

10

На додаток до відповіді, згаданої @gung, що посилається на t-тест, це здається, що вас можуть зацікавити байєсівські рейтингові системи (наприклад, ось дискусія ). Веб-сайти можуть використовувати такі системи для ранжирування позицій, які залежать від кількості отриманих голосів. По суті, такі системи працюють за допомогою присвоєння рейтингу, що є складовою середнього рейтингу всіх предметів плюс середнього значення вибірки оцінок для конкретного об'єкта. Зі збільшенням кількості оцінок вага присвоюється середньому значенню для об'єкта збільшується, а вага, присвоєна середньому рейтингу всіх предметів, зменшується. Можливо, ознайомтесь із байєсівськими середніми .

Звичайно, речі можуть стати набагато складнішими, оскільки ви вирішуєте широкий спектр питань, таких як шахрайство при голосуванні, зміни з часом тощо.


Солодке. Ніколи про це не чув. Я обов'язково загляну в це. Можливо, це я і маю, зрештою :)
кандидат наук
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.