Чи слід справді вважати типи даних (номінальний / порядковий / інтервал / відношення) типами змінних?


10

Ось, наприклад, ось визначення, які я отримую із стандартних підручників

Змінна - характеристика популяції чи вибірки. колишній Ціна акції або сорт на тест

Дані - фактичні спостережувані значення

Отже, для звіту з двох стовпців [Назва | Дохід] назви стовпців будуть змінними та фактичними спостережуваними значеннями {dave | 100K}, {jim | 200K} - це дані

Тож якщо я скажу, що стовпець [Ім’я] є номінальними даними і що [дохід] - це відношення даних, чи не буде я точнішим, описуючи його як тип змінної замість типу даних, як це робить більшість підручників? Я розумію, що це може бути семантика, і це добре, що це все є. Але я боюся, що я можу щось тут пропустити.


Не сприймає мене як змістовну різницю; Я б вважав будь-яку фразу прийнятною, особисто. Визначення "змінної", здається, трохи недоречне.
Нік Стаунер

2
@ Нік Я вважаю, що якщо ми переведемо розмовну "характеристику" на математичну "функцію реальної цінності", ми отримаємо частину визначення випадкової величини. (Звичайно, відсутність - це вимірюваність щодо популяції сигми на популяції.) Однак, як правило, ми би перевели "характеристику вибірки" в технічний термін статистику : можливо, це ви називаєте як "відмовитися". У цих перекладах змінні взагалі не мають "типів" у сенсі Стівенса (ми можемо лише відрізнити дискретні від постійних розподілів ) - але деякі дані можуть.
whuber

Відповіді:


16

Шкала Типологія Стівенса не обов'язково якесь - то іманентна властивість змінних, ні себе навіть дані, але про те , як ми ставимося до інформації - про те, що ми використовуємо його в увазі .

За певних обставин точно однакове значення може вважатися співвідношенням, інтервалом, порядковим чи номінальним, залежно від того, що ми робимо з ним - це питання, яке значення ми надаємо значенням, які можуть змінюватися від одного аналізу до іншого. Типологія Стівенса має певну цінність, але це не має надто нав'язливих причин.

Це питання важливості масштабу як значення дається, щонайменше, лордом (1953), який запропонував приклад, коли існували як номінальні, так і інтервальні інтерпретації одного і того ж набору чисел.

Цю думку ще чіткіше висловили Веллеман і Вілкінсон (1993), які пропонують приклад людей, які отримують квитки з послідовними нумерацією під час вступу на прийом з призом, який присуджується одному з квитків; Залежно від використання цифр на квитках, вони мають тлумачення на всіх чотирьох шкалах.

Так, наприклад, "чи я виграв?" це питання, яке розглядає номер як номінальний, тоді як "чи я прийшов занадто рано, щоб отримати виграшний квиток?" це питання, яке трактує це як порядковий; з іншого боку (і я не думаю, що це є в папері), використовуючи 5 випадкових номерів квитків, щоб оцінити кількість людей в кімнаті, вони будуть вважати їх співвідношенням (наприклад, якщо було 4 випадково намальовані номери, які отримали втішальні призи, у вас буде всього 5 випадкових чисел, з яких можна оцінити загальну кількість відвідувачів).

Вони стверджують, що "хороший аналіз даних не передбачає типів даних", "категорії Стівенса не описують фіксованих атрибутів даних", "категорії Стівенса недостатньо для опису шкал даних" та "Процедури статистики не можуть бути класифіковані за критеріями Стівенса" (дійсно кожне твердження також є заголовком розділу.

Критика також була запропонована Тукі в декількох місцях (наприклад, у 5-й главі книги Mosteller та Аналіз даних та регресії Тукі 1977 року ); Mosteller і Tukey запропонували типологію - назви , сорти (упорядковані етикетки), ранги (починаючи з 1, які можуть представляти собою найбільші чи найменші), підраховують дроби (обмежені нулем та одиницею, до них належать відсотки), підрахунки (негативні цілі числа), суми (негативні реальні числа), залишки (необмежені, додатні чи від’ємні значення).

У своїй роботі я бачив ситуації, коли серйозні проблеми з аналізом були викликані людьми, які не розуміють великої різниці між змінними, що стосуються рівнів (іноді їх називають "запасними" змінними) і потоками - простим прикладом таких типів є різниця у видах аналізу, відповідних кількості води, яка фактично знаходиться в резервуарі для зберігання, у кожному послідовності періодів, і кількості води, що впадає в неї. Вони (в деяких із цих випадків) обидва будуть підкатегоріями типу " Суми " Мостеллера і Тукі (і в тих самих випадках обидві змінні співвідношення в схемі Стівенса), що вказує на те, що питання типології можуть бути досить тонкими, але все ще можуть критично впливати на відповідні аналізи.

PFVelleman та L.Wilkinson (1993),
"Номінальні, звичайні, інтервальні та раціональні типології є оманливими",
The American Statistician , vol. 47 №1 стор.65-72

(Здається, робоча версія доступна на веб-сторінці 2-го автора тут )

Лорд Ф. (1953),
"Про статистичну обробку футбольних чисел",
Американський психолог , 8 , с.750-751

(Рік цієї роботи подано помилково у посиланнях на версію документа Веллемана та Вілкінсона, до якого я посилався, але правильно вказаний у тексті статті)


Дякую. Дуже ретельна відповідь. Я думав у цьому напрямку, але коли багато разів досліджував цей матеріал, вони здаються, що це конкретно, і було досягнуто консенсусу. Тому я тут і закінчився.
Користувач 42

Типологія Стівенса обговорювалась та оспорювалась з моменту її опублікування. Це іноді корисна рамка, а не теорема.
Glen_b -Встановіть Моніку

Чи є ще якийсь «новий фаворит», окрім Стівенса та Мостеллера? У прикладі рівнів / потоків, якщо я вас правильно зрозумів, обидва мають один і той же тип, але потрібно по-різному ставитися? Чи можете ви пояснити цю різницю? І як, наприклад, перетворення значення значення журналу вписується в цю типологію? Дякую.
Еріх Шуберт

1. Я не знаю жодних останніх спроб зробити їх - і я вважаю, що вони не обов'язково корисні, оскільки вони, як правило, взувають людей в менш відповідні аналізи (див. Папір Господа для іграшкового прикладу, але наслідки для аналізів дуже реально - ці списки аналізу за типом не спричиняють закінчення жахливого статистичного аналізу, в той час як вирізання величезних статистичних даних з можливості врахування у відповідних ситуаціях). ..
ctd

ctd ... 2. Один із прикладів того, як рівні та потоки є абсолютно різними: зауважте, що якби ви дивилися на рівень кожного дня, сьогоднішній рівень був би попереднім рівнем плюс втручаний вхід або вихід (або сума обох , якщо можливо обидва). Тож вимірювання рівня обов'язково залежать, часто дуже сильно. Не може мати сенсу ставитися до них так, ніби вони незалежні - але я бачу, що люди це роблять постійно. 3. Я не впевнений, що саме ви запитуєте з журналом. Чи можете ви бути більш чіткими щодо цього? Яку типологію (зверніть увагу, що я згадую більше ніж одну)?
Glen_b -Встановити Моніку

1

Тип даних пов'язаний, але не ідентичний типу змінної. У більшості випадків вони однакові, але їх не повинно бути.

Наприклад, якщо ви збираєте N проб із звичайного розподілу. Ви можете подумати, що це числові дані (коефіцієнт чи масштаб). Але я також можу сказати, що це категорична змінна з N різними категоріями, з частотою 1 для кожної категорії. Це виглядає нерозумно, але це також дійсна змінна.


Це, мабуть, суперечить Стівенсу (якому приписують формулювати цю типологію), який написав "справжнє питання - сенс вимірювання". Хоча ви завжди можете обрати такі дані як номінальні, це не робить їх номінальними за оцінкою Стівенса. Його документ доступний на сайті gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/… .
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.