Чи є 99 перцентилів чи 100 перцентилів? А чи це групи чисел, або дільники, або вказівники на окремі числа?


27

Чи є 99 перцентилів чи 100 перцентилів? І чи це групи чисел, або лінії поділки, або вказівники на окремі числа?

Я думаю, те саме питання стосуватиметься квартілів чи будь-яких квантилів.

Я прочитав, що індекс числа в певному перцентилі (p), заданому n елементами, є i = (p / 100) * n

Це підказує мені, що є 100 відсотків. Тому що, якщо у вас є 100 чисел (i = 1 до i = 100), то кожне матиме індекс (від 1 до 100).

Якби у вас було 200 чисел, було б 100 відсотків, але кожен би посилався на групу з двох чисел. Або 100 дільників, виключаючи крайній лівий або крайній правий роздільник, тому що в іншому випадку ви отримаєте 101 дільник. Або вказівники на окремі числа, тому перший перцентиль посилався б на друге число, (1/100) * 200 = 2, а сотий перцентиль посилався б на 200 число (100/100) * 200 = 200

Я інколи чув, що там 99 відсотків, хоча ..

Google показує оксфордський словник, в якому йдеться про процентилі - "кожну зі 100 рівних груп, на яку можна поділити сукупність відповідно до розподілу значень певної змінної". і "кожне з 99 проміжних значень випадкової величини, які ділять розподіл частоти на 100 таких груп".

У Вікіпедії сказано, що "20-й перцентиль - це значення, нижче якого може бути знайдено 20% спостережень", але чи це насправді означає "значення нижче або дорівнює якому, 20% спостережень можуть бути знайдені", тобто "значення, для якого 20 % значень <= йому ". Якби це було просто <, а не <=, то за цим міркуванням 100-й перцентил був би значенням, нижче якого може бути знайдено 100% значень. Я чув це як аргумент того, що не може бути 100-го перцентилету, тому що ви не можете мати число, де 100% чисел нижче нього. Але я думаю, може, той аргумент, що не можна мати 100-й перцентиль, є невірним і ґрунтується на помилці, що визначення процентного пункту включає <= не <. (або> = не>). Отже, сотий процентиль був би остаточним числом і був би>


4
Я думаю, що це навряд чи 100 було б розумною відповіддю через його асиметричну обробку крайнощів. Випадки можуть бути
зафіксовані

4
Історично квантові - як ми зараз говоримо загалом - спочатку були підсумковими точками, а потім шляхом розширення бункерів, класів або інтервалів вони розмежовують. Таким чином, три чверті, включаючи медіану, визначають чотири бункери тощо.
Нік Кокс

1
@whuber Ви пишете: "Я думаю, що це навряд чи 100 було б розумною відповіддю через його асиметричну обробку крайнощів". <- чи можете ви детальніше розглянути це?
барлоп

3
Я перераховую раннє використання різних кількісних термінів на сайті stats.stackexchange.com/questions/235330/… . Якщо ви заглянете в OED або jstor, ви отримаєте приклади історичного використання.
Нік Кокс

2
@whuber Так, здається, що те, про що я посилаюсь, належним чином називається "відсотковий ранг", який використовується у звітах про тестові оцінки & c .: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / ресурси / глосарій . Вибачення за додавання плутанини. На мій захист, різниця виявляється залежною від використання прийменників "у" проти "в" (див. Перше посилання).
Jeff Y

Відповіді:


32

Обидва ці відчуття перцентилу , квартіля тощо мають широке застосування. Найлегше проілюструвати різницю за допомогою квартилів:

  1. сенс «дільник» - є 3 квартілі, які є значеннями, що розділяють розподіл (або вибірку) на 4 рівні частини:

       1   2   3
    ---|---|---|---
    

    (Іноді це використовується із включеними значеннями max та min, тому є 5 квартилів, пронумерованих 0–4; зауважте, що це не суперечить нумерації вище, вона просто розширює його.)

  2. сенс «бін»: є 4 квартілі, підмножини, на які ці 3 значення поділяють розподіл (або вибірку)

     1   2   3   4
    ---|---|---|---
    

Жодне використання не можна назвати «неправильним»: обидва використовуються багатьма досвідченими практиками, і обидва є у багатьох авторитетних джерелах (підручники, технічні словники тощо).

Що стосується квартілів, то сенс, який використовується, зазвичай зрозумілий з контексту: говорити про значення в третьому кварталі може бути лише сенсом «бін», тоді як говорити про всі значення нижче третього кварталу, швидше за все, означає сенс «дільник». Що стосується відсотків, то відмінність частіше незрозуміла, але також не настільки значна для більшості цілей, оскільки 1% розподілу настільки малий - вузька смуга - приблизно лінія. Якщо говорити про всіх, що знаходяться над 80-м перцентилем, це може означати 20% верхнього або 19%, але в неофіційному контексті це не є істотною різницею, а в суворій роботі необхідне значення має бути імовірно з'ясовано рештою контексту.

(Частини цієї відповіді адаптовані з /math/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles , що також дає цитати + посилання.)


2
(+1) Ця пізня відповідь чудово дістається до суті питання.
Нік Кокс

що про en.wikipedia.org/wiki/Percentile говорить: "кожен бал стоїть у 100-му перцентилі" <- це звучить як бін розміром усього набору даних, тоді як у ваших бункерах всі рівні розміри
барлоп

1
Запис у Вікіпедії так говорить. Я не можу придумати захист такої формулювання. Вікіпедія чудова, за винятком випадків, коли вона вводить в оману чи неправильно. Це буде звучати нескінченно, але все, що я можу зробити, це заохотити всіх, хто дивиться, хто активний у Вікіпедії, покращити запис. Кожен повинен мати правила для того, що вони роблять, а що не роблять, і бути активною тут і в кількох інших місцях - моя особиста межа.
Нік Кокс

5

Прийміть цю відповідь із зерном солі - це почалося досить неправильно, і я все ще вирішую, що з цим робити.

Питання частково стосується мови та використання, тоді як ця відповідь зосереджена на математиці. Я сподіваюся, що математика забезпечить основу для розуміння різних звичок.

Один з приємних способів вирішити це - почати з простої математики і працювати назад до більш складного випадку реальних даних. Почнемо з PDF, CDF та зворотних CDF (також відомих як квантильні функції). x - й квантиль розподілу з PDF - f і функцією розподілу F є F1(x) . Припустимо, z й перцентиль F1(z/100) . Це дає спосіб виправити визначену неясність: ми можемо розглянути ситуації, коли F є 1) не оберненою, 2) лише інвертируемою на певній області, або 3) зворотною, але її обернена ніколи не досягає певних значень.

Приклад 1): Я залишу це останнє; продовжуйте читати.

Приклад 2): Для рівномірного розподілу 0,1, ВВР звернемо при обмеженні на [0, 1], так що 100 - й і 0 - й процентилі може бути визначений як F1(1) і F1(0) дано що застереження. В іншому випадку вони неправильно визначені, оскільки F(0.5) (наприклад) також дорівнює 0.

Інший приклад 2): Для рівномірного розподілу між двома роз'єднаними інтервалами від 0 до 1 та 2 до 3 CDF виглядає приблизно так.

введіть тут опис зображення

Більшість квантилів цього розподілу існують і є унікальними, але медіана (50-й перцентил) за своєю суттю неоднозначна. У R вони йдуть на півдорозі: quantile(c(runif(100), runif(100) + 2), 0.5)повертає близько 1,5.

±

z/100yF(y)=z/100

введіть тут опис зображення

Для 60-го перцентилілу R повертає 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)). Для 65-го перцентилілу R також повертається 1. Ви можете подумати про це як провести 100 спостережень, класифікувати їх від низьких до високих та повернути 60-й чи 65-й пункт. Якщо ви це зробите, найчастіше ви отримаєте 1.

Що стосується реальних даних, то всі дистрибуції дискретні. (Емпірична ВВР з runif(100)або np.random.random(100)має 100 збільшення згруповані навколо 0.5.) Але замість того , щоб розглядати їх як дискретні, R в quantileфункції , здається, розглядати їх в якості зразків з безперервних розподілів. Наприклад, медіана (50-й перцентиль або 0,5 квантиля) зразка 3,4, 5, 6, 7, 8 наведена як 5,5. Якщо ви виведете 2n зразків з unif (3,8) розподілу і візьмете будь-яке число між n-м і (n + 1) -м зразком, ви збіжитеся на 5,5, оскільки n збільшується.

Цікаво також розглянути дискретний рівномірний розподіл з однаковою ймовірністю попадання 3,4,5,6,7,8. (Смертка плюс два.) Якщо ви скористаєтеся вищевказаним підходом до вибірки та ранжирування для розподілу Пуассона, ви зазвичай отримаєте 5 або 6. Оскільки зразки збільшуються, розподіл на число на півдорозі збільшиться на половину п'ять і половина шістдесят. 5.5 видається розумним компромісом і тут.


2
F1[0,1]F[0,1]Ж
whuber

Влучне зауваження. Я намагався відокремити деякі випадки, щоб уточнити це. Як би ви покращили обговорення наступності? Інтерпретація квантилів як оцінювачів є центральним моментом моєї відповіді; вони насправді не мають для мене сенсу.
eric_kernfeld

Щодо останнього: квантові нічого не потрібно оцінювати. Вони самі по собі корисні для опису та візуалізації даних (і часто використовуються лише як описова статистика). Повторне безперервність: Я думаю, що більшість органів влади скажуть, що всі процентилі існують для дискретних розподілів. Наполягати інакше - зайве ускладнення. Це також зробить результати більшості програмних обчислень абсолютно таємничими, які із задоволенням надають усі квантили від 0 до 1 ( включно ) для будь-якого набору даних. В R, наприклад, типу quantile(0).
whuber

Ця дискусія дала мені зрозуміти, що я не розумію квантилів дискретних розподілів. Я думаю, я повинен видалити цю відповідь.
eric_kernfeld

1
Люди різняться з цього приводу, Еріку. Коли мої відповіді настільки неправильні, що вводять в оману, я спочатку їх видаляю. Якщо я бачу якусь потенційну цінність у частині відповіді, я редагую її, щоб видалити (або пояснити) оманливу частину, а потім відновити її. Інші просто дозволяють речам стояти і приймати свої грудочки при голосуванні; інші додають зміни, що дозволяють читачам бачити, де може виникнути непорозуміння; інші ж просто видаляють. Ви навіть можете повністю змінити відповідь, якщо вам подобається, як це іноді робиться.
whuber

2

Мене вчили, що спостереження в n-му перцентилі було більше, ніж n% спостережень у аналізованому наборі даних. Що для мене означає, що немає 0-го або 100-го перцентилету. Жодне спостереження не може перевищувати 100% спостережень, оскільки воно є частиною цих 100% (а аналогічна логіка застосовується у випадку 0).

Редагувати: Оскільки це варто, це також відповідає неакадемічному використанню терміна, з яким я стикався: "X знаходиться в n-му перцентилі " означає, що перцентиль - це група, а не межа.

Я, на жаль, не маю для цього джерела, на яке я можу вас вказати.


6
Чи є у вас авторитетна довідка про те, що ви пам’ятаєте, що ви навчали? Зауважте, що ви неявно приймаєте визначення поняття "процентиль" як групи чисел. Інше визначення, яке цитується у питанні, полягає в тому, що перцентиль є межею між такими групами.
whuber

1
Для мене це не має сенсу, тому що припустимо, що ваші дані 2,2,2,2,2,2,2,2,2,2,2, тому елемент в одному квантилі дорівнює елементу зліва від нього попередній квантил. Отже, елемент у n-му квантилі не більший, ніж усі квантили, що залишилися від нього. Отже, елемент у n-му перцентилі не перевищує n% спостережень у наборі даних. Це> = n% спостережень у наборі даних, але не просто>. А значить, у вас може бути 100-ти центнерів. Що ви робите з цієї логіки?
барлоп

4
Багато визначень піддаються деформації, якщо всі значення однакові!
Нік Кокс

2
Математичні викривлені абстрактні та ідеалізовані, тоді як ті, хто пише програмне забезпечення, повинні мати справу з безладністю даних. Ваш приклад з 16 значень розглядався б по-різному програмним забезпеченням. Я знаю, що слідує за правилом, що однакові значення повинні бути поширюються однаково (і я згоден). Я здивований, що ви не агонізували над даними з 15 або 17 значеннями, де навіть якщо всі значення є чіткими, жодне правило не може розділити дані на 4 бункери однакового розміру.
Нік Кокс

3
Яка логіка для нуля? Чи не означає «більший за нуль відсотків спостережень» «рівний або менший за всі спостереження», тобто 0-й перцентиль був би найнижчим спостережуваним значенням?
ilkkachu

2

Є й інші способи обчислення відсотків, що далі, не єдиний. Взято з цього джерела .


p pp%28808028

x1xn

nxipi

pi=100(i0.5)n

Приклад із тих же приміток для ілюстрації:

введіть тут опис зображення

7507

Якби у вас було 200 чисел, було б 100 відсотків, але кожен би посилався на групу з двох чисел.

Ні.

x1x200

100(10.5)200100(20.5)200100(30.5)200...

в результаті чого

0.25,0.75,1.25...1,2,3,...


3
Перше речення виглядає чудово, і одне з найважливіших слів - приблизно , далі - це ретельне пояснення лише одного рецепта. Що важливо, це те, що є кілька рецептів, і більшість, якщо не всі, мають певну захисну логіку щодо них (іноді логіка полягає в тому, щоб все було максимально просто). Дивіться статтю Hyndman and Fan, про яку йдеться у багатьох темах тут, на CV. Я сумніваюся, що багато людей сприймуть ваш останній абзац як спосіб повідомляти відсотки для вашого прикладу.
Нік Кокс

@Nick Cox Дякую за проникливий коментар. Щодо останнього пункту, я вважаю, що метод повинен добре працювати, коли всі спостереження відрізняються один від одного. У разі повторних чисел не буде єдиного процентиля для того ж числа, що не звучить добре. Не могли б ви порадити, як поводитися зі справою. А ви також можете вказати на можливі підводні камені в останньому абзаці.
наївно

1
Я не думаю, що я хочу чи не потрібно додати до того, що вже добре пояснено в журнальній літературі. По-перше, у вас є якесь улюблене програмне забезпечення для цього. Подивіться, що це документує і що він робить. По-друге, я не розраховував відсотки вручну протягом декількох десятиліть, і ніхто з нас цього не потребує. По-третє, мій пункт про останній пункт: я думаю, нікому не хочеться сказати, що спостережувані точки даних - 0,25, 0,75, 1,25, ... перцентилі. Те, що люди хочуть, різниться, але, на моєму досвіді, найчастіше хочеться отримати такі підсумки, як 1, 5, 10, 25, 50, 75, 90, 95, 99% балів, а також вибіркові крайності.
Нік Кокс

1
Я щойно помітив, що ви стверджуєте, що 0,5 в жаргоні EDA часто називають значенням p для медіани. Чи не в моєму читанні, і навіть якщо ви можете знайти приклади, що страшна термінологія, зважаючи на переважне більшість відчуттів для p-значення, як спостерігається рівень значущості.
Нік Кокс

Я перегляну документ, який ви запропонували. Дякую
наївно

0

Примітка. Я прийму чужу відповідь, а не мою. Але я бачу кілька корисних коментарів, тому я просто пишу відповідь, в якій згадуються ці.

Виходячи з відповіді Ніка на "-iles" термінологію для верхнього піввідсотка

здається, що терміни неоднозначні, і я гадаю (виходячи з мого розуміння цієї посади), кращою термінологією було б X% балів, а X% -Y% група; настільки квантильна точка (так для квартильних точок, які можуть бути від 0 до 4); квантильна група, що становить від X квантильної точки до точки Y квантилі.

Так чи інакше, можна було б отримати 101 за процентилі, хоча один коментар говорить про те, що можна було б посилатися на 101 бал (я вважаю, якщо ви порахували відсоткові бали, і лише цілі числа), але навіть тоді, якщо говорити про 1-й, 2-й, 3-й, перцентильний або квантил, це підрахунок, і не можна вважати першого як 0, і ви не можете мати, наприклад, більше 4 квартилів або більше 100 відсотків. Тож якщо говорити 1-а, 2-а, 3-я, то термінологія насправді не може посилатися на точку 0. Якщо хтось сказав 0-й пункт, то, хоча це зрозуміло, має на увазі крапку 0, я думаю, що він повинен сказати квантильну точку 0. Або Квантільна група в точці 0. Навіть інформатики не скажуть 0-го; навіть вони вважають перший елемент 1, а якщо вони називають його пунктом 0, це індексація від 0, а не кількість.

У коментарі зазначається "Не може бути 100. Або 99, або 101, залежно від того, чи вважаєте ви максимум та мінімум". Я думаю, що у випадку 99 або 101 є випадок, коли йдеться про кількісні точки, а не про групи, хоча я б не сказав 0-го. Для n елементів, індекс може переходити від 0 ... n-1, і ніхто не запише th / st, наприклад 1-го, 2-го і т.д., на індекс (якщо, можливо, індекс не індексував перший елемент як 1). Але індекс, що починає перший елемент з індексу 0, не є першим, другим 3-м підрахунком. наприклад, елемент з індексом 0 є першим елементом, не можна сказати 0-м, а другий позначити 1-м.


Будь-яку неоднозначність вносили ті, хто відступив від явного історичного прецеденту. На практиці це не кусає важко.
Нік Кокс

Усі математики починають рахувати з нуля. Концепція проста і природна: вимова слова «нуль» вголос оголошує про намір рахувати. Потім робиться певне (можливо, довільне) присвоєння послідовності слів "один", "два", "три" і т.д. об'єктам, що рахуються. Останнє з цих слів (якщо є останнє) прирівнюється до кардинальності набору. Краса цієї ідеї полягає в тому, що коли в наборі немає елементів, останнє сказане слово було «нуль», що є унікальним правильним значенням.
whuber

@whuber ви пишете "Усі математики починають рахувати з нуля" <- Де ви думаєте, де я сказав інакше?
барлоп

"це підрахунок, і перший не можна вважати 0".
whuber

1
@whuber, можливо, багато чого, я думаю, що багато років тому я міг би, як, вивчаючи інформатику, іноді чув, що вчені-комп’ютери рахують від 0, unilke математиків (це не ваше твердження чи моє), але після глибокої думки я отримав більше Чіткість і зрозуміли, що комп'ютерні вчені та математики рахують від 0 .. Різниця в тому, що комп'ютерні вчені часто використовують індекс, а індекс індексує перший пункт як 0. (але все-таки вважати було б 1) ..
барлоп
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.