Чим відрізняються дискретні дані від безперервних даних?
Чим відрізняються дискретні дані від безперервних даних?
Відповіді:
Дискретні дані можуть приймати лише певні значення. Можливо, може бути нескінченна кількість цих значень, але кожне є виразним і між ними немає сірої області. Дискретні дані можуть бути числовими, як число яблук, але вони можуть бути і категоричними - як червоні чи сині, або чоловічі, або жіночі, або добрі чи погані.
Безперервні дані не обмежуються визначеними окремими значеннями, але можуть займати будь-яке значення у безперервному діапазоні. Між будь-якими двома безперервними значеннями даних може бути нескінченна кількість інших. Безперервні дані завжди по суті числові.
Іноді має сенс трактувати числові дані, що належать до одного типу, як до іншого. Наприклад, щось на кшталт висоти є безперервним, але часто нас не надто переймають крихітні перепади, а натомість групують висоти в кілька дискретних бункерів . І навпаки, якщо ми підраховуємо велику кількість якоїсь окремої сутності - зерна рису, терміти чи копійки в економіці - ми можемо вирішити не вважати 2 000 006 і 2 000 008 як принципово різними значеннями, а замість того, як сусідні точки на приблизний континуум.
Також іноді може бути корисно трактувати числові дані як категоричні, наприклад: недостатні ваги, нормальні, ожиріння. Зазвичай це просто інший вид поповнення.
Рідко має сенс розглядати категоричні дані як безперервні.
Дані завжди дискретні. З огляду на вибірку n
значень змінної, максимальна кількість різних значень, яку може приймати змінна, дорівнює n
. Дивіться цю цитату
Усі фактичні пробні простори дискретні, і всі видимі випадкові змінні мають дискретні розподіли. Безперервний розподіл - це математична конструкція, придатна для математичного лікування, але практично не спостерігається. EJG Pitman (1979, с. 1).
Дані про змінну, як правило, прийнято черпати з випадкової змінної. Випадкова величина є безперервною у межах діапазону, якщо існує нескінченна кількість можливих значень, які змінна може приймати між будь-якими двома різними точками в діапазоні. Наприклад, висота, вага та час зазвичай вважаються суцільними. Звичайно, будь-яке вимірювання цих змінних буде гранично точним і в деякому сенсі дискретним.
Корисно розрізняти впорядковані (тобто порядкові), не упорядковані (тобто номінальні)
та бінарні дискретні змінні.
Деякі вступні підручники плутають суцільну змінну з числовою змінною. Наприклад, оцінка в комп'ютерній грі є дискретною, хоча вона є числовою.
Деякі вступні підручники плутають змінну співвідношення із суцільними змінними. Змінна кількість - це змінна коефіцієнт, але вона не є суцільною.
У фактичній практиці змінна часто трактується як безперервна, коли вона може приймати досить велику кількість різних значень.
Температури безперервні. Це може бути 23 градуси, 23,1 градус, 23,100004 градуси.
Секс дискретний. Ви можете бути тільки чоловіком або жінкою (у класичному мисленні все одно). Щось ви могли б представляти цілою кількістю, наприклад, 1, 2 тощо
Різниця важлива, оскільки багато алгоритмів статистики та обміну даними можуть обробляти один тип, а не інший. Наприклад, у регулярній регресії Y має бути безперервним. У логістичній регресії Y дискретний.
Дискретні дані можуть приймати лише певні значення.
Приклад: кількість учнів у класі (не можна мати половину учня).
Постійні дані - це дані, які можуть приймати будь-яке значення (в межах діапазону)
Приклади:
Що стосується бази даних, ми б завжди зберігали дані дискретно, навіть характер даних є безперервним. Чому слід наголосити на характері даних? Ми повинні взяти на себе розподіл даних, які могли б допомогти нам проаналізувати дані. ЯКЩО характер даних неперервний, я пропоную вам використовувати їх шляхом постійного аналізу.
Візьмемо приклад безперервного та дискретного: MP3. Навіть тип "звуку" є аналогією, якщо він зберігається в цифровому форматі. Ми повинні аналізувати це завжди аналогічно.
З одного боку, з практичної точки зору я згоден з відповіддю Джеромі Англіма. Зрештою, ми більшість часу маємо справу з дискретними змінними, хоча з теоретичної точки зору вони є безперервними - і це має реальний вплив, наприклад, на класифікацію. Нагадаємо, документ Стробля вказує на те, що випадкові ліси є упередженими до змінних з декількома точками різання (більша точність, але потенційно схожа природа). З мого особистого досвіду ймовірнісні нейронні мережі можуть також представляти зміщення, коли змінні мають різну точність, якщо вони не є однотипними (тобто безперервними). З іншого боку, з теоретичної точки зору класична класифікація (наприклад, безперервна, дискретна, номінальна тощо) - це IMHO, правильно. Відповідно, я думаю, що назва джерела статті Quinlan, що описує алгоритм M5, який є "регресором" - це чудовий вибір. Отже, визначення та наслідки безперервного проти дискретного є актуальними залежно від "середовища".
Відгуки:
Quinlan JR (1992). Навчання за допомогою безперервних занять. В: П'ята спільна конференція Австралії з питань ІІІ. Сідней (Австралія), 343–348.
Strobl C., Boulesteix A.-L., Zeileis A., & Hothorn T. (2007). Зміщення у випадкових лісових заходах змінної важливості: ілюстрації, джерела та рішення. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25
Дискретні дані приймають окремі значення, тоді як безперервні дані не обмежуються окремими значеннями.
Дискретні дані є чіткими і між ними немає сірої області, тоді як безперервні дані займають будь-яке значення над суцільним значенням даних.
Дискретні дані можуть приймати лише цілі значення, тоді як безперервні дані можуть приймати будь-яке значення. Наприклад, кількість хворих на рак, які лікуються в лікарні щороку, є дискретною, але ваша вага є постійним. Деякі дані є суцільними, але вимірюються дискретно, наприклад, ваш вік. Як правило, повідомляють про свій вік 31 рік.