У чому різниця між глобальними та універсальними методами стиснення?


12

Я розумію, що методи стиснення можуть бути розділені на два основні набори:

  1. глобальний
  2. місцеві

Перший набір працює незалежно від даних, що обробляються, тобто вони не покладаються на будь-які характеристики даних і, таким чином, не потребують жодної попередньої обробки на будь-якій частині набору даних (перед самим стисненням). З іншого боку, місцеві методи аналізують дані, витягуючи інформацію, яка зазвичай покращує швидкість стиснення.

Читаючи про деякі з цих методів, я помітив, що одинарний метод не є універсальним , що мене здивувало, оскільки я вважав, що «глобальність» і «універсальність» стосуються одного і того ж. Одинарний метод не покладається на характеристики даних для отримання його кодування (тобто це глобальний метод), і тому він повинен бути глобальним / універсальним, чи не так?

Мої основні питання:

  • Чим відрізняються універсальні та глобальні методи?
  • Чи не є ці класифікації синонімами?

2
Чи можете ви посилання на / посилання, де ви читали, що одинарний метод не є універсальним? Контекст може допомогти.
Повітря

3
Я ... не впевнений, як це стосується науки про дані. Це здається поза темою для цього обміну стеками. Чи можете ви відновити це назад до науки про дані?
Слейтер Вікторофф

@SlaterTyranus Я ... теж не впевнений (і це змусило мене задуматися над ще двома питаннями, які я розмістив). Моя ідея полягала в тому, щоб додати це питання, оскільки методи стиснення значною мірою використовуються для пошуку інформації (переважно під час індексації). Взагалі, я вважаю, що це пов'язано з ефективністю, і це може бути поміщено в області навичок злому цієї діаграми Венна . У будь-якому разі, я думаю, було б непогано обговорити, чи є такий вид питань на тему.
Рубенс

@Rubens Це здається розумним обговоренням, на мій погляд, розмова про ефективність більше вписується в щось на зразок теоретичного CS, ніж явні навички хакерства . На мій погляд, навички злому набагато більше пов'язані з такими речами, як бази даних, розгортання та знання інструментів.
Слейтер Вікторофф

1
@SvanBalen Два основні моменти: 1. Теорія інформації важлива в деяких підходах до наукових даних, але не має значення в багатьох інших. 2. Основи по суті не є темою, а детальне запитання про статистику чи лінійну алгебру було б також поза темою, хоча обидва з них суворо потрібні для корисних наукових даних.
Слейтер Вікторов

Відповіді:


3

Розглянемо наступний фрагмент даних:

1010010110100101

Універсальний - це загальні алгоритми стиснення, які є агностичними. Груба версія кодування довжини пробігу потрапить у цю категорію. Перевага полягає в тому, що дуже швидко стискати і розпаковувати. Мінус полягає в тому, що він може бути вкрай неефективним на основі даних, що стискаються.

1111111111111111 -> 16 1 (щасливий випадок)

1010010110100101 -> 1010010110100101 (нещасливий випадок)

Локальний - цей метод розглядав би менші сегменти фіксованої довжини, скажімо, 4, шукати шаблони та стискати їх. Напр. Ці дані містять лише ці два типи шаблонів - 1010 та 0101. Ці шаблони можна представити як 0s та 1s, а загальні дані будуть таблицею, що представляє відображення, і щось на зразок 0101. Це може потенційно призвести до набагато менших стислий розмір.

1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)

Глобальний - цей метод дозволив би переглянути всі дані та знайти оптимальні / значно кращі моделі для стиснення даних. Дані прикладу містять лише один шаблон 10100101 і представляють його як 00 разом із таблицею відображення. Це має потенціал отримати найменший можливий стислий розмір, але при цьому обчислювально є найбільш важким.

1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.