Я провожу кілька тестів щодо форматів сховищ, доступних у Hive, і використовую Parquet та ORC як основні варіанти. Я включив ORC один раз із стисненням за замовчуванням і один раз із Snappy.
Я прочитав багато документів, у яких зазначено, що паркет кращий за часом / простором у порівнянні з ORC, але мої тести протилежні тим документам, які я пройшов.
Дотримується деяких деталей моїх даних.
Table A- Text File Format- 2.5GB
Table B - ORC - 652MB
Table C - ORC with Snappy - 802MB
Table D - Parquet - 1.9 GB
Що стосується стиску для мого столу, паркет був найгіршим.
Мої тести з наведеними таблицями дали наступні результати.
Операція підрахунку рядків
Text Format Cumulative CPU - 123.33 sec
Parquet Format Cumulative CPU - 204.92 sec
ORC Format Cumulative CPU - 119.99 sec
ORC with SNAPPY Cumulative CPU - 107.05 sec
Сума операції стовпця
Text Format Cumulative CPU - 127.85 sec
Parquet Format Cumulative CPU - 255.2 sec
ORC Format Cumulative CPU - 120.48 sec
ORC with SNAPPY Cumulative CPU - 98.27 sec
Середнє значення операції стовпця
Text Format Cumulative CPU - 128.79 sec
Parquet Format Cumulative CPU - 211.73 sec
ORC Format Cumulative CPU - 165.5 sec
ORC with SNAPPY Cumulative CPU - 135.45 sec
Вибір 4 стовпців із заданого діапазону за допомогою речення where
Text Format Cumulative CPU - 72.48 sec
Parquet Format Cumulative CPU - 136.4 sec
ORC Format Cumulative CPU - 96.63 sec
ORC with SNAPPY Cumulative CPU - 82.05 sec
Чи означає це, що ORC швидший за паркет? Або я можу щось зробити, щоб покращити роботу із часом відгуку запиту та коефіцієнтом стиснення?
Дякую!