Чому індекс джину на стовпчику jsonb уповільнює запит і що я можу з цим зробити?

Ініціалізувати дані тесту:

CREATE EXTENSION IF NOT EXISTS pgcrypto;
CREATE TABLE docs (data JSONB NOT NULL DEFAULT '{}');
-- generate 200k documents, ~half with type: "type1" and another half with type: "type2", unique incremented index and random uuid per each row
INSERT INTO docs (data)
SELECT json_build_object('id', gen_random_uuid(), 'type', (CASE WHEN random() > 0.5 THEN 'type1' ELSE 'type2' END) ,'index', n)::JSONB
FROM generate_series(1, 200000) n;
-- inset one more row with explicit uuid to query by it later
INSERT INTO docs (data) VALUES (json_build_object('id', '30e84646-c5c5-492d-b7f7-c884d77d1e0a', 'type', 'type1' ,'index', 200001)::JSONB);

Перший запит - фільтр за даними-> тип та ліміт:

-- FAST ~19ms
EXPLAIN ANALYZE
SELECT * FROM docs
WHERE data @> '{"type": "type1"}'::JSONB
LIMIT 25;
/* "Limit  (cost=0.00..697.12 rows=25 width=90) (actual time=0.029..0.070 rows=25 loops=1)"
   "  ->  Seq Scan on docs  (cost=0.00..5577.00 rows=200 width=90) (actual time=0.028..0.061 rows=25 loops=1)"
   "        Filter: (data @> '{"type": "type1"}'::jsonb)"
   "        Rows Removed by Filter: 17"
   "Planning time: 0.069 ms"
   "Execution time: 0.098 ms" 
*/

Другий запит - фільтр за даними-> тип, порядок за даними-> індекс та ліміт

-- SLOW ~250ms
EXPLAIN ANALYZE
SELECT * FROM docs
WHERE data @> '{"type": "type1"}'::JSONB
ORDER BY data->'index' -- added ORDER BY
LIMIT 25;

/* "Limit  (cost=5583.14..5583.21 rows=25 width=90) (actual time=236.750..236.754 rows=25 loops=1)"
   "  ->  Sort  (cost=5583.14..5583.64 rows=200 width=90) (actual time=236.750..236.750 rows=25 loops=1)"
   "        Sort Key: ((data -> 'index'::text))"
   "        Sort Method: top-N heapsort  Memory: 28kB"
   "        ->  Seq Scan on docs  (cost=0.00..5577.50 rows=200 width=90) (actual time=0.020..170.797 rows=100158 loops=1)"
   "              Filter: (data @> '{"type": "type1"}'::jsonb)"
   "              Rows Removed by Filter: 99842"
   "Planning time: 0.075 ms"
   "Execution time: 236.785 ms"
*/

Третій запит - такий самий, як і другий (попередній), але з btree індексом для data-> index:

CREATE INDEX docs_data_index_idx ON docs ((data->'index'));

-- FAST ~19ms
EXPLAIN ANALYZE
SELECT * FROM docs
WHERE data @> '{"type": "type1"}'::JSONB
ORDER BY data->'index' -- added BTREE index on this field
LIMIT 25;
/* "Limit  (cost=0.42..2473.98 rows=25 width=90) (actual time=0.040..0.125 rows=25 loops=1)"
   "  ->  Index Scan using docs_data_index_idx on docs  (cost=0.42..19788.92 rows=200 width=90) (actual time=0.038..0.119 rows=25 loops=1)"
   "        Filter: (data @> '{"type": "type1"}'::jsonb)"
   "        Rows Removed by Filter: 17"
   "Planning time: 0.127 ms"
   "Execution time: 0.159 ms"
*/

Четвертий запит - тепер фільтруємо за даними-> id та limit = 1:

-- SLOW ~116ms
EXPLAIN ANALYZE
SELECT * FROM docs
WHERE data @> ('{"id": "30e84646-c5c5-492d-b7f7-c884d77d1e0a"}')::JSONB -- querying by "id" field now
LIMIT 1;
/* "Limit  (cost=0.00..27.89 rows=1 width=90) (actual time=97.990..97.990 rows=1 loops=1)"
   "  ->  Seq Scan on docs  (cost=0.00..5577.00 rows=200 width=90) (actual time=97.989..97.989 rows=1 loops=1)"
   "        Filter: (data @> '{"id": "30e84646-c5c5-492d-b7f7-c884d77d1e0a"}'::jsonb)"
   "        Rows Removed by Filter: 189999"
   "Planning time: 0.064 ms"
   "Execution time: 98.012 ms"
*/

П'ятий запит - такий же, як і четвертий, але з індексом gin (json_path_ops) щодо даних:

CREATE INDEX docs_data_idx ON docs USING GIN (data jsonb_path_ops);

-- FAST ~17ms
EXPLAIN ANALYZE
SELECT * FROM docs
WHERE data @> '{"id": "30e84646-c5c5-492d-b7f7-c884d77d1e0a"}'::JSONB -- added gin index with json_path_ops
LIMIT 1;
/* "Limit  (cost=17.55..20.71 rows=1 width=90) (actual time=0.027..0.027 rows=1 loops=1)"
   "  ->  Bitmap Heap Scan on docs  (cost=17.55..649.91 rows=200 width=90) (actual time=0.026..0.026 rows=1 loops=1)"
   "        Recheck Cond: (data @> '{"id": "30e84646-c5c5-492d-b7f7-c884d77d1e0a"}'::jsonb)"
   "        Heap Blocks: exact=1"
   "        ->  Bitmap Index Scan on docs_data_idx  (cost=0.00..17.50 rows=200 width=0) (actual time=0.016..0.016 rows=1 loops=1)"
   "              Index Cond: (data @> '{"id": "30e84646-c5c5-492d-b7f7-c884d77d1e0a"}'::jsonb)"
   "Planning time: 0.095 ms"
   "Execution time: 0.055 ms"
*/

Шостий (і останній) запит - те саме, що і Третій запит (запит за даними-> тип, порядок за даними-> індекс, ліміт):

-- SLOW AGAIN! ~224ms
EXPLAIN ANALYZE
SELECT * FROM docs
WHERE data @> '{"type": "type1"}'::JSONB
ORDER BY data->'index'
LIMIT 25;
/* "Limit  (cost=656.06..656.12 rows=25 width=90) (actual time=215.927..215.932 rows=25 loops=1)"
   "  ->  Sort  (cost=656.06..656.56 rows=200 width=90) (actual time=215.925..215.925 rows=25 loops=1)"
   "        Sort Key: ((data -> 'index'::text))"
   "        Sort Method: top-N heapsort  Memory: 28kB"
   "        ->  Bitmap Heap Scan on docs  (cost=17.55..650.41 rows=200 width=90) (actual time=33.134..152.618 rows=100158 loops=1)"
   "              Recheck Cond: (data @> '{"type": "type1"}'::jsonb)"
   "              Heap Blocks: exact=3077"
   "              ->  Bitmap Index Scan on docs_data_idx  (cost=0.00..17.50 rows=200 width=0) (actual time=32.468..32.468 rows=100158 loops=1)"
   "                    Index Cond: (data @> '{"type": "type1"}'::jsonb)"
   "Planning time: 0.157 ms"
   "Execution time: 215.992 ms"
*/

Отже, здається, що шостий (такий же, як і третій) запит набагато повільніше, коли в стовпці даних є індекс джин. Це, мабуть, тому, що для поля data-> type (лише "type1" або "type2") не так багато різних значень? Що я можу з цим зробити? Мені потрібен індекс джина, щоб робити інші запити, які відповідають цьому ...

postgresql postgresql-9.4

— user606521
джерело

Схоже, ви зіткнулися з проблемою, що jsonbстовпці мають рівний 1% -ний показник статистики, як повідомлялося тут. Працюючи над відсутністю статистики jsonb? . Дивлячись на ваші плани запитів, різниці між кошторисом та фактичним виконанням величезні. Оцінки говорять, що, ймовірно, 200 рядків, а фактичне повернення - 100158 рядків, через що планувальник надає перевагу певним стратегіям перед іншими.

Оскільки вибір шостого запиту, схоже, зводиться до переваги сканування індексу растрових зображень над скануванням індексу, ви можете підштовхнути планувальник разом із тим, SET enable_bitmapscan=offщоб спробувати повернути його до поведінки, яку ви мали у своєму третьому прикладі.

Ось як це працювало для мене:

postgres@[local]:5432:postgres:=# EXPLAIN (ANALYZE, BUFFERS)
SELECT * FROM docs
WHERE data @> '{"type": "type1"}'::JSONB
ORDER BY data->'index'
LIMIT 25;
                                                                QUERY PLAN                                                                 
-------------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost=656.06..656.12 rows=25 width=90) (actual time=117.338..117.343 rows=25 loops=1)
   Buffers: shared hit=3096
   ->  Sort  (cost=656.06..656.56 rows=200 width=90) (actual time=117.336..117.338 rows=25 loops=1)
         Sort Key: ((data -> 'index'::text))
         Sort Method: top-N heapsort  Memory: 28kB
         Buffers: shared hit=3096
         ->  Bitmap Heap Scan on docs  (cost=17.55..650.41 rows=200 width=90) (actual time=12.838..80.584 rows=99973 loops=1)
               Recheck Cond: (data @> '{"type": "type1"}'::jsonb)
               Heap Blocks: exact=3077
               Buffers: shared hit=3096
               ->  Bitmap Index Scan on docs_data_idx  (cost=0.00..17.50 rows=200 width=0) (actual time=12.469..12.469 rows=99973 loops=1)
                     Index Cond: (data @> '{"type": "type1"}'::jsonb)
                     Buffers: shared hit=19
 Planning time: 0.088 ms
 Execution time: 117.405 ms
(15 rows)

Time: 117.813 ms
postgres@[local]:5432:postgres:=# SET enable_bitmapscan = off;
SET
Time: 0.130 ms
postgres@[local]:5432:postgres:=# EXPLAIN (ANALYZE, BUFFERS)
SELECT * FROM docs
WHERE data @> '{"type": "type1"}'::JSONB
ORDER BY data->'index'
LIMIT 25;
                                                               QUERY PLAN                                                               
----------------------------------------------------------------------------------------------------------------------------------------
 Limit  (cost=0.42..1320.48 rows=25 width=90) (actual time=0.017..0.050 rows=25 loops=1)
   Buffers: shared hit=4
   ->  Index Scan using docs_data_index_idx on docs  (cost=0.42..10560.94 rows=200 width=90) (actual time=0.015..0.045 rows=25 loops=1)
         Filter: (data @> '{"type": "type1"}'::jsonb)
         Rows Removed by Filter: 27
         Buffers: shared hit=4
 Planning time: 0.083 ms
 Execution time: 0.071 ms
(8 rows)

Time: 0.402 ms
postgres@[local]:5432:postgres:=#

Якщо ви хочете пройти цей маршрут, не забудьте відключити це сканування лише для запитів, які показують подібну поведінку, інакше ви отримаєте погану поведінку і в інших планах запитів. Робити щось подібне, це повинно спрацювати чудово:

BEGIN;
SET enable_bitmapscan=off;
SELECT * FROM docs
WHERE data @> '{"type": "type1"}'::JSONB
ORDER BY data->'index'
LIMIT 25;
SET enable_bitmapscan=on;
COMMIT;

Сподіваюся, що це допомагає =)

— Кассандрі
джерело

Я не впевнений, чи правильно я вас зрозумів (я не знайомий з внутрішніми PG) - така поведінка спричинена низькою кардинальністю у полі "type" у колонці jsonb (і внутрішньо спричиненій фіксованою швидкістю статистики), правда? А це також означає, що якщо я хочу, щоб мій запит був оптимізований, я повинен знати приблизну кардинальність полів jsonb, на які я запитую, щоб вирішити, чи слід активувати_bitmapscan чи ні, правда?

— user606521

Так, ти, здається, розумієш це з обох питань. Вибірковість базової 1% сприяє перегляду поля в WHEREпункті індексу джин, оскільки він вважає, що поверне менше рядків, що не відповідає дійсності. Оскільки ви можете краще оцінити кількість рядків, ви можете побачити, що, оскільки ви робите ORDER BY data->'index' LIMIT 25, сканування перших кількох записів іншого індексу (50 або близько, із викинутими рядками) призведе до ще меншої кількості рядків. планувальник дійсно не повинен намагатися використовувати результати растрових сканів для швидшого використання плану запитів. Сподіваюсь, що все прояснить. =)

— Кассандрі

Тут є додаткова уточнююча інформація: databasesoup.com/2015/01/tag-all-things-part-3.html, а також у цій презентації thebuild.com/presentations/json2015-pgconfus.pdf .

— Кассандрі

Єдина робота, про яку я знаю, - це Олег Бартунов, Тедор Сігаєв та Олександр Которов про розширення JsQuery та підвищення його вибірковості. При будь-якій удачі він перетворюється на ядро PostgreSQL через 9.6 або пізнішої версії.

— Кассандрі

Я цитував цифру 1% з електронного листа у своїй відповіді від Джоша Беркуса, члена команди PostgreSQL Core Team. Звідки це походить, потрібно набагато глибше розуміння внутрішніх справ, ніж я зараз маю, вибачте. = (Ви можете спробувати відповісти pgsql-performance@postgresql.orgна IRC на екрані freenode #postgresqlщодо того, звідки саме ця цифра походить.

— Kassandry