Чи є документація чи дослідження щодо змін у SQL Server 2016 щодо того, як оцінюється кардинальність для предикатів, що містять SUBSTRING () або інших рядкових функцій?
Причина, про яку я запитую, полягає в тому, що я дивився на запит, продуктивність якого погіршилася в режимі сумісності 130, і причина була пов'язана зі зміною оцінки кількості рядків, що відповідають умові WHERE, яка містила виклик SUBSTRING (). Я виправив проблему з перезаписом запитів, але мені цікаво, чи хтось знає про будь-яку документацію про зміни в цій області в SQL Server 2016.
Демо-код наведено нижче. Оцінки в цьому тестовому випадку дуже близькі, але точність змінюється залежно від даних.
У тестовому випадку, на рівні 120 компат, SQL Server, як здається, використовує гістограму для оцінки, тоді як у рівні компат 130 SQL Server передбачає фіксовану 10% збігів таблиці.
CREATE DATABASE MyStringTestDB;
GO
USE MyStringTestDB;
GO
DROP TABLE IF EXISTS dbo.StringTest;
CREATE TABLE dbo.StringTest ( [TheString] varchar(15) );
GO
INSERT INTO dbo.StringTest
VALUES
( 'Y5_CLV' );
INSERT INTO dbo.StringTest
VALUES
( 'Y5_EG3' );
INSERT INTO dbo.StringTest
VALUES
( 'ZY_NE' );
INSERT INTO dbo.StringTest
VALUES
( 'ZY_PQT' );
INSERT INTO dbo.StringTest
VALUES
( 'ZY_T2V' );
INSERT INTO dbo.StringTest
VALUES
( 'ZY_TT4' );
INSERT INTO dbo.StringTest
VALUES
( 'ZY_ZKK' );
INSERT INTO dbo.StringTest
VALUES
( 'ZZ_LW6' );
INSERT INTO dbo.StringTest
VALUES
( 'ZZ_QO3' );
INSERT INTO dbo.StringTest
VALUES
( 'ZZ_TZ7' );
INSERT INTO dbo.StringTest
VALUES
( 'ZZ_UZZ' );
CREATE CLUSTERED INDEX IX_Clustered ON dbo.StringTest (TheString);
/*
Uses fixed % for estimate; 1.1 rows estimated in this case.
Plan for computation:
CSelCalcFixedFilter (0.1) <----
Selectivity: 0.1
*/
ALTER DATABASE MyStringTestDB SET compatibility_level = 130;
GO
SELECT *
FROM dbo.StringTest
WHERE SUBSTRING(TheString, 1, CHARINDEX('_',TheString) - 1) = 'ZZ'
OPTION (QUERYTRACEON 2363, QUERYTRACEON 3604);
/*
Uses histogram to get estimate of 1
CSelCalcPointPredsFreqBased <----
Distinct value calculation:
CDVCPlanLeaf
0 Multi-Column Stats, 1 Single-Column Stats, 0 Guesses
Individual selectivity calculations:
(none)
Loaded histogram for column QCOL: [DBA].[dbo].[StringTest].TheString from stats with id 1
*/
ALTER DATABASE MyStringTestDB SET compatibility_level = 120;
GO
SELECT *
FROM dbo.StringTest
WHERE SUBSTRING(TheString, 1, CHARINDEX('_',TheString) - 1) = 'ZZ'
OPTION (QUERYTRACEON 2363, QUERYTRACEON 3604);
/*
-- Simpler rewrite; works fine in both compat levels and gets better estimate.
SELECT *
FROM dbo.StringTest
WHERE TheString LIKE 'ZZ[_]%'
OPTION (QUERYTRACEON 2363, QUERYTRACEON 3604);
*/
Y5_EG3
рядки - це лише коди і завжди великі регістри, то ви завжди можете спробувати вказати бінарне зіставлення -Latin1_General_100_BIN2
- що повинно підвищити швидкість операцій фільтрації. Просто додайтеCOLLATE Latin1_General_100_BIN2
доCREATE TABLE
заяви, відразу післяvarchar(15)
. Мені було б цікаво дізнатися, чи вплинуло це на розробку / оцінку плану.