Знайдіть батьківські рядки, які мають однакові набори дочірніх рядків

Припустимо, у мене така структура:

Таблиця рецептів

RecipeID
Name
Description

Таблиця рецептів

RecipeID
IngredientID
Quantity
UOM

Ключовим моментом RecipeIngredientsє (RecipeID, IngredientID).

Які є хороші способи пошуку дублікатів рецептів? Повторний рецепт визначається як такий, що має однаковий набір інгредієнтів і кількості для кожного інгредієнта.

Я думав використовувати FOR XML PATHкомбінувати інгредієнти в одну колонку. Я не до кінця вивчив це, але це має спрацювати, якщо я переконуюсь, що інгредієнти / УОМ / кількості відсортовані в одній послідовності та мають належний роздільник. Чи є кращі підходи?

Є 48К рецептів та 200К рядків інгредієнтів.

— ткнути
джерело

Відповіді:

Для наступних припущених схем і приклад даних

CREATE TABLE dbo.RecipeIngredients
    (
      RecipeId INT NOT NULL ,
      IngredientID INT NOT NULL ,
      Quantity INT NOT NULL ,
      UOM INT NOT NULL ,
      CONSTRAINT RecipeIngredients_PK 
          PRIMARY KEY ( RecipeId, IngredientID ) WITH (IGNORE_DUP_KEY = ON)
    ) ;

INSERT INTO dbo.RecipeIngredients
SELECT TOP (210000) ABS(CRYPT_GEN_RANDOM(8)/50000),
                     ABS(CRYPT_GEN_RANDOM(8) % 100),
                     ABS(CRYPT_GEN_RANDOM(8) % 10),
                     ABS(CRYPT_GEN_RANDOM(8) % 5)
FROM master..spt_values v1,                     
     master..spt_values v2


SELECT DISTINCT RecipeId, 'X' AS Name
INTO Recipes 
FROM  dbo.RecipeIngredients

Це заповнено 205 009 рядків інгредієнтів та 42 613 рецептів. Це щоразу буде дещо відрізнятися через випадковий елемент.

Це передбачає відносно мало виїмок (після прикладу виконання було 217 дублікатів рецептурних груп з двома-трьома рецептами на групу). Найбільш патологічний випадок, що базується на даних в ОП, складе 48 000 точних дублікатів.

Сценарій для встановлення є

DROP TABLE dbo.RecipeIngredients,Recipes
GO

CREATE TABLE Recipes(
RecipeId INT IDENTITY,
Name VARCHAR(1))

INSERT INTO Recipes 
SELECT TOP 48000 'X'
FROM master..spt_values v1,                     
     master..spt_values v2

CREATE TABLE dbo.RecipeIngredients
    (
      RecipeId INT NOT NULL ,
      IngredientID INT NOT NULL ,
      Quantity INT NOT NULL ,
      UOM INT NOT NULL ,
      CONSTRAINT RecipeIngredients_PK 
          PRIMARY KEY ( RecipeId, IngredientID )) ;

INSERT INTO dbo.RecipeIngredients
SELECT RecipeId,IngredientID,Quantity,UOM
FROM Recipes
CROSS JOIN (SELECT 1,1,1 UNION ALL SELECT 2,2,2 UNION ALL  SELECT 3,3,3 UNION ALL SELECT 4,4,4) I(IngredientID,Quantity,UOM)

Наступне виконано менш ніж на секунду на моїй машині для обох випадків.

CREATE TABLE #Concat
  (
     RecipeId     INT,
     concatenated VARCHAR(8000),
     PRIMARY KEY (concatenated, RecipeId)
  )

INSERT INTO #Concat
SELECT R.RecipeId,
       ISNULL(concatenated, '')
FROM   Recipes R
       CROSS APPLY (SELECT CAST(IngredientID AS VARCHAR(10)) + ',' + CAST(Quantity AS VARCHAR(10)) + ',' + CAST(UOM AS VARCHAR(10)) + ','
                    FROM   dbo.RecipeIngredients RI
                    WHERE  R.RecipeId = RecipeId
                    ORDER  BY IngredientID
                    FOR XML PATH('')) X (concatenated);

WITH C1
     AS (SELECT DISTINCT concatenated
         FROM   #Concat)
SELECT STUFF(Recipes, 1, 1, '')
FROM   C1
       CROSS APPLY (SELECT ',' + CAST(RecipeId AS VARCHAR(10))
                    FROM   #Concat C2
                    WHERE  C1.concatenated = C2.concatenated
                    ORDER  BY RecipeId
                    FOR XML PATH('')) R(Recipes)
WHERE  Recipes LIKE '%,%,%'

DROP TABLE #Concat

Один застереження

Я припускав, що довжина з'єднаного рядка не перевищить 896 байт. Якщо це зробити, це призведе до помилки під час виконання, а не до мовчазного відмови. Вам потрібно буде видалити первинний ключ (і неявно створений індекс) з #tempтаблиці. Максимальна довжина з'єднаного рядка в моїй тестовій установці становила 125 символів.

Якщо об'єднаний рядок занадто довгий для індексації, то виконання остаточного XML PATHзапиту, що консолідує однакові рецепти, цілком може бути поганим. Встановлення та використання користувацької агрегації рядків CLR було б одним із рішень, оскільки це могло б зробити конкатенацію одним проходом даних, а не неіндексованим самостійним приєднанням.

SELECT YourClrAggregate(RecipeId)
FROM #Concat
GROUP BY concatenated

Я також спробував

WITH Agg
     AS (SELECT RecipeId,
                MAX(IngredientID)          AS MaxIngredientID,
                MIN(IngredientID)          AS MinIngredientID,
                SUM(IngredientID)          AS SumIngredientID,
                COUNT(IngredientID)        AS CountIngredientID,
                CHECKSUM_AGG(IngredientID) AS ChkIngredientID,
                MAX(Quantity)              AS MaxQuantity,
                MIN(Quantity)              AS MinQuantity,
                SUM(Quantity)              AS SumQuantity,
                COUNT(Quantity)            AS CountQuantity,
                CHECKSUM_AGG(Quantity)     AS ChkQuantity,
                MAX(UOM)                   AS MaxUOM,
                MIN(UOM)                   AS MinUOM,
                SUM(UOM)                   AS SumUOM,
                COUNT(UOM)                 AS CountUOM,
                CHECKSUM_AGG(UOM)          AS ChkUOM
         FROM   dbo.RecipeIngredients
         GROUP  BY RecipeId)
SELECT  A1.RecipeId AS RecipeId1,
        A2.RecipeId AS RecipeId2
FROM   Agg A1
       JOIN Agg A2
         ON A1.MaxIngredientID = A2.MaxIngredientID
            AND A1.MinIngredientID = A2.MinIngredientID
            AND A1.SumIngredientID = A2.SumIngredientID
            AND A1.CountIngredientID = A2.CountIngredientID
            AND A1.ChkIngredientID = A2.ChkIngredientID
            AND A1.MaxQuantity = A2.MaxQuantity
            AND A1.MinQuantity = A2.MinQuantity
            AND A1.SumQuantity = A2.SumQuantity
            AND A1.CountQuantity = A2.CountQuantity
            AND A1.ChkQuantity = A2.ChkQuantity
            AND A1.MaxUOM = A2.MaxUOM
            AND A1.MinUOM = A2.MinUOM
            AND A1.SumUOM = A2.SumUOM
            AND A1.CountUOM = A2.CountUOM
            AND A1.ChkUOM = A2.ChkUOM
            AND A1.RecipeId <> A2.RecipeId
WHERE  NOT EXISTS (SELECT *
                   FROM   (SELECT *
                           FROM   RecipeIngredients
                           WHERE  RecipeId = A1.RecipeId) R1
                          FULL OUTER JOIN (SELECT *
                                           FROM   RecipeIngredients
                                           WHERE  RecipeId = A2.RecipeId) R2
                            ON R1.IngredientID = R2.IngredientID
                               AND R1.Quantity = R2.Quantity
                               AND R1.UOM = R2.UOM
                   WHERE  R1.RecipeId IS NULL
                           OR R2.RecipeId IS NULL)

Це працює приємно, коли дублікатів порівняно мало (менше секунди для перших прикладних даних), але погано спрацьовує в патологічному випадку, оскільки початкова агрегація повертає абсолютно однакові результати для кожного, RecipeIDі тому не вдається зменшити кількість порівняння взагалі.

— Мартін Сміт
джерело

Я не впевнений, чи має сенс порівнювати "порожні" рецепти, але я змінив запит і на цей ефект, перш ніж остаточно опублікувати його, побачивши, що це було рішенням @ ypercube.

— Андрій М

@AndriyM - Джо Селко порівнює його з поділом на нуль у своїй статті про реляційний поділ

— Мартін Сміт

Це узагальнення проблеми реляційного поділу. Не маю ідеї, наскільки це буде ефективно:

; WITH cte AS
( SELECT RecipeID_1 = r1.RecipeID, Name_1 = r1.Name,
         RecipeID_2 = r2.RecipeID, Name_2 = r2.Name  
  FROM Recipes AS r1
    JOIN Recipes AS r2
      ON r1.RecipeID <> r2.RecipeID
  WHERE NOT EXISTS
        ( SELECT 1
          FROM RecipeIngredients AS ri1
          WHERE ri1.RecipeID = r1.RecipeID 
            AND NOT EXISTS
                ( SELECT 1
                  FROM RecipeIngredients AS ri2
                  WHERE ri2.RecipeID = r2.RecipeID 
                    AND ri1.IngredientID = ri2.IngredientID
                    AND ri1.Quantity = ri2.Quantity
                    AND ri1.UOM = ri2.UOM
                )
         )
)
SELECT c1.*
FROM cte AS c1
  JOIN cte AS c2
    ON  c1.RecipeID_1 = c2.RecipeID_2
    AND c1.RecipeID_2 = c2.RecipeID_1
    AND c1.RecipeID_1 < c1.RecipeID_2;

Інший (подібний) підхід:

SELECT RecipeID_1 = r1.RecipeID, Name_1 = r1.Name,
       RecipeID_2 = r2.RecipeID, Name_2 = r2.Name 
FROM Recipes AS r1
  JOIN Recipes AS r2
    ON  r1.RecipeID < r2.RecipeID 
    AND NOT EXISTS
        ( SELECT IngredientID, Quantity, UOM
          FROM RecipeIngredients AS ri1
          WHERE ri1.RecipeID = r1.RecipeID
        EXCEPT 
          SELECT IngredientID, Quantity, UOM
          FROM RecipeIngredients AS ri2
          WHERE ri2.RecipeID = r2.RecipeID
        )
    AND NOT EXISTS
        ( SELECT IngredientID, Quantity, UOM
          FROM RecipeIngredients AS ri2
          WHERE ri2.RecipeID = r2.RecipeID
        EXCEPT 
          SELECT IngredientID, Quantity, UOM
          FROM RecipeIngredients AS ri1
          WHERE ri1.RecipeID = r1.RecipeID
        ) ;

І ще одна, інша:

; WITH cte AS
( SELECT RecipeID_1 = r.RecipeID, RecipeID_2 = ri.RecipeID, 
          ri.IngredientID, ri.Quantity, ri.UOM
  FROM Recipes AS r
    CROSS JOIN RecipeIngredients AS ri
)
, cte2 AS
( SELECT RecipeID_1, RecipeID_2,
         IngredientID, Quantity, UOM
  FROM cte
EXCEPT
  SELECT RecipeID_2, RecipeID_1,
         IngredientID, Quantity, UOM
  FROM cte
)

  SELECT RecipeID_1 = r1.RecipeID, RecipeID_2 = r2.RecipeID
  FROM Recipes AS r1
    JOIN Recipes AS r2
      ON r1.RecipeID < r2.RecipeID
EXCEPT 
  SELECT RecipeID_1, RecipeID_2
  FROM cte2
EXCEPT 
  SELECT RecipeID_2, RecipeID_1
  FROM cte2 ;

Тестовано на SQL-Fiddle

Використовуючи CHECKSUM()і CHECKSUM_AGG()функції, протестуйте на SQL-Fiddle-2 :
( ігноруйте це, оскільки це може дати помилкові позитиви )

ALTER TABLE RecipeIngredients ADD ck AS CHECKSUM( IngredientID, Quantity, UOM ) PERSISTED ; CREATE INDEX ckecksum_IX ON RecipeIngredients ( RecipeID, ck ) ; ; WITH cte AS ( SELECT RecipeID, cka = CHECKSUM_AGG(ck) FROM RecipeIngredients AS ri GROUP BY RecipeID ) SELECT RecipeID_1 = c1.RecipeID, RecipeID_2 = c2.RecipeID FROM cte AS c1 JOIN cte AS c2 ON c1.cka = c2.cka AND c1.RecipeID < c2.RecipeID ;

— ypercubeᵀᴹ
джерело

Плани виконання - начебто лякаючі.

— ypercubeᵀᴹ

Це стає в основі мого питання, як це зробити. План виконання може бути перешкодою для моєї конкретної ситуації.

— ткнути

CHECKSUMі CHECKSUM_AGGвсе ж залишати потрібно перевірити наявність помилкових позитивних результатів.

— Мартін Сміт

Для скороченої версії даних прикладу у моїй відповіді з 470 рецептами та 2057 рядками з інгредієнтами запит 1 має Table 'RecipeIngredients'. Scan count 220514, logical reads 443643і запит 2 Table 'RecipeIngredients'. Scan count 110218, logical reads 441214. Третій, здається, має порівняно менший показник, ніж ці два, але все-таки проти повних зразків даних я скасував запит через 8 хвилин.

— Мартін Сміт

Ви повинні мати можливість прискорити це, порівнюючи підрахунки спочатку. В основному пара рецептів не може мати точно такий же інгредієнт, якщо кількість інгредієнтів не однакова.

— TomTom