Шаблон регулярного виразу всередині функції SQL Замінити?


82
SELECT REPLACE('<strong>100</strong><b>.00 GB', '%^(^-?\d*\.{0,1}\d+$)%', '');

Я хочу замінити будь-яку розмітку між двома частинами числа вищевказаним регулярним виразом, але, схоже, це не працює. Я не впевнений, що неправильний синтаксис регулярних виразів, тому що я спробував більш простий, такий як '%[^0-9]%'просто перевірити, але він теж не спрацював. Хтось знає, як я можу цього досягти?


3
Ви можете переглянути відповідь.
Мукус,

1
Яким ви хочете, щоб був кінцевий результат? Ви очікуєте 100.00чи 100.00 GB? І чи існують інші приклади відформатованих чисел, які не відповідають шаблону розмітки, лише перебуваючи навколо частини ліворуч від десяткової коми? Чи може розмітка розміщуватися навколо всього числа, наприклад 100<i>.00</i> GB? Чи завжди праворуч є двозначний код валюти?
Соломон Руцкі

@srutzky Я хочу число з десятковими крапками, якщо такі є, їх мають не всі значення, також для них практично немає шаблону, оскільки він генерується, але сторонній генератор html. Іноді валюта стоїть попереду, іноді після номера, іноді це символ - $, іноді код - USD, з -без пробілів .. і т.д. тощо. просто дуже
смітні

Відповіді:


62

Ви можете використовувати PATINDEX, щоб знайти перший індекс появи шаблону (рядка). Потім за допомогою STUFF введіть ще один рядок у відповідний шаблон (рядок).

Повторіть кожен ряд. Замініть кожного незаконного символу тим, що ви хочете. У вашому випадку нечислові замініть на порожні. Внутрішній цикл - це якщо у поточній комірці цього циклу є більше одного незаконного символу.

DECLARE @counter int

SET @counter = 0

WHILE(@counter < (SELECT MAX(ID_COLUMN) FROM Table))
BEGIN  

    WHILE 1 = 1
    BEGIN
        DECLARE @RetVal varchar(50)

        SET @RetVal =  (SELECT Column = STUFF(Column, PATINDEX('%[^0-9.]%', Column),1, '')
        FROM Table
        WHERE ID_COLUMN = @counter)

        IF(@RetVal IS NOT NULL)       
          UPDATE Table SET
          Column = @RetVal
          WHERE ID_COLUMN = @counter
        ELSE
            break
    END

    SET @counter = @counter + 1
END

Увага: Це повільно! Наявність стовпця varchar може вплинути. Тож використання LTRIM RTRIM може трохи допомогти. Незалежно, це повільно.

Заслуга належить цій відповіді StackOverFlow.

EDIT Credit також надходить на @srutzky

Редагувати (від @Tmdean) Замість того, щоб робити по одному рядку за раз, цю відповідь можна адаптувати до рішення, яке базується на наборах. Він все ще повторює максимальну кількість нечислових символів в одному рядку, тому це не ідеально, але я вважаю, що це повинно бути прийнятним у більшості ситуацій.

WHILE 1 = 1 BEGIN
    WITH q AS
        (SELECT ID_Column, PATINDEX('%[^0-9.]%', Column) AS n
        FROM Table)
    UPDATE Table
    SET Column = STUFF(Column, q.n, 1, '')
    FROM q
    WHERE Table.ID_Column = q.ID_Column AND q.n != 0;

    IF @@ROWCOUNT = 0 BREAK;
END;

Ви також можете значно підвищити ефективність, якщо у таблиці зберігати бітовий стовпець, який вказує, чи поле ще не було очищено. (NULL представляє "Невідомо" у моєму прикладі і має бути типовим стовпцем.)

DECLARE @done bit = 0;
WHILE @done = 0 BEGIN
    WITH q AS
        (SELECT ID_Column, PATINDEX('%[^0-9.]%', Column) AS n
        FROM Table
        WHERE COALESCE(Scrubbed_Column, 0) = 0)
    UPDATE Table
    SET Column = STUFF(Column, q.n, 1, ''),
        Scrubbed_Column = 0
    FROM q
    WHERE Table.ID_Column = q.ID_Column AND q.n != 0;

    IF @@ROWCOUNT = 0 SET @done = 1;

    -- if Scrubbed_Column is still NULL, then the PATINDEX
    -- must have given 0
    UPDATE table
    SET Scrubbed_Column = CASE
        WHEN Scrubbed_Column IS NULL THEN 1
        ELSE NULLIF(Scrubbed_Column, 0)
    END;
END;

Якщо ви не хочете змінювати свою схему, це легко адаптувати для зберігання проміжних результатів у змінній, що має значення таблиці, яка застосовується до фактичної таблиці в кінці.


2
Для того, щоб це рішення працювало, принаймні вам потрібно додати крапку до шаблону PATINDEX; вона повинна бути: [^0-9.]. Якщо немає , то ви роздягнути десяткову і перетворити те , що повинно бути 100.00в 10000.
Соломон Руцький

@srutzky ok додав '.' Я насправді працював над алфавітом і думав, що робити ^ 0-9 буде працювати.
Мукус

+1 за зусилля, але (як ви також вказали) це призведе до того, що звіти працюватимуть занадто довго, вони повільні, як і є ... але для менших даних це відмінне рішення!
січень,

1
Я просто працював над чимось подібним до цього, тому збираюся оновити відповідь швидшим рішенням. Це все ще не ідеально, але продуктивність повинна бути прийнятною в більшості ситуацій.
Тмдін,

@Tmdean: Дякую, що сприяли цьому, я спробую наступного разу, коли зіткнуся з подібною проблемою.
січня 2015 р.,

23

Замість того, щоб зачистити знайденого персонажа за його єдиною позицією, використання Replace(Column, BadFoundCharacter, '')може бути значно швидшим. Крім того, замість того, щоб просто замінити по одному невдалому символу, знайденому в кожному стовпці, це замінює всіх знайдених.

WHILE 1 = 1 BEGIN
    UPDATE dbo.YourTable
    SET Column = Replace(Column, Substring(Column, PatIndex('%[^0-9.-]%', Column), 1), '')
    WHERE Column LIKE '%[^0-9.-]%'
    If @@RowCount = 0 BREAK;
END;

Я переконаний, що це буде працювати краще, ніж прийнята відповідь, хоча б тому, що воно робить менше операцій. Є й інші способи, які також можуть бути швидшими, але я зараз не маю часу на їх вивчення.


Виглядає цікаво, я не маю часу спробувати це зараз, але буду робити, коли маю. Привітання
JANT

4
Це допомогло мені вирішити дещо непов’язану проблему. Я використав ваш Replace(Column, Substring(Column, PatIndex('%[^0-9.-]%', Column), 1), '')біт для вибраного запиту. Отже, спасибі!
jyoseph 02

1
@jyoseph Чудово! Тільки майте на увазі, що це призведе до видалення лише всіх випадків певного поганого символу, і його потрібно запускати неодноразово, якщо набір поганих символів перевищує одиницю ...
ErikE

@ErikE Дякуємо за увагу! Я використовував його для запиту стовпця з телефонними номерами (дещо змінив шаблон до% [^ 0-9]%), щоб видалити все, що не є числовим. Таким чином, користувач міг здійснити запит 333-1234, і він збігався б з телефонними номерами, введеними як 3331234. Якщо я правильно розумію, ви говорите, що у випадку, коли номер телефону (333) -333-1234, він буде лише першим "("? Мені доведеться ще трохи перевірити це.
jyoseph

Правильно. Ви можете встановити модуль CLR. Або в ідеалі просто зробити це в програмному коді.
ErikE

23

У загальному розумінні SQL Server не підтримує регулярні вирази, і ви не можете використовувати їх у власному коді T-SQL.

Для цього ви можете написати функцію CLR. Дивіться тут , наприклад.


1
Добре, що , здається, єдиний шлях , то ... Спасибі
JANT

4

Я натрапив на цю публікацію, шукаючи щось інше, але подумав, що згадаю рішення, яке я використовую, набагато ефективніше - і насправді має бути реалізацією за замовчуванням будь-якої функції, коли вона використовується із запитом на основі набору - тобто використовувати перехресний приклад функція таблиці. Здається, тема все ще активна, тому, сподіваємось, це комусь корисно.

Приклад часу виконання деяких відповідей на даний момент на основі запущених рекурсивних запитів на основі набору або скалярної функції, на основі тестового набору 1m рядків, що видаляє символи з випадкового newid, коливається від 34s до 2m05s для прикладів циклу WHILE та від 1m3s до { forever} для прикладів функцій.

Використання функції таблиці з перехресним застосуванням досягає тієї ж мети за 10 секунд . Можливо, вам доведеться налаштувати його відповідно до ваших потреб, таких як максимальна довжина, яку він обробляє.

Функція:

CREATE FUNCTION [dbo].[RemoveChars](@InputUnit VARCHAR(40))
RETURNS TABLE
AS
RETURN
    (
        WITH Numbers_prep(Number) AS
            (
                SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1 UNION ALL SELECT 1
            )
        ,Numbers(Number) AS
            (
                SELECT TOP (ISNULL(LEN(@InputUnit),0))
                    row_number() OVER (ORDER BY (SELECT NULL))
                FROM Numbers_prep a
                    CROSS JOIN Numbers_prep b
            )
        SELECT
            OutputUnit
        FROM
            (
                SELECT
                    substring(@InputUnit,Number,1)
                FROM  Numbers
                WHERE substring(@InputUnit,Number,1) like '%[0-9]%'
                ORDER BY Number
                FOR XML PATH('')
            ) Sub(OutputUnit)
    )

Використання:

UPDATE t
SET column = o.OutputUnit
FROM ##t t
CROSS APPLY [dbo].[RemoveChars](t.column) o

4

Ось функція, яку я написав, щоб виконати це на основі попередніх відповідей.

CREATE FUNCTION dbo.RepetitiveReplace
(
    @P_String VARCHAR(MAX),
    @P_Pattern VARCHAR(MAX),
    @P_ReplaceString VARCHAR(MAX),
    @P_ReplaceLength INT = 1
)
RETURNS VARCHAR(MAX)
BEGIN
    DECLARE @Index INT;

    -- Get starting point of pattern
    SET @Index = PATINDEX(@P_Pattern, @P_String);

    while @Index > 0
    begin
        --replace matching charactger at index
        SET @P_String = STUFF(@P_String, PATINDEX(@P_Pattern, @P_String), @P_ReplaceLength, @P_ReplaceString);
        SET @Index = PATINDEX(@P_Pattern, @P_String);
    end

    RETURN @P_String;
END;

Суть

Редагувати:

Спочатку у мене тут була рекурсивна функція, яка погано працює з сервером sql, оскільки вона має обмеження рівня вкладеності 32, що призведе до помилки, як показано нижче, коли б ви намагалися зробити 32+ заміни функцією. Замість того, щоб намагатися змінити рівень сервера, щоб дозволити більше вкладеності (що може бути небезпечним, наприклад, дозволяти ніколи не закінчуються цикли), перехід на цикл while має набагато більше сенсу.

Перевищено максимально збережений рівень вкладеності процедури, функції, тригера або подання (обмеження 32).


2

Обернення рішення всередині функції SQL може бути корисним, якщо ви хочете використовувати його повторно. Я навіть роблю це на клітинному рівні, тому я ставлю це як іншу відповідь:

CREATE FUNCTION [dbo].[fnReplaceInvalidChars] (@string VARCHAR(300))
RETURNS VARCHAR(300)
BEGIN
    DECLARE @str VARCHAR(300) = @string;
    DECLARE @Pattern VARCHAR (20) = '%[^a-zA-Z0-9]%';
    DECLARE @Len INT;
    SELECT @Len = LEN(@String); 
    WHILE @Len > 0 
    BEGIN
        SET @Len = @Len - 1;
        IF (PATINDEX(@Pattern,@str) > 0)
            BEGIN
                SELECT @str = STUFF(@str, PATINDEX(@Pattern,@str),1,'');    
            END
        ELSE
        BEGIN
            BREAK;
        END
    END     
    RETURN @str
END

2

Я створив цю функцію для очищення рядка, який містив нечислові символи в часовому полі. Час містив знаки запитання, коли вони не додавали протокол, приблизно так 20: ??. Функція прокручує кожен символ і замінює символ? з 0:

 CREATE FUNCTION [dbo].[CleanTime]
(
    -- Add the parameters for the function here
    @intime nvarchar(10) 
)
RETURNS nvarchar(5)
AS
BEGIN
    -- Declare the return variable here
    DECLARE @ResultVar nvarchar(5)
    DECLARE @char char(1)
    -- Add the T-SQL statements to compute the return value here
    DECLARE @i int = 1
    WHILE @i <= LEN(@intime)
    BEGIN
    SELECT @char =  CASE WHEN substring(@intime,@i,1) like '%[0-9:]%' THEN substring(@intime,@i,1) ELSE '0' END
    SELECT @ResultVar = concat(@ResultVar,@char)   
    set @i  = @i + 1       
    END;
    -- Return the result of the function
    RETURN @ResultVar

END

2

Для тих, хто шукає ефективне та просте рішення та готовий увімкнути CLR:

create database TestSQLFunctions
go
use TestSQLFunctions
go
alter database TestSQLFunctions set trustworthy on

EXEC sp_configure 'clr enabled', 1
RECONFIGURE WITH OVERRIDE
go

CREATE ASSEMBLY [SQLFunctions]
AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE

go

CREATE FUNCTION RegexReplace(
    @input nvarchar(max),
    @pattern nvarchar(max),
    @replacement nvarchar(max)
) RETURNS nvarchar  (max)
AS EXTERNAL NAME SQLFunctions.[SQLFunctions.Regex].Replace; 

go

-- outputs This is a test 
select dbo.RegexReplace('This is a test 12345','[0-9]','')

Зміст DLL: введіть тут опис зображення


1

Якщо ви робите це лише для параметра, що входить до збереженої процедури, ви можете використовувати наступне:

declare @badIndex int
set @badIndex = PatIndex('%[^0-9]%', @Param)
while @badIndex > 0
    set @Param = Replace(@Param, Substring(@Param, @badIndex, 1), '')
    set @badIndex = PatIndex('%[^0-9]%', @Param)

0

Я думаю, що простіший і швидший підхід повторюється кожним символом алфавіту:

DECLARE @i int
SET @i = 0

WHILE(@i < 256)
BEGIN  

    IF char(@i) NOT IN ('0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '.')      

      UPDATE Table SET Column = replace(Column, char(@i), '')

    SET @i = @i + 1

END

1
Будь ласка, не використовуйте щось подібне у виробництві. Ви робите 245 оновлень без пропозиції where. Це працює, але це далеко не ефективний підхід. Кращою ідеєю може бути перебір символів, які ми хочемо видалити, замість усіх символів, доступних в алфавіті. Але навіть це можна було б покращити до чогось кращого.
Андерсон Сільва,
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.