Факторизація слів за

12

Враховуючи два рядки , ми пишемо для їх конкатенації. Давши рядок і ціле число , запишемо для конкатенації $S_1, S_2$ $S_1S_2$ $S$ $k\geq 1$ $(S)^k = SS\cdots S$ $k$ копій $S$ . Тепер, задавши рядок, ми можемо використовувати це позначення для його «стиснення», тобто $AABAAB$ може бути записано як $((A)^2 B)^2$ . Назвемо вагукомпресіїчисло символів, що з’являються в ній, тому вага $((A)^2 B^2)$ складаєтьсядвох, а вага $(AB)^2 A$ (встисненніз $ABABA$ ) три (окремі $A$ з підраховуються окремо).

Тепер розглянемо проблему обчислення "найлегшого" стиснення заданого рядка $S$ з $|S|=n$ . Після роздумів існує очевидний динамічний підхід програмування, який працює в $O(n^3 \log n)$ або $O(n^3)$ залежно від точного підходу.

Однак мені сказали, що цю проблему можна вирішити за $O(n^2 \log n)$ час, хоча я не можу знайти джерел, як це зробити. Зокрема, ця проблема була задана в недавньому конкурсі програмування (проблема K тут , останні дві сторінки). Під час аналізу був представлений алгоритм $O(n^3 \log n)$ , а в кінці згадували псевдо квадратичну межу ( тут на позначці чотирьох хвилин). На жаль, ведучий згадував лише «складну лемму про комбінаторику слова», тому зараз я прийшов сюди, щоб попросити рішення :-)

dynamic-programming word-combinatorics

— Тімон Найге
джерело

Просто випадкова властивість: Якщо для рядка

маємо

, то також повинно бути, що

[я тут виправив помилку], причому

має довжину

(яка не може бути довшою ні

ні

S

$S$

S = X^{a} = Y^{b}

$S=X^a=Y^b$

S = Z^{| S | / gcd (| X |, | Y |)}

$S=Z^{|S|/\gcd(|X|, |Y|)}$

Z

$Z$

gcd (| X |, | Y |)

$\gcd(|X|, |Y|)$

X

$X$

Y

$Y$ ). Не впевнений, наскільки це корисно. Якщо ви вже виявили, що

і знаєте, що

містить щонайменше 2 різних символи, і тепер шукаєте коротший

такий, що

, то вам потрібно лише спробувати префікси

з

довжиною, яка ділиться

.

S = X^{a}

$S=X^a$

S

$S$

Y

$Y$

S = Y^{b}

$S=Y^b$

Y

$Y$

X

$X$

| X |

$|X|$

— j_random_hacker

Проблема полягає в тому, що навіть після зменшення всіх можливих

, вам все одно потрібно зібрати відповідь кубічним DP по підсегментам (тобто

), тож після цього ще потрібно виконати додаткову роботу ...

X^{a}

$X^a$

D P [l, r] = min_{k} D P [l, k] + D P [k + 1, r]

$DP[l, r] = \min_k DP[l, k] + DP[k+1, r]$

— Timon Knigge

Я бачу, що ти маєш на увазі. Я думаю, вам потрібне якесь відношення домінування, яке позбавляє деяких значень

не потребувати тестування - але я не міг придумати його. Зокрема, я розглядав наступне: Припустимо,

має оптимальну факторизацію

при

; чи можливо, що існує оптимальне рішення, в якому

розбивається на

з

? На жаль, відповідь - так

k

$k$

S [1.. i]

$S[1..i]$

S [1.. i] = X Y^{k}

$S[1..i] = XY^k$

k > 1

$k>1$

S

$S$

X Y^{j} Z

$XY^jZ$

j < k

$j<k$

,

має оптимальну факторизацію

, але єдиною оптимальною факторизацією для

є

.

S = A B A B C A B C

$S=ABABCABC$

S [1..4]

$S[1..4]$

(A B)^{2}

$(AB)^2$

S

$S$

A B (A B C)^{2}

$AB(ABC)^2$

— j_random_hacker

1

Якщо я вас не розумію, я думаю, що мінімальна вартість витрат може бути обчислена за $O(n^2)$ час таким чином.

Для кожного індексу i обчислимо купу значень $(p_i^\ell, r_i^\ell)$ для $\ell=1,2,\ldots$ наступним чином. Нехай $p_i^1\ge 1$ - найменше ціле число, таке, що існує ціле число $r\ge 2$ задовольняє

S [i - r p_{i}^{1} + 1, i - p_{i}^{1}] = S [i - (r - 1) p_{i}^{1} + 1, i] .

$S[i-rp_i^1+1, i-p_i^1] = S[i-(r-1)p_i^1+1, i].$ Для цього конкретного

p_{i}^{1}

$p_i^1$ , нехай

r_{i}^{1}

$r_i^1$ є найбільшим

r

$r$ з цією властивістю. Якщо такого

p_{i}

$p_i$ немає, встановіть

L_{i} = 0

$L_i=0$ щоб ми знали, щодля цього індексує нульові

(p_{i}^{ℓ}, r_{i}^{ℓ})

$(p_i^\ell,r_i^\ell)$ значення.

Нехай $p_i^2$ - найменше ціле число, строго більше, ніж $(r_i^1-1)p_i^1$ задовольняє також

S [i - r_{i}^{2} p_{i}^{2} + 1, i - p_{i}^{2}] = S [i - (r_{i}^{2} - 1) p_{i}^{2} + 1, i]

$S[i-r_i^2p_i^2+1, i-p_i^2] = S[i-(r_i^2-1)p_i^2+1, i]$ для деяких

r_{i}^{2} \geq 2

$r_i^2\ge 2$ . Як і раніше, приймайте

r_{i}^{2}

$r_i^2$ як максимальний з фіксованим

p_{i}^{2}

$p_i^2$ . Загалом

p_{i}^{ℓ}

$p_i^\ell$ - найменша така кількість, строго більша, ніж

(r_{i}^{ℓ - 1} - 1) p_{i}^{ℓ - 1}

$(r_i^{\ell-1}-1)p_i^{\ell-1}$ . Якщо такого

p_{i}^{ℓ}

$p_i^\ell$ існує, то

L_{i} = ℓ - 1

$L_i=\ell-1$ .

Зауважимо, що для кожного індексу i маємо $L_i=O(\log (i+1))$ за рахунок значень $p_i^\ell$ геометрично збільшуються з $\ell$ . (якщо $p_i^{\ell+1}$ існує, це не просто суворо більше, ніж $(r_i^\ell-1)p_i^\ell$ але більше, ніж принаймні $p_i^\ell/2$ Це встановлює геометричне збільшення.)

Припустимо, тепер всі $(p_i^\ell,r_i^\ell)$ значення задані нам. Мінімальна вартість задається повторенням
$d p (i, j) = min {d p (i, j - 1) + 1, min_{ℓ} (d p (i, j - r_{j}^{ℓ} p_{j}^{ℓ}) + d p (j - r_{j}^{ℓ} p_{j}^{ℓ} + 1, j - p_{j}^{ℓ}))}$ $\mathrm{dp}(i,j) = \min\left\{\mathrm{dp}(i, j-1) + 1, \min_\ell \left(\mathrm{dp}\left(i,j - r_j^\ell p_j^\ell\right) + \mathrm{dp}(j-r_j^\ell p_j^\ell+1,j-p_j^\ell)\right)\right\}$ з розумінням того, що для $i>j$ встановимо $\mathrm{dp}(i,j) = +\infty$ . Таблицю можна заповнити за $O(n^2 + n\sum_j L_j)$ .

Ми вже відзначали вище , що $\sum_j L_j = O(\sum_j \log (j+1)) = \Theta(n\log n)$ з допомогою обмежує термін суми на термін. Але насправді, якщо ми подивимось на всю суму, ми можемо довести щось гостріше.

Розглянемо дерево суфікса $T(\overleftarrow{S})$ звороту $S$ (тобто дерево префікса S). Ми стягуватимемо кожен внесок на суму $\sum_i L_i$ до краю $T(\overleftarrow{S})$ так що кожне ребро буде нараховано не більше одного разу. Заряджайте кожну $p_i^j$ до краю, що виходить від $\mathrm{nca}(v(i), v(i-p_i^j))$ і рухаючись у напрямку $v(i-p_i^j)$ . Тут $v(i)$ - лист дерева префікса, що відповідає $S[1..i]$ а nca позначає найближчого спільного предка.

Це показує, що $O(\sum_i L_i)=O(n)$ . Значення $(p_i^j,r_i^j)$ можна обчислити за часом $O(n+\sum_i L_i)$ шляхом проходження дерева суфіксів, але я залишу деталі для подальшого редагування, якщо когось цікавить.

Дайте мені знати, чи це має сенс.

— Мерт Саглам
джерело

-1

Існує ваш початковий рядок S довжиною n. Ось псевдокод методу.

next_end_bracket = n
for i in [0:n]: # main loop

    break if i >= length(S) # due to compression
    w = (next_end_bracket - i)# width to analyse

    for j in [w/2:0:-1]: # period loop, look for largest period first
        for r in [1:n]: # number of repetition loop
            if i+j*(r+1) > w:
                break r loop

            for k in [0:j-i]:
                # compare term to term and break at first difference
                if S[i+k] != S[i+r*j+k]:
                    break r loop

        if r > 1:
            # compress
            replace S[i:i+j*(r+1)] with ( S[i:i+j] )^r
            # don't forget to record end bracket...
            # and reduce w for the i-run, carrying on the j-loop for eventual smaller periods. 
            w = j-i

Я навмисно дав невеликі подробиці про "кінцеві дужки", оскільки для цього потрібно багато кроків для складання та атаки, що дозволило б чітко визначити основний метод. Ідея полягає у випробуванні можливого подальшого скорочення всередині першого. для прикладу ABCBCABCBC => (ABCBC) ² => (A (BC) ²) ².

Тому головне - спочатку шукати великі періоди. Зауважте, що S [i] - i-й член S, який пропускає будь-які "(", ")" або потужність.

i-петля - O (n)
j-петля - O (n)
r + k-петлі - це O (log (n)), оскільки він зупиняється на першій різниці

Це глобально O (n²log (n)).

— Оптідад
джерело

Мені не зрозуміло, що петлі r і k є O (log n) - навіть окремо. Що гарантує виявлення різниці після максимум O (log n) ітерацій?

— j_random_hacker

Я правильно розумію, що ви жадібно стискаєте? Оскільки це невірно, розглянемо, наприклад, ABABCCCABCCC, який слід розподілити як AB (ABC ^ 3) ^ 2.

— Тімон Найге

Так, ви з цим абсолютно праві, я думаю про це.

— Оптідад