Чи можна використовувати дерева Suffix для пошуку всіх загальних рядків?

10

Я намагаюся використовувати дерева суфіксів для порівняння послідовностей рядків. Я знайшов реалізацію / теорію для найдовшої поширеної проблеми підрядків із використанням суфіксних дерев. Однак те, що я шукаю, - це обговорення пов’язаної проблеми - "всі загальні підрядки". Зокрема, у мене є проблема, в якій мені потрібно спершу знайти найдовшу загальну підрядку, потім знайти наступну найдовшу загальну підрядку, яка не включає вже знайдені індекси lcs, і так далі до мінімальної довжини. Чи вирішується ця проблема, побудувавши узагальнене дерево суфіксів (GST) лише один раз для двох послідовностей. Я знаю, що це можна вирішити, повторно будуючи GST після кожної ітерації пошуку та видалення LCS. Але мені цікаво, чи пропускаю я акуратний трюк, де в GST будується лише один раз.

ds.algorithms string-matching

— чет
джерело

Це цікаве питання. Проблема полягає в тому, що якщо у нас

і ми виявили, що

є WS LCS

, ми не можемо легко "видалити"

з дерева суфіксів (або суфіксного масиву, як би там не було). Ми хотіли б мати щось на зразок

після першого кроку, правда?

S = α β γ

$S=\alpha\beta\gamma$

β

$\beta$

T

$T$

β

$\beta$

S^{'} = α $ γ

$S' = \alpha\$\gamma$

— Дмитро Кордубан

3

Так, дерева суфіксів можна використовувати для пошуку всіх загальних підрядів. Я б сказав, що замість цього використовується суфіксний масив, але якщо у вас вже є дерево суфіксів, побудова масиву суфіксів із дерева суфіксів займає лінійний час DFS. Тож решта моєї відповіді припустить, що ми працюємо із суфіксним масивом.

Дан текстовий , суфіксний масив для - це масив цілих чисел діапазону від до зазначенням лексикографічного впорядкування суфіксів рядка $S = s_1 , ..., s_n$ $S$ $0$ $n$ $n+1$ $S$

Ми хочемо поєднати суфіксний масив з , найдовшими загальними префіксами. Ми можемо побудувати масив у лінійному часі, як згадується у статті Kasai et al . Масиви суфіксів та їх масиви lcp поєднуються разом таким чином, що заданий індекс у масиві lcp скаже де - номер індексу, тоді буде початком одного екземпляра загального підряд і $LCPs$ $LCPs$ $lcp[k]$ $k$ $sa[k]$ $sa[k-1]$ буде початковим індексом другої інстанції. Звичайно, довжина - це значення в масиві lcp.

— mcorley
джерело

3

У мене є ідея, яка може спрацювати. Почну з узагальненим деревом суфіксів для послідовностей і . Кожен внутрішній вузол із суфіксами і у своєму піддереві відповідає деякій загальній підрядковій послідовності. Назвемо такі вузли нетривіальними. Загальна підрядок є максимальною, якщо у відповідному вузлі немає нетривіальних дітей. Якщо вузол нетривіальний, ми зберігаємо найбільшу глибину рядка нетривіального вузла в його піддереві як . Якщо - корінь, то $S$ $T$ $S$ $T$ $v$ $lcs(v)$ $r$ $lcs(r)$ довжина найдовшої загальної підрядка і . $S$ $T$

$v$ $k$ $k$ $k < lcs(v)$ $k \ge lcs(v)$ , ми робимо, як нас не цікавлять підтрубки з тривіальними коренями.

$S$ $T$

Є деякі технічні характеристики, але загальна ідея повинна спрацювати.

— Джоні Сірен
джерело

0

Почніть з каскадним текстом S $ T , де $ не відбувається ніде в * або Т . Побудуйте з цього тексту суфіксне дерево / масив. Зараз легко пройти цю суфіксну структуру даних, щоб зібрати всі правильні максимальні повтори. Вивчаючи лівий контекст, відфільтруйте неліві максимальні повтори. Ця ліва фільтрація може бути реалізована за допомогою таблиці Burrow-Wheeler, як у Abouelhoda та ін., Хоча я не вважаю, що це необхідно. Повторення, що виникають тільки в S або тільки в Tякщо це також має бути усунене. Повтори, які не були ліквідовані, потім ставляться в чергу пріоритетів, пріоритет визначається довжиною. Після обходу, коли записані повтори будуть видалені з пріоритету, може бути проведена остаточна фільтрація (для стримування підрядків). Однак, маючи на увазі використання максимальних фраз, я підозрюю, що дуже мало цього фільтрування буде необхідним.

Цей алгоритм - це власний винахід. Я б не вважав це дуже розумним, але це повинно працювати.

— Дейл Гердеман
джерело

0

$S$ $s$ $T$ $t$ $s$ $t$ $S$ $T$

— Magnus Lie Hetland
джерело