Знайти найменший DFA, який розділяє два слова, не використовуючи грубу силу пошуку?

З огляду на два рядки x і y, я хочу створити DFA мінімального розміру, який приймає x і відхиляє y. Один із способів зробити це - жорстокий пошук. Ви перераховуєте DFA, починаючи з найменшого. Ви спробуйте кожен DFA, поки не знайдете той, який приймає х і відхиляє y.

Я хочу знати, чи є якийсь інший відомий спосіб пошуку або побудови DFA мінімального розміру, який приймає x і відхиляє y. Іншими словами, чи можемо ми перемогти грубі сили пошуку?

Детальніше:

(1) Я дійсно хочу, щоб алгоритм знаходив DFA мінімального розміру, а не мінімального розміру DFA.

(2) Я не просто хочу знати, наскільки великий чи малий мінімальний показник DFA.

(3) Тут я зосередився лише на тому випадку, якщо у вас були два рядки x і y.

Редагувати :

Додаткова інформація для зацікавленого читача:

Припустимо, і - двійкові рядки довжиною не більше . Відомий результат, що існує DFA, який приймає і відхиляє з максимум станами. Зауважте, що існує близько DFA з двійковим алфавітом і не більше станів. Таким чином, підхід грубої сили не вимагає від нас перерахувати через більш ніж DFA. Звідси випливає, що підхід грубої сили не міг зайняти набагато більше часу. $x$ $y$ $n$ $x$ $y$ $\sqrt{n}$ $n^{\sqrt{n}}$ $\sqrt{n}$ $n^{\sqrt{n}}$ $n^{\sqrt{n}}$

Слайди, які мені здаються корисними: https://cs.uwaterloo.ca/~shallit/Talks/sep2.pdf

automata-theory dfa fsm

— Майкл Вехар
джерело

@ AndrásSalamon Чи все ще NP-завершений, якщо множини, які слід розрізняти, складаються лише з однієї рядка? Мені здається, що це має бути досить простежено.

— mhum

@mhum проблема в тому, що існує багато різних регулярних мов, які розділяють два рядки - DFA мінімізація знайде найкращий автомат для будь-якої з цих мов, але не зробить нічого, щоб порівняти його з автоматами для інших роздільних мов.

— Девід Еппштейн

Якщо

різні довжини, при цьому більша довжина

, легко швидко знайти DFA з

станами, що розділяє їх: просто використовуйте цикл довжини

, де

не ділиться

. Знайдіть

, спробувавши

для того, щоб знайти відповідний

. Якщо

однакової довжини, то

x

$x$

y

$y$

n

$n$

O (\log n)

$O(\log n)$

p

$p$

p

$p$

| x | - | y |

$|x|-|y|$

p

$p$

2, 3, 5, \dots

$2, 3, 5,\ldots$

p

$p$

x

$x$

y

$y$

конструкція Робсона в папері 1996 р. дає просту машину, яку можна знайти за допомогою пошуку розміру

. Жодна конструкція не гарантується як найменша DFA.

O (\sqrt{n})

$O(\sqrt{n})$

O (n)

$O(n)$

— Джеффрі Шалліт

Зауваження Шалліта, пов'язані вище, містять корисне спостереження, що найгірший випадок проблеми розділення є, коли алфавіт є двійковим: завжди можна розділити більші алфавіти на два підмножини, які все ще розрізняють два вхідні слова та шукати двійковий автомат, який обробляє літери в одному підмножині як 0, а інші в підмножині - 1. Але для пошуку мінімального відокремлюваного автомата це, мабуть, не допоможе, оскільки ви можете використовувати додаткову інформацію з оригінального алфавіту, щоб зробити краще, ніж ви могли зі зіставленням бінарного алфавіту.

— Девід Еппштейн

особливий випадок цього іншого нещодавнього питання, коли розміри вкладених та заданих рівних 1. мінімальні кінцеві автомати, задані словами та словами . у цій відповіді перераховано деяку навчальну літературу, включаючи деяку евристику.

— vzn

Якби мені довелося це робити на практиці, я б застосував SAT solver.

Питання про те, чи існує DFA з станами, що приймає і відхиляє може бути легко виражено як екземпляр SAT. Наприклад, одним із способів є наявність булевих змінних: істинно, якщо DFA переходить зі стану у стан на вхідному біті . Потім додайте деякі пропозиції, щоб переконатись, що це DFA, а також деякі змінні та пропозиції, щоб підтвердити, що він приймає та відхиляє . $k$ $x$ $y$ $2k^2$ $z_{s,b,t}$ $s$ $t$ $b$ $x$ $y$

Тепер використовуйте двійковий пошук на щоб знайти найменший такий, що існує DFA такого роду. Виходячи з того, що я читав у працях про пов'язану проблему, я би сподівався, що це може бути досить ефективно на практиці. $k$ $k$

Можливі й інші кодування цього типу SAT. Наприклад, ми можемо використовувати кодування слідів:

Якщо має довжину , ви можете додати булеві змінні: нехай - послідовність станів, що проходять на вході , і представляти кожну використовуючи булеві змінні. $x$ $m$ $m\lg k$ $s_0,s_1,\dots,s_m$ $x$ $s_i$ $\lceil \lg k \rceil$
Тепер для кожного такого, що , у вас є обмеження, що $i,j$ $x_i=x_j$ . $s_{i-1}=s_{j-1} \implies s_i=s_j$
Далі розгорніть це на обробку : нехай - послідовність станів, що проходять на вході , і представляють кожну використовуючи булеві змінні. Для кожного такого, що , додамо обмеження, що $y$ $t_0,\dots,t_n$ $y$ $t_j$ $\lg k$ $i,j$ $y_i=y_j$ . $t_{i-1}=t_{j-1} \implies t_i=t_j$
Аналогічно, для кожного такого, що , додаємо обмеження, що $i,j$ $x_i=y_j$ . $s_{i-1}=t_{j-1} \implies s_i=t_j$
Обидві сліди повинні починатися з однієї і тієї ж початкової точки, тому додайте вимогу, що (WLOG можна вимагати ). $s_0=t_0$ $s_0=t_0=0$
$k$ $0 \le s_i < k$ $0 \le t_j <k$ $i,j$
$x$ $y$ $s_m \ne t_n$

Усі ці вимоги можуть бути кодовані як пункти SAT.

$k$ $k$

— DW
джерело

зауважте, що насправді це буде перевершити пошук грубої сили, якщо в проблемі є певні симетрії, і вони розпізнаються вирішувачем, але наразі їх важко визначити / виділити (як для людини, так і для машини). є також новіші / пов'язані «технології» теорій модуля задоволення та програмування набору відповідей, деякі з яких мають «вбудовані» предикати графіка або можуть підтримувати їх визначення.

— vzn