Складність перетину звичайних мов як безконтекстних граматик

Враховуючи регулярні вирази , чи є нетривіальні межі щодо розміру найменшої без контексту граматики для ? $R_1, \dots, R_n$ $R_1 \cap \cdots \cap R_n$

fl.formal-languages regular-language context-free

— Макс
джерело

??? намагаючись візуалізувати це. чи є якась хитрість? перетин

регулярний. можна знайти мінімальний коэффициент коэффициента DFA (wrt state state) за допомогою стандартних методів, що також є CFG.

R_{n}

$R_n$

— vzn

@vzn: ти маєш рацію. Проблема в тому, що ця DFA, а отже, CFG, може бути дуже великою. Мені цікаво, чи можна використовувати додаткову потужність CFG для отримання більш короткого опису перехрестя.

— Макс

здогад ні. підозрюєте, що кожен CFL, який розпізнає (тобто еквівалентний) RL, не використовує його стек або може бути перетворений на такий, який не збільшує стани, а мінімальний такий КПК (число wrt state) має той самий розмір, що і мінімальний DFA. ніколи не чув / не бачив доказів цього. це, можливо, не важко? більш просте питання, чи є якась - або КПК , який розпізнає RL , який менше , ніж ДКА? думати ні.

— vzn

@vzn: корисна гіпотеза, але хибна: нехай

є підмножиною мов Dyck для двох типів дужок, де максимальна глибина введення -

. Існує CFG для

розміром

, але мінімальний DFA (навіть, я думаю, мінімальний NFA) має розмір

L_{k}

$L_k$

k

$k$

L_{k}

$L_k$

O (k)

$O(k)$

O (2^{k})

$O(2^k)$

— Макс

Дайкові мови - це CFL, але не RL ...? але бачте, ви обмежуєте максимальну глибину гніздування ... тож чи можете ви створити ту саму мову за допомогою перетинів RL? що / де є доказом того, що мінімальний показник DFA такий великий? є те , що

стан ? ви не визначаєте критерії мінімальності або в іншому місці і приймаєте держави як природний випадок, але часто не є єдиним.

O (2^{k})

$O(2^k)$

— vzn

Відповіді:

Це велике запитання, і воно справді лежить в моїх інтересах. Я радий, що ти запитав це Макс.

Нехай буде задано DFA з максимум станами. Було б добре, якби існував КПК із субекспоненціально багатьма станами, який приймає перетин мов DFA. Однак я вважаю, що такий КПК може не завжди існувати. $n$ $O(n)$

Розглянемо мову копіювання. Тепер обмежте його копіюванням рядків довжиною n.

Формально розглянемо -копію $n$ $:=$ . $\{ xx \, | \, x \in \{0,1\}^{n}\}$

Ми можемо представити -копію як перетин розмірів DFA не більше . Однак найменша DFA, яка приймає -копію, має станів. $n$ $n$ $O(n)$ $n$ $2^{\Omega(n)}$

Так само, якщо ми обмежимось алфавітом двійкового стека, то я підозрюю, що найменший PDA, який приймає -копію, має експоненціально багато станів. $n$

PS Не соромтеся надіслати мені електронний лист, якщо ви хочете обговорити далі. :)

— Майкл Вехар
джерело

Я не думаю, що можуть бути якісь нетривіальні нижня або верхня межа.
Для нижніх меж розглянемо мову для фіксованого . Розмір найменшої безтекстової граматики є логарифмічним у розмірі регулярного виразу , тоді як розмір найменшого автомата для $L_1 = \{ a^{2^k} \}$ $k$ $L_1$ є лінійним за розміром . Ця експоненціальна різниця залишається такою ж, якщо ми перетинаємо з іншими такими мовами. Для верхніх меж розглянемо мову яка складається саме з однієї $L_1$ $L_1$ $L_1$
$L_2$ deBruijn-Послідовність довжини . Відомо, що розмір найменшої граматики для є найгіршим випадком, тобто $n$ $L_2$ , тому різниця до "найменшого" автомата дляє просто логарифмічним фактором, пропозиція 1 в $O\left( \frac{n}{\log n} \right)$ $L_2$

D. Hucke, M. Lohrey, E. Noeth Конструювання малих деревних граматик та малих мікросхем для формул , які з'являться у FSTTCS 2014

Нетривіальна загальна нижня або верхня межа суперечить цим результатам, оскільки те, що справедливо для перетину мов, має бути правдивим для перетину мови. $n$ $1$

— john_leo
джерело

Зауваження щодо розміру найменшої граматики для одиничного deBruijn-Sequence є досить цікавим. Не могли б ви надати посилання. Дякую.

— Michael Wehar

Також я можу помилитися, але, здається, ви вирішили проблему лише для одного регулярного виразу (а не продукту регулярних виразів)?

— Майкл Вехар

@MichaelWehar Так, я розглядав лише один єдиний регулярний вираз. Тому що якщо це має бути правдою для перетину с

мов, то це, безумовно, повинно бути правдою для тривіального перетину. Я не знаю, як переформулювати питання, щоб виключити ці випадки. Я додав посилання, мав би зробити це відразу, вибачте.

n

$n$

— john_leo

Дякую! Ви змогли описати конкретний приклад. Ось просте зауваження, яке призводить до існування таких прикладів. Нехай дається n. Є 2 ^ n рядків довжиною n. Крім того, існує не більше 2 ^ n машин Тюрінга з максимум n / log (n) станами. Тому деяка строка x довжини n така, що жодна машина Тьюрінга з меншими станами n / log (n) не приймає мову {x}. Тому {x} приймається DFA з n станами і не може бути прийнятий КПК з меншою кількістю n / log (n) станів.

— Майкл Вехар

Дозвольте другий суд Михайла, це справді цікаве питання. Основна ідея Майкла може поєднуватися з результатами з літератури, забезпечуючи таким чином аналогічну нижню межу із суворим доказом.

Я буду позначати межі розміру CFG з точки зору загальної кількості алфавітних символів у регулярних виразах. Нехай це число позначається . (Як зазначав john_leo, ми не знайдемо корисних меж щодо кількості регулярних виразів, що беруть участь у перетині.) $n$ $k$

Ні ОП, ні Майкл не вважали за необхідне згадувати про це, але верхня межа (на кількість станів) для перетворення перетину регулярних виразів у NFA не може бути легко доведена. Для запису ось що: Перетворіть регулярні вирази в автомати Глушкова, які всі не повертаються. Потім застосуйте конструкцію продукту, щоб отримати NFA для перетину цих мов. (Я припускаю, що можна поліпшити обмеження до або близько того.) $2^{k+1}$ $2^k+1$ $s$ -state НКА може бути перетворений в правій лінійної граматики (яка є окремим випадком CFG) розміру $O(s^2)$ (якщо ми вимірюємо розмір граматики як загальну кількість символів на лівій і правій стороні постановки), таким чином надаючи розмір . Зв'язане це, звичайно, звучить жахливо, якщо ви маєте на увазі практичне застосування. Спроба довести кращу межу, використовуючи недетерміновану складність переходу замість недетермінованої складності стану для оцінки розміру NFA, можливо, варто докласти зусиль. $O(4^{k})$

Інша частина - пошук мови свідків, яка може бути виразно виражена як перетин регулярних виразів, але обов'язково громіздка для опису CFG. (Тут нам потрібно встановити нижню межу щодо розміру всіх CFG, що генерують мову, яких може бути нескінченно багато.) Наступний аргумент дає $2^{\Omega(\sqrt{k}/\log k)}$

$L_n = \{\,ww^Rw \in \{a,b\}^*\mid |w|=n\,\}$ $w^R$ $w$ $L_n$ $2n+1$

$r_i = (a+b)^ia(a+b)^{2(n-i-1)}a(a+b)^*+(a+b)^ib(a+b)^{2(n-i-1)}b(a+b)^*$ $1\le i \le n$
$s_i = (a+b)^*a(a+b)^{2(n-i-1)}a(a+b)^i+(a+b)^*b(a+b)^{2(n-i-1)}b(a+b)^i$ $1\le i \le n$
$\ell = (a+b)^{3n}$

$k$ $O(n^2)$

$L_n$ $2^n/(2n) = 2^{\Omega(\sqrt{k}/\log k)}$ $2$ $n$ $n^n/(2n)$

І все-таки між залишається великий проміжок $O(4^n)$

Список літератури:

В. Арвінд, Пушкар С. Джоглекар, Шрікант Шрінівасан. Арифметичні схеми та добуток Адамара поліномів , FSTTCS 2009, Vol. 4 ЛІПІК, с. 25-36
Ланге, Мартін; Лейса, Ганс (2009). " Для CNF чи не для CNF? Ефективна, але презентабельна версія алгоритму CYK ". Informatica Didactica 8.

— Герман Грубер
джерело