Як показати, що L = L (G)?

Вказання формальних мов, даючи формальні граматики, є частим завданням: нам потрібні граматики не лише для опису мов, а й для їх розбору, або навіть належної науки . У всіх випадках важливо, щоб граматика під рукою була правильною , тобто генерувала саме потрібні слова.

Ми часто можемо сперечатися на високому рівні, чому граматика є адекватним поданням бажаної мови, опускаючи формальне підтвердження. Але що робити, якщо ми сумніваємось чи потрібні офіційні докази з якоїсь причини? Які методи ми можемо застосувати?

^{Це має стати еталонним питанням . Тому, будь ласка, потурбуйтеся дати загальні, дидактично представлені відповіді, які проілюстровані хоча б одним прикладом, але, тим не менш, охоплюють багато ситуацій. Спасибі!}

— Рафаель
джерело

Граматики за своєю суттю є рекурсивними предметами, тому відповідь здається очевидною: шляхом індукції. Однак, специфіка часто складна для отримання правильних питань. У подальшому я опишу техніку, яка дозволяє звести багато доказів правильності граматики до механічних кроків за умови певної творчої попередньої обробки. $\newcommand{\lang}[1]{\mathcal{L}(#1)} \newcommand{\sent}[1]{\vartheta(#1)} \newcommand{\derive}{\mathbin{\Rightarrow}} \newcommand{\derivestar}{\mathbin{\Rightarrow^*}} \newcommand{\nats}{\mathbb{N}}$

Основна ідея - не обмежувати себе словами граматики та мови; важко зрозуміти структуру граматики таким чином. Натомість ми будемо сперечатися про набір речень, які може створити граматика. Крім того, ми розділимо одну грізну доказову мету на безліч дрібних цілей, які можна простежити.

Нехай , формальна граматика з нетерміналів , клеми , правила і починається символ . Позначимо через набір речень, які можуть бути похідні від заданого , тобто . Мова, породжена , . Припустимо, ми хочемо показати, що для деякого . $G=(N,T,\delta,S)$ $N$ $T$ $\delta$ $S \in N$ $\sent{G}$ $S$ $\delta$ $\alpha \in \sent{G} \iff S \derivestar \alpha$ $G$ $\lang{G} = \sent{G} \cap T^*$ $L = \lang{G}$ $L \subseteq T^*$

Ансац

Ось як ми йдемо з цього приводу. Визначимо так що $M_1, \dots, M_k \subseteq (N \cup T)^*$

$\displaystyle \sent{G} = \bigcup_{i=1}^k M_i$ і
$\displaystyle T^* \cap \bigcup_{i=1}^k M_i = L$ .

Хоча 2., як правило, зрозуміло за визначенням , 1. вимагає серйозної роботи. Два елементи разом чітко означають за бажанням. $M_i$ $\lang{G} = L$

Для зручності позначення позначимо . $M = \bigcup_{i=1}^k M_i$

Скеляста дорога

Для виконання такого доказу є два основних кроки.

Як знайти (хороший) ? $M_i$
Одна з стратегій полягає у дослідженні фаз, через які працює граматика. Не кожна граматика піддається цій ідеї; загалом це творчий крок. Це допомагає, якщо ми можемо самі визначити граматику; маючи певний досвід, ми зможемо визначити граматики, більш простежувані при такому підході.
Як довести 1.?
Як і у будь-якої встановленої рівності, є два напрямки.
- $\sent{G} \subseteq M$ : (структурна) індукція над виробництвами . $G$
- $M \subseteq \sent{G}$ : Зазвичай один індукцію , починаючи з того, який містить . $M_i$ $S$

Це настільки ж специфічно, як і виходить; деталі залежать від граматики та мови.

Приклад

Розглянемо мову

$\qquad \displaystyle L = \{ a^n b^n c^m \mid n,m \in \nats \}$

і граматика з заданими $G = (\{S,A\}, \{a,b,c\}, \delta, S)$ $\delta$

$\qquad \begin{align} S &\to Sc \mid A \\ A &\to aAb \mid \varepsilon \end{align}$

для якого ми хочемо показати, що . Через які етапи працює ця граматика? Ну, спочатку він генерує а потім . Це негайно інформує наш вибір , а саме $L = \lang{G}$ $c^m$ $a^n b^n$ $M_i$

$\qquad \begin{align} M_0 &= \{Sc^m \mid m \in \nats \} \;, \\ M_1 &= \{ a^n A b^n c^m \mid m,n \in \nats \} \;, \\ M_2 &= \{ a^n b^n c^m \mid m,n \in \nats \} \;. \\ \end{align}$

Оскільки і , пункт 2. вже подбаний. Назустріч 1. ми розділили доказ на дві частини, як було оголошено. $M_2 = L$ $M_0 \cap T^* = M_1 \cap T^* = \emptyset$

$\mathbf{\sent{G} \subseteq M}$

Проводить структурну індукцію уздовж правил . $G$

IA: Оскільки ми успішно закріплюємося. $S = Sc^0 \in M_0$

IH: Нехай для деякого безлічі пропозицій , що ми знаємо . $X \subseteq \sent{G}$ $X \subseteq M$

IS: Нехай довільним. Ми повинні показати , що незалежно від форми має і те , що правило застосовується наступний, ми не залишаємо . Ми робимо це шляхом повного розрізнення випадків. За допомогою індукційної гіпотези ми знаємо, що (саме) застосовується один із таких випадків: $\alpha \in X \subseteq \sent{G} \cap M$ $\alpha$ $M$

w = S c m m ∈ N M , тобто для деяких . Можна застосувати два правила, обидва з яких виводять речення в :
- $Sc^m \derive Sc^{m+1} \in M_0$ і
- $Sc^m \derive Ac^m = a^0Ab^0c^m \in M_1$ .
w = a n A b n c m m , n ∈ N , тобто для деяких :
- $w \derive a^{n+1}Ab^{n+1}c^m \in M_1$ і
- $w \derive a^nb^nc^m \in M_2$ .
$w \in M_3$ : оскільки , подальший похід неможливий. $w \in T^*$

Оскільки ми успішно охопили всі випадки, індукція завершена.

$\mathbf{\sent{G} \supseteq M}$

Виконуємо один (простий) доказ на . Зверніть увагу, як ми ланцюжок доказів так "пізніше" може закріпити за допомогою "раніше" . $M_i$ $M_i$ $M_i$

$M_1$ : Виконуємо індукцію над , закріплюючи в і використовуючи на кроці. $m$ $Sc^0 = S$ $S \to Sc$
$M_2$ : фіксуємо довільним значенням та індукуємо над . Ми закріплюємо в , використовуючи цей за попереднім доказом. Крок прогресує через . $m$ $n$ $Ac^m$ $S \derivestar Sc^m \derive Ac^m$ $A \to aAb$
$M_3$ : Для довільних ми використовуємо колишній доказ для . $m,n \in \nats$ $S \derivestar a^nAb^nc^m \derive a^nb^nc^m$

Це завершує другий напрямок доказування 1., і ми закінчили.

Ми можемо бачити, що ми сильно використовуємо, що граматика лінійна . Для нелінійних граматик нам потрібні з більш ніж одним змінним параметром (у доказі), який може стати некрасивим. Якщо ми маємо контроль над граматикою, це вчить нас робити це просто. Розглянемо як стримуючий приклад цю граматику, еквівалентну : $M_i$ $G$

$\qquad \begin{align} S &\to aAbC \mid \varepsilon \\ A &\to aAb \mid \varepsilon \\ C &\to cC \mid \varepsilon \end{align}$

Вправа

Дайте граматику для

$\qquad L = \{ b^k a^l (bc)^m a^n b^o \mid k,l,m,n,o \in \nats, k \neq o, 2l = n, m \geq 2 \}$

і довести її правильність.

Якщо у вас є проблеми, граматика:

Розглянемо з виробництвами $G = (\{S,B_r,B_l,A,C\}, \{a,b,c\}, \delta, S)$

$\quad \begin{align} S &\to bSb \mid B_l \mid B_r \\ B_l &\to bB_l \mid bA \\ B_r &\to B_r b \mid Ab \\ A &\to aAaa \mid C \\ C &\to bcC \mid bcbc \end{align}$

і : $M_i$

$\quad\begin{align} M_0 &= \{ b^i S b^i \mid i \in \nats \} \\ M_1 &= \{ b^i B_l b^o \mid o \in \nats, i \geq o \} \\ M_2 &= \{ b^k B_r b^i \mid k \in \nats, i \geq k \} \\ M_3 &= \{ b^k a^i A a^{2i} b^o \mid k,o,i \in \nats, k \neq o \} \\ M_4 &= \{ b^k a^l (bc)^i C a^{2l} b^o \mid k,o,l,i \in \nats, k \neq o \} \\ M_5 &= L \end{align}$

Що з нелінійними граматиками?

Характерною особливістю класу безконтекстних мов є мова Dyck : по суті, кожна безконтекстна мова може бути виражена як перетин мови Dyck та звичайної мови. На жаль, мова Дайка не є лінійною, тобто ми не можемо дати жодної граматики, яка по суті відповідає такому підходу.

Ми, звичайно, можемо все-таки визначити і зробити доказ, але це, мабуть, буде більш важким із вкладеними індукціями та чим ні. Я знаю один загальний спосіб, який мені може допомогти певною мірою. Ми змінюємо ансац, показуючи, що ми створюємо принаймні всі необхідні слова, і що ми створюємо потрібну кількість слів (на довжину). Формально ми це показуємо $M_i$

$\displaystyle \sent{G} \supseteq L$ і
$\displaystyle |\lang{G} \cap T^n| = |L \cap T^n|$ для всіх . $n \in \nats$

Таким чином, ми можемо обмежитися "легким" напрямком від початкового ансацу та експлуатаційної структури в мові, ігноруючи надскладні функції, які може мати граматика. Звичайно, немає безкоштовного обіду: ми отримуємо все нове завдання підрахунку слів, які генерує для кожного . На щастя, це часто простежується; см тут і тут для details¹. Ви можете знайти приклади моєї дипломної роботи . $G$ $n \in \nats$

Для неоднозначних і безконтекстних граматик, я боюся, ми повернулися до ансацу та думок.

Використовуючи саме цей метод підрахунку, ми отримуємо як бонус, що граматика однозначна. У свою чергу, це також означає, що методика повинна мати збій для неоднозначних граматик, як ми ніколи не можемо довести 2.

— Рафаель
джерело