Які можливі набори довжин слів у звичайній мові?

Давши мову $L$ , визначте набір довжини $L$ як набір довжин слів у $L$ :

L S (L) = {| u | ∣ u \in L}

$\mathrm{LS}(L) = \{|u| \mid u \in L \}$

Які набори цілих чисел можуть бути набором довжин звичайної мови?

— Жил "ТАК - перестань бути злим"
джерело

Відповіді:

По-перше, спостереження, яке не є вирішальним, але зручним: набір $\mathscr{S}$ множин цілих чисел, які є $LS(L)$ для деякої регулярної мови $L$ на не порожньому алфавіті $\mathscr{A}$ , не залежить від вибору алфавіту. Щоб побачити це, розглянемо скінченний автомат, який розпізнає $L$ ; довжини слів, що знаходяться в $L$ - це довжини шляхів на автоматі, розглядаються як маркований графік від стартового стану до будь-якого прийнятого стану. Зокрема, ви можете відновити кожну стрілку до $a$ і отримати звичайну мову з однаковою довжиною, встановленою за алфавітом $\{a\}$ . І навпаки, якщо $L$ - це звичайна мова над одноелементним алфавітом, її можна тривіально вводити в більший алфавіт, а результат - звичайна мова.

Тому ми шукаємо можливі набори довжини для слів над однотонним алфавітом. На однотонному алфавіті мова - це довжина, задана одинаково: $\mathrm{LS}(L) = \{n\in\mathbb{N} \mid a^n \in L\}$ . Такі мови називаються одинарними.

Нехай $L$ регулярний мову, і розглянемо детермінований кінцевий автомат (ДКА) , який розпізнає $L$ . Набір довжин слів $L$ - це набір довжин шляхів у DFA, що розглядається як спрямований графік, який починається у стартовому стані та закінчується в одному із станів прийняття. DFA на одноелементному алфавіті досить приборканий (NFA будуть дикішими): це або кінцевий список, або круговий список. Якщо список є кінцевим, нумеруйте штати від $0$ до $h$ слідуючи порядку списку; якщо він круговий, пронумеруйте штати від $0$ до $h$ слідуючи за заголовком списку, і $h$ до $h+r$ вздовж циклу.

списоподібні автомати

Нехай $F$ - сукупність показників станів прийняття до $h$ , а $G$ - множина індексів станів прийняття від $h$ до $h+r$ . Потім

L S (L) = F \cup {k r + x ∣ x \in G, k \in N}

$\mathrm{LS}(L) = F \cup \{ k \, r + x \mid x \in G, k\in\mathbb{N} \}$

І навпаки, нехай $h$ і $r$ - два цілі числа, а $F$ і $G$ - два кінцевих множини цілих чисел, таких що $\forall x \in F, x \le h$ і $\forall x \in G, h \le x \le h+r$ . Тоді множина $L_{F,G,r} = \{ a^{k\,r+x} \mid x\in G, k\in\mathbb{N} \}$ є звичайною мовою: це мова, визнана DFA, описаною вище. Регулярний вираз, що описує цю мову є . $a^F \mid a^{G} (a^r)^*$

Підсумовуючи англійською мовою, набори довжин звичайних мов - це набори цілих чисел, які періодично¹ вище певного значення .

¹ _{Щоб повісити на усталене поняття , періодично означає характерну функцію множини (яка є функцією $\mathbb{N}\to\{\mathtt{false},\mathtt{true}\}$ яку ми піднімаємо до функції $\mathbb{Z}\to\{\mathtt{false},\mathtt{true}\}$ ) періодичний. Періодичне вище певного значення означає, що функція обмежена $[h,+\infty[$ може бути продовжено в періодичну функцію.}

— Жил "ТАК - перестань бути злим"
джерело

Ваше спостереження щодо невідповідності алфавіту говорить про те, що теорему Париха можна застосувати. Зокрема, ви показуєте, що LS (L) = LS (L '), де в L' всі букви зібрані на один алфавіт. Але LS (L ') - паричне відображення мови L, яка, як відомо, є напівлінійною для будь-якої звичайної мови.

— Суреш

Гарний підхід! 1) Я думаю, що перший абзац можна замінити зазначенням того, що звичайні мови закриті проти рядкових гомоморфізмів. 2) Для наочності слід розглянути надання другої частини

як

, по модулю помилок один за одним. 3) Що таке "періодичний" набір цілих чисел?

L S (L)

$\mathrm{LS(L)}$

{h + k r + (x - h) ∣ \dots}

$\{h + kr + (x - h) \mid \dots \}$

— Рафаель

@ Суреш, Рафаель (1): Я вважаю за краще викладати докази елементарно, ні гомоморфізми, ні картографії Париха не згадувалися в моєму класі CS 102.

— Жил "ТАК - перестань бути злим"

@Raphael (2) Якщо ви починаєте з індексації

не має значення, я можу зняти умову

, оскільки

може поглинати стільки дрібних елементів, скільки ми хочемо. (3) Набір, який періодично перевищує певне значення, є тим, який можна поставити у відображену форму вище.

G

$G$

h \leq G

$h \le G$

F

$F$

— Жил "ТАК - перестань бути злим"

Будь-яке кінцеве підмножина може бути довгою множиною звичайної мови , оскільки ви можете взяти одинарний алфавіт і визначити як (сюди входить порожня мова та ). $\{\ell_1,\ldots,\ell_n\}\subset\mathbb{N}$ $L$ $\{0\}$ $L$ $\{0^{\ell_1},\ldots,0^{\ell_n}\}$ $\{\varepsilon\}$

Тепер про нескінченні множини. Я дам короткий аналіз, хоча остаточна відповідь може бути недостатньо явною. Я не буду деталізувати, якщо ви не попросите мене, тому що я думаю, що це інтуїтивно і тому, що зараз у мене мало часу.

Нехай - регулярні вирази, що породжують мови і відповідно. Це (свого роду) легко це побачити $r_1,r_2$ $L_1$ $L_2$

. $\mathsf{LS}(L(r_1+r_2))=\mathsf{LS}(L_1\cup L_2)=\mathsf{LS}(L_1)\cup\mathsf{LS}(L_2)$
. Це позначається $\mathsf{LS}(L(r_1r_2))=\mathsf{LS}(L_1L_2)=\{\ell_1+\ell_2:\ell_1\in\mathsf{LS}(L_1),\ell_2\in\mathsf{LS}(L_2)\}$ . $\mathsf{LS}(L_1)+\mathsf{LS}(L_2)$
$L S (L (r_{1}^{*})) = {0} \cup ⋃_{n \geq 1} {\sum_{i = 1}^{n} ℓ_{i} : (ℓ_{1}, \dots, ℓ_{n}) \in (L S (L_{1}))^{n}} .$ $\mathsf{LS}(L(r_1^*))=\{0\}\cup\bigcup_{n\geq 1}\Big\{\sum_{i=1}^n\ell_i:(\ell_1,\ldots,\ell_n)\in\big(\mathsf{LS}(L_1)\big)^n\Big\}.$

Таким чином, можливими наборами цілих чисел, які можуть бути набором довжин у звичайній мові, є ті, які є кінцевими підмножинами або які можуть бути побудовані, беручи кінцеві підмножини з і використовуючи попередні формули скінченними кількість разів. $\mathbb{N}$ $S_1,S_2$ $\mathbb{N}$

Тут ми використовуємо, що регулярні мови будуються за визначенням, застосовуючи правила побудови регулярного виразу в кінцевій кількості разів. Зауважимо, що ми можемо починати з будь-якого кінцевого підмножини , навіть якщо в регулярних виразах ми починаємо зі слів довжиною 0 і 1 лише як базовий регістр. Це легко виправдати тим, що всі (кінцеві) слова є (кінцевими) конкатекаціями символів алфавіту. $\mathbb{N}$

— Янома
джерело

Я не бачу жодної остаточної відповіді. (Ви мали намір закінчити свою відповідь пізніше?) Я сподівався на простий опис можливих наборів та зв’язок з автоматами.

— Жил "ТАК - перестань бути злим"

Остаточна відповідь є: "Таким чином, можливі набори цілих чисел ...". Це дійсно простий опис, хоча і пов'язаний з регулярними виразами, а не автоматизацією.

— Янома

Існує простіший опис, який не передбачає встановлення точної точки. Можливо, це питання не таке елементарне, як я думав!

— Жил "ТАК - перестань бути злим"

Я не думаю, що ви можете уникнути останнього правила, оскільки саме зірковий оператор може створювати нескінченні набори довжини, так само як він створює нескінченні мови.

— Янома

@Gilles Отже, ви хочете закриту форму найменшої точки фіксації індуктивного рішення, яку забезпечує Janoma?

— Рафаель

Згідно з накачаною лемою для звичайних мов, існує такий, що рядок довжиною принаймні рівним може бути записаний у такому вигляді: $n$ $x$ $n$ Якщо мають місце наступні три умови:

x = u v w

$x = uvw$

| u v | < n

$|uv| < n$

| v | > 0

$|v| > 0$

u v^{k} w \in L

$uv^{k}w \in L$

Це дає нам один тест для множин: набір не може бути набором довжини звичайної мови, якщо всі його елементи не можуть бути виражені у вигляді довільного набору цілих чисел, не більше фіксованого , плюс деякого кратного невизначеного значення (довжина з ), плюс деякий довільне кінцеве значення. $n$ $m$ $v$

Іншими словами, схоже, що можливі набори довжин мови для звичайних мов - це закриття відносно встановленого об'єднання (як обговорювалося під EDIT та EDIT2, завдяки коментаторам) наборів, описаних таким чином: Для фіксованих та всіх кінцевих множин за допомогою накачувальної леми для звичайних мов (дякую Гіллю, що вказав на дурну помилку в моїй оригінальній версії, завдяки якій я визначав множину ).

{a + b n | n \in N} \cup S

$\{a + bn | n \in \mathbb{N}\} \cup S$

a, b \in N

$a, b \in \mathbb{N}$

S

$S$

N

$\mathbb{N}$

EDIT: Ще трохи дискусії. Безумовно, всі кінцеві множини цілих чисел є множинами довжин. Також об'єднання двох наборів довжин також повинно бути набором довжини, як і доповненням будь-якого набору довжин (отже, перетин, отже, різниця). Причиною цього є те, що звичайні мови закриваються під час цих операцій. Тому відповідь, яку я даю вище, (можливо) неповна; насправді будь-який союз таких множин - це також набір довжини якоїсь регулярної мови (зауважте, що я відмовився, вимагаючи перетину, доповнення, різниці тощо), оскільки вони охоплені тим, що регулярні мови закриваються під цими властивостями, як обговорюється в EDIT3; Я думаю, що насправді потрібен лише союз, навіть якщо інші мають рацію, що може бути не так).

EDIT2: Ще більше обговорення. Відповідь, яку я даю, в основному ви б там, де ви опинилися б трохи далі, якби відповіли Яномі; частина приходить від зірки Кліні, то походить від конкатенації, і обговорення об'єднання, перетину, різниці і доповнень приходять від + регулярних виразів (а також інших закривають властивостей регулярних мов) доказово , починаючи з автоматів) . $bn$ $a$

EDIT3: У світлі коментаря Janoma, забудьмо властивості закриття наборів довжини мови, про які я обговорював у першій EDIT. Оскільки регулярні мови мають ці властивості закриття, і оскільки кожна звичайна мова має DFA, то випливає, що лемма накачування для звичайних мов застосовується до всіх союзів, перехресть, доповнень та відмінностей звичайних мов, і ми це залишимо ; не потрібно навіть розглядати будь-яке з них, окрім союзу, який, я все ще думаю, може бути необхідним, щоб зробити свій оригінал (модифікований, завдяки внесенню від Gilles) правильним. Отже, моя остаточна відповідь така: те, що я говорю в оригінальній версії, плюс закриття мовної довжини наборів щодо об'єднання набору.

— Патрік87
джерело

знаходиться на правильному шляху, але ви отримали квантор неправильно дето, ви генеруєте

{a + b n ∣ a, b, n \in N} \cup S

$\{a+bn \mid a,b,n\in\mathbb{N}\} \cup S$

N

$\mathbb{N}$

— Жил "ТАК - перестань бути злим"

Аналіз доповнення набору довжини може бути делікатним. Якщо

над алфавітом

, то набір довжин

дорівнює

а набір довжин

, і вони не є доповненням один одного.

L = L (a^{*})

$L=L(a^*)$

Σ = {a, b}

$\Sigma=\{a,b\}$

L

$L$

N

$\mathbb{N}$

\bar{L}

$\overline{L}$

N^{+}

$\mathbb{N}^+$

— Янома

@Gilles Але набір усіх натуральних чисел - це дійсна довжина, правда? Я не генерую всі підмножини натуральних чисел, правда? Я згоден, що це було б проблематично. Редагувати: чекайте, я бачу, що ви говорите. Так, ви праві. Виправить, коли повертається за комп’ютером.

— Patrick87

@Janoma Відмінний момент, потрібно буде подумати, як це може змінити набір речей, які я визначаю ...

— Patrick87