Детермінований лінійний алгоритм часу, щоб перевірити, чи є один масив відсортованою версією іншого

Розглянемо наступну проблему:

Вхідні дані: два масиви і довжиною , де у відсортованому порядку. $A$ $B$ $n$ $B$

Запит: чи містять і однакові елементи (за їх кратністю)? $A$ $B$

Який найшвидший детермінований алгоритм цієї проблеми?
Чи можна це вирішити швидше, ніж їх сортування? Чи можна цю проблему вирішити в детермінований лінійний час?

algorithms reference-request sorting

— Альберт Хендрікс
джерело

FWIW ймовірнісний підхід є хешуванняванням хеш-функції, що не залежить від порядку. Картер і Вегман написали одну з оригінальних статей про це ( sciencedirect.com/science/article/pii/0022000081900337 ), але я в цитатах цього документу нічого не бачив, що передбачає детермінований алгоритм (поки що).

— KWillets

Цитата, яку ви цитуєте, стосується моделі машини Тьюрінга, яка представляє лише теоретичний інтерес. Алгоритми зазвичай аналізуються щодо моделі оперативної пам'яті.

— Yuval Filmus

ах, то це модель, яку я шукаю. Я коригував питання.

— Альберт Гендрікс

Чому ви просто не підсумовуєте елементи в масиві і не порівнюєте підсумки? Що стосується вашої назви, вона лінійна і відповідає на запитання "чи є один масив відсортованої версії іншого? '. Я усвідомлюю, що це не модель машини Тюрінга, а практичне рішення.

— atayenel

@AlbertHendriks Ви (швидше за все) не можете сортувати масив у на машині Тьюрінга. Деякі нижні межі SAT (наприклад, cs.cmu.edu/~ryanw/automated-lbs.pdf ) насправді стосуються машини оперативної пам'яті, вибачте за оманливий раніше коментар.

O (n \log n)

$O(n\log n)$

— Yuval Filmus

Відповіді:

Ви не вказали модель обчислення, тому я припускаю модель порівняння.

Розглянемо особливий випадок, коли масив взято зі списку Словом, й елемент є або або . $B$

{1, 2} \times {3, 4} \times \dots \times {2 n - 1, 2 n} .

$\{1,2\} \times \{3,4\} \times \cdots \times \{2n-1,2n\}.$

i

$i$

2 i - 1

$2i-1$

2 i

$2i$

Я стверджую , що якщо алгоритм робить висновок , що і містять ті ж самі елементи, що алгоритм порівняв кожен елемент з його аналогом в . Дійсно, припустимо , що алгоритм робить висновок , що і містять одні і ті ж елементи, але ніколи не порівнює перший елемент його аналога в . Якщо ми переключимо перший елемент, алгоритм діяв би точно так само, хоча відповідь відрізняється. Це показує , що алгоритм повинен порівняти перший елемент (і будь-який інший елемент) до його аналогу в . $A$ $B$ $B$ $A$ $A$ $B$ $B$ $A$ $A$

Це означає , що якщо і містять ті ж самі елементи, то після перевірки цього алгоритм знає відсортоване порядок . Значить, воно повинно мати принаймнірізні листя, і тому потрібен час . $A$ $B$ $A$ $n!$ $\Omega(n\log n)$

— Юваль Фільм
джерело

Я б подумав, що це означає, що взагалі, але, мабуть, модель порівняння відрізняється від цієї.

P = Ω (n \log n)

$P = \Omega(n\log n)$

— Альберт Хендрікс

@AlbertHendriks, це та сама модель, яка використовується для показу n lg n нижньої межі для сортування. Це означає, що це єдина операція, яку ви можете виконати, це порівняння, тоді ви не можете зробити краще. Я думаю, це відповідає на ваше запитання.

— Каве

[Cntd] У нас немає більш міцних меж навіть для сортування! і якщо ви можете сортувати швидше, ніж n lg n, то ви можете використовувати це для вирішення проблеми швидше, ніж n lg n.

— Каве

@AlbertHendriks, чи знаєте ви алгоритми лінійного часу для сортування цілих чисел? Подивіться це в CLRS. Ваш випадок може бути одним із випадків, коли ми можемо сортувати за лінійним часом.

— Каве

Цілі особи можуть бути відсортовані в (див. Nada.kth.se/~snilsson/fast-sorting ) або в очікуваний час (див. Ieeexplore .ieee.org / stamp / stamp.jsp? arnumber = 1181890 ) або навіть у лінійний час, якщо розмір слова досить великий (див. LNCS 8503, стор. 26ff).

O (n \log \log n)

$O(n\log\log n)$

O (n \sqrt{\log \log n})

$O(n\sqrt{\log\log n})$

— Yuval Filmus

Ця відповідь розглядає іншу модель обчислення: модель одиничної вартості оперативної пам'яті. У цій моделі машинні слова мають розмір , а операції над ними займають час. Для простоти ми також припускаємо, що кожен елемент масиву вписується в одне машинне слово (і так є не більше за величиною). $O(\log n)$ $O(1)$ $n^{O(1)}$

Ми побудуємо лінійний рандомізований алгоритм за часом з односторонньою помилкою (алгоритм може оголосити два масиви, що містять однакові елементи, навіть якщо це не так) для більш складної проблеми визначення, чи є два масиви і містять однакові елементи. (Ми не вимагаємо сортування жодного з них.) Наш алгоритм зробить помилку з вірогідністю не більше . $a_1,\ldots,a_n$ $b_1,\ldots,b_n$ $1/n$

Ідея полягає в тому, що наступна ідентичність має значення, якщо масиви містять однакові елементи: Обчислення цих многочленів точно займе занадто багато часу. Замість цього ми вибираємо випадковий простийта випадковийі перевіряємо, чи

\prod_{i = 1}^{н} (х - а_{i}) = \prod_{i = 1}^{н} (х - б_{i}) .

$\prod_{i=1}^n (x-a_i) = \prod_{i=1}^n (x-b_i).$

p

$p$

x_{0}

$x_0$

Якщо масиви рівні, тест завжди пройде, тож давайте зосередимось на випадках, коли масиви різні. Зокрема, деякий коефіцієнт

є ненульовим. Оскільки

мають величину

, цей коефіцієнт має величину

\prod_{i = 1}^{н} (х_{0} - а_{i}) \equiv \prod_{i = 1}^{н} (х_{0} - б_{i}) (мод p) .

$\prod_{i=1}^n (x_0-a_i) \equiv \prod_{i=1}^n (x_0-b_i) \pmod{p}.$

\prod_{i = 1}^{n} (x - a_{i}) - \prod_{i = 1}^{n} (x - b_{i})

$\prod_{i=1}^n (x-a_i) - \prod_{i=1}^n (x-b_i)$

a_{i}, b_{i}

$a_i,b_i$

n^{O (1)}

$n^{O(1)}$

, і тому він має щонайбільше

простих коефіцієнтів розміру

. Це означає, що якщо ми виберемо набір щонайменше

простихрозмірів

розміром принаймні

(скажімо), то для випадкового простого

цього множини він матиме ймовірність принаймні

що

2^{n} n^{O (n)} = n^{O (n)}

$2^n n^{O(n)} = n^{O(n)}$

O (n)

$O(n)$

Ω (n)

$\Omega(n)$

n^{2}

$n^2$

p

$p$

n^{2}

$n^2$

p

$p$

1 - 1 / n

$1-1/n$

Випадковий

по модулю

спостерігатиме це з імовірністю

(такмногочлен ступенявище

має не більше

коренів).

\prod_{i = 1}^{н} (х - а_{i}) - \prod_{i = 1}^{н} (х - б_{i}) ≢ 0 (мод p) .

$\prod_{i=1}^n (x-a_i) - \prod_{i=1}^n (x-b_i) \not\equiv 0 \pmod{p}.$

x_{0}

$x_0$

p

$p$

1 - n / p \geq 1 - 1 / n

$1-n/p \geq 1-1/n$

n

$n$

n

$n$

На закінчення, якщо ми виберемо випадковий розміром приблизно серед набору принаймні різних простих чисел і випадкового по модулю , то коли масиви не містять однакових елементів, наш тест не завершиться ймовірність . На виконання тесту потрібно час оскільки вписується в постійну кількість машинних слів. $p$ $n^2$ $n^2$ $x_0$ $p$ $1-O(1/n)$ $O(n)$ $p$

$n^2$ $\Omega(1/\log n)$ $p$ $(\log n)^{O(1)}$ $x_0$ $p$ $x_0$

$O(n)$ $1-O(1/n)$ $1-O(1/n^C)$ $C$

— Юваль Фільм
джерело

Хоча цей алгоритм є рандомізованим, він пояснює, як реалізувати ідеї в деяких інших відповідях, щоб вони фактично працювали. Він також має перевагу перед хеш-підходом: він є на місці.

— Yuval Filmus

Я думаю, що ОП не любить ймовірнісні алгоритми, оскільки йому не сподобався очікуваний лінійний алгоритм часу за допомогою хеш-таблиці.

— Каве

Каве, ти маєш рацію. Але звичайно це рішення також цікаве і його слід дотримуватися, воно вирішує випадок для імовірнісних алгоритмів. Крім того, я думаю, що він використовує модель, яку я шукаю.

— Альберт Гендрікс

Мені просто цікаво, чи правильно позначення O (1 / n). Звичайно, я знаю, що ви маєте на увазі, але я думаю, що за визначенням big-O це еквівалентно O (1).

— Альберт Гендрікс

C / n

$C/n$

n

$n$

O (1)

$O(1)$

-3

я запропоную інший алгоритм (або принаймні схему такого алгоритму)

$[min,max]$

$O(n)$ minmax
Відняти значення minз усіх значень з обох масивів (тут той факт, що один масив уже в упорядкованому порядку не враховується, імовірно, це може бути покращено)
$1$ $c > 1$
max-min $O((max-min)n)$

зауважте, що наведена вище схема алгоритму може бути (детермінованою) досить швидкою у багатьох практичних ситуаціях.

Наведена вище схема алгоритму є варіацією алгоритму сортування лінійного часу, використовуючи " рухомі маси ". Фізична інтуїція за алгоритмом сортування рухомих мас така:

Припустимо, що значення кожного елемента насправді представляє його масову величину, і уявіть, як упорядкувати всі елементи в рядку і застосувати ту саму силу прискорення.

Тоді кожен предмет переміститься вгору на відстань, пов’язану з його масою, більш масивна, менша відстань, і навпаки. Потім, щоб отримати відсортовані предмети, просто збирайте їх у зворотному порядку за пройденою дистанцією.

$max-min$

У цьому відношенні вищевказаний алгоритм схожий на алгоритми сортування на основі чисельності (наприклад, сортування по радіусу , сортування )

Можна подумати, що цей алгоритм може означати мало, але він показує хоча б одне. Що, " фундаментально ", на фізичному рівні, сортування довільних чисел є операцією лінійного часу за кількістю елементів.

— Нікос М.
джерело

Що стосується збору предметів у зворотному порядку пройденої відстані, чи не буде це переведенням до порівнянь на рівні реалізації, і чи не потрібно вам потім сортувати "відстані"?

— JustA AnotherSoul