Знаходження k'-го найменшого елемента із заданої послідовності лише з O (k) пам'яттю O (n) час

Припустимо, що ми читаємо послідовність з $n$ чисел, по одному. Як знайти $k$ '-й найменший елемент просто за допомогою використання клітинної пам'яті $O(k)$ та за лінійним часом ( $O(n)$ ). Я думаю , що ми повинні зберегти перші $k$ члени послідовності і коли отримаємо $k+1$ "й член, видалити термін , який ми впевнені , що вона не може стати $k$ » й найменший елемент , а потім зберегти $k+1$ "й член. Отже, у нас повинен бути індикатор, який показує цей непридатний термін на кожному кроці, і цей показник повинен бути оновлений на кожному кроці швидко. Я почав з "max"; але він не може швидко оновитись; Це означає, що якщо ми вважаємо max, то при першому видаленні ми пропускаємо max, і нам слід шукати max в $O(k)$ та його причині $(n-k)\times O(k)$ що це не лінійно. Можливо, нам слід розумніше зберегти перші $k$ терміни послідовності.

Як вирішити цю проблему?

data-structures search-algorithms quicksort

— Шахаб_ХК
джерело

Вас цікавить онлайн-алгоритм, чи хотів би якийсь алгоритм?

— Yuval Filmus

Якщо

k=θ(n) $k = \theta(n)$ ви можете це зробити, використовуючи алгоритм статистики замовлень. Якщо

k=o(n) $k = o(n)$ ви можете зробити це пам'ять

O(k) $O(k)$ та час

O(nlogk) $O(n\log k)$ використовуючи дерева з урівноваженою висотою.

— Шрееш

Це називається проблемою вибору en.wikipedia.org/wiki/Selection_algorithm

— xavierm02

Існують лінійні алгоритми на місці, які можна гуглювати, але вони дещо складні.

— Yuval Filmus

@ xavierm02 це не проблема вибору однаково. Тому що існує обмеження обмеження пам'яті.

— Shahab_HK

Відповіді:

Створіть буфер розміром . Читайте в елементів з масиву. Використовуйте алгоритм вибору лінійного часу, щоб розділити буфер, щоб першими були найменші елементи; це займає час . Тепер прочитайте в буфер ще один елементів з масиву, замінивши найбільших елементів у буфері, розділіть буфер, як раніше, і повторіть. $2k$ $2k$ $k$ $O(k)$ $k$ $k$

Це займає час і простір. $O(k * n/k) = O(n)$ $O(k)$

— jbapple
джерело

+1, це відповідає заданій асимптотиці. Якщо говорити, я не вірю, що це швидше, ніж робити єдиний алгоритм вибору лінійного часу ... за винятком випадків, коли

- мала константа, то це забезпечує цікаву перспективу. Наприклад, для

цей алгоритм виробляє функцію. k $k$

k=1 $k = 1$ min

— orlp

Іноді алгоритм вибору лінійного часу використовує занадто багато місця. Наприклад, він не підходить для використання в потоковому контексті або коли вхідний масив є незмінним.

— jbapple

Це дійсні бали.

— orlp

Ви можете зробити це в пам'яті та , створивши фіксований розмір max-heap з перших елементів за час, потім повторити і решту масиву та натиснувши новий елемент, а потім вискакує для для кожного елемента, даючи загальний час = . $O(k)$ $O(n \log k)$ $k$ $O(k)$ $O(\log k)$ $O(k + n\log k)$ $O(n \log k)$

Ви можете зробити це в допоміжній пам’яті та час, використовуючи алгоритм вибору медіани медіанів, вибираючи при і повертаючи перші елементи. Без зміни асимптотики ви можете використовувати інтроселект для прискорення середнього випадку. Це канонічний спосіб вирішити вашу проблему. $O(\log n)$ $O(n)$ $k$ $k$

Зараз технічно і є незрівнянними. Однак я стверджую, що є кращим на практиці, оскільки він фактично постійний, враховуючи, що жодна комп'ютерна система не має більше байт пам'яті, . Тим часом може вирости таким же великим, як . $O(\log n)$ $O(k)$ $O(\log n)$ $2^{64}$ $\log 2^{64}= 64$ $k$ $n$

— orlp
джерело

Зауважте, що ви можете поліпшити складність алгоритму на основі купи до

, змінивши порядок, який використовує купа, коли це цікаво. O(n×logmin(k,n−k)) $O(n \times \log\min (k, n - k))$

— xavierm02

@ xavierm02

. Доведення: найгірший випадок для

. Найгірший випадок для

O(min(k,n−k)) $O(min(k, n-k))$

O(k) $O(k)$

k $k$

n $n$

min(k,n−k) $min(k, n-k)$

. Вони однакові в межах постійного коефіцієнта, таким чином

. n2 $n \over 2$

O(min(k,n−k)) $O(min(k, n-k))$

O(k) $O(k)$

— orlp

@ xavierm02 Як це сказати, це все-таки приємна швидкість :)

— orlp

але це не

. Припустимо, це так. Тоді є деякі

і деякі

так що для кожного

ми маємо

, що явно помилково (тому що ми можемо взяти

un,k=k $u_{n,k}=k$

O(k) $O(k)$

O(min(k,n−k)) $O(\min (k, n-k))$

C $C$

M $M$

M≤k≤n $M\le k\le n$

k≤C(n−k) $k\le C (n-k)$

n=k→+∞). $n=k \to +\infty).$ Отже

. O(min(k,n−k))⊊O(k) $O(\min(k, n-k))\subsetneq O(k)$

— xavierm02

@ Xavierm02 Я не знайомий з

нотації. Щоб бути справедливим, я взагалі зовсім НЕ знайомі з багатовимірними big-

нотації, особливо якщо врахувати , що розміри

не пов'язані. $u_{n, k}$

$O$

$n, k$

— orlp