Стиснення тексту та декомпресія - "Ніколи більше".


38

Під час нещодавньої дискусії про використання інструментів стиснення в коді гольфу я подумав, що буде приємним завданням написати власний текстовий компресор і декомпресор.

Виклик:

Напишіть дві програми : одну для стиснення тексту ASCII в послідовності байтів, а іншу для розпакування тексту. Програми не повинні бути однією мовою.

Перша програма повинна прочитати фрагмент тексту ASCII (з файлу або зі стандартного вводу або за допомогою будь-якого механізму, найбільш природного для мови) та вивести стислий його варіант. (Стислий вихід може складатися з довільних байтів; його не потрібно читати.) Друга програма повинна прочитати вихід першого та відтворити вихідний текст.

Оцінка:

Оцінка рішення буде сумою наступних трьох рахунків:

  1. Довжина компресора програми в символах.
  2. Довжина виходу компресора, враховуючи тестовий вхід нижче, в байтах.
  3. Довжина декомпресора програми (якщо він відрізняється від компресора) в символах.

У своїй відповіді слід зазначити всі три підрахунки та їх суму. Оскільки це кодовий гольф, чим менша оцінка, тим краще.

Правила та обмеження:

  • Ви не можете використовувати будь-які наявні засоби стиснення або декомпресії або бібліотеки, навіть якщо вони входять у комплект із обраною вами мовою. Якщо ви сумніваєтесь у тому, чи дозволяється певний інструмент чи функція, запитайте.

  • Ваша програма компресора повинна бути спроможна обробляти вхід, що складається з будь-якого тексту для друку ASCII , включаючи вкладки (ASCII 9) та канали рядків (ASCII 10). Ви можете, але не вимагаєте, обробляти довільний Unicode та / або двійковий вхід.

  • Ваша програма декомпресора повинна виробляти точно такий же вихід , який був заданий компресору, як і вхідний. Зокрема, подбайте про те, щоб не виводити подаючу лінію, якщо вхід не був. (У нижченаведеному тестовому вході є канал подання рядка, тому вам потрібно буде перевірити це окремо. Порада для GolfScript:. '':n)

  • Ваш компресор і декомпресор можуть бути однією і тією ж програмою (з обраним відповідним режимом, наприклад, з перемикачем командного рядка). У цьому випадку його довжина рахується лише один раз .

  • Програми не повинні бути надмірно повільними або голодними . Якщо або стиснення, або декомпресія тестового входу займає більше ніж хвилину на моєму не так новому робочому столі (2,2 ГГц AMD Athlon64 X2) або споживає більше, ніж гігабайт оперативної пам’яті, я вирішу рішення недійсним. Ці обмеження цілеспрямовано нечіткі - будь ласка, намагайтеся їх не натискати. (Див. Поправку нижче: вам потрібно мати можливість обробляти принаймні 100 кБ вводу в цих межах.)

  • Незважаючи на те, що для тестування балів лише тестовий вхід, вам слід принаймні докласти зусиль для стиснення довільного введеного тексту. Рішення, яке досягає пристойного коефіцієнта стиснення лише для тестового входу, і нічого іншого, є технічно справедливим, але не збирається отримати позитивну оцінку від мене.

  • Ваші програми компресора та декомпресора повинні бути самостійними . Зокрема, якщо вони залежать від того, чи зможете прочитати якийсь файл або мережевий ресурс, який не є частиною стандартного середовища виконання вибраної вами мови, довжина цього файлу чи ресурсу повинна вважатися частиною тривалості програми (програм). (Це для заборони "компресорів", які порівнюють вхід до файлу в Інтернеті та виводять нульові байти, якщо вони відповідають. Вибачте, але це вже не новий фокус.)

Поправки та роз'яснення:

  • Компресор повинен вміти обробляти файли, що містять щонайменше 100 кБ типового англійського тексту протягом розумного часу та використання пам'яті ( щонайменше однієї хвилини та одного ГБ пам'яті). Декомпресор повинен мати можливість декомпресувати отриманий результат у тих же межах. Звичайно, вміння обробляти файли довше, ніж це, ідеально добре і похвально. Добре розділяти довгі вхідні файли на шматки та стискати їх окремо, або використовувати інші засоби, щоб відмітити ефективність стиснення для швидкості довгих входів.

  • Ваш компресор може вимагати, щоб його введення було введено за допомогою власного представлення нової лінії вподобаної платформи (LF, CR + LF, CR тощо), якщо ваш декомпресор використовує те саме представлення нового рядка у своєму виході. Звичайно, також непогано, що компресор може приймати будь-які нові рядки (або навіть лише нові рядки Unix незалежно від платформи), якщо ваш декомпресор виводить ті ж види нових рядків, що і в оригінальному вході.

Тестовий вхід:

Для оцінки ефективності стиснення відповідей буде використаний наступний тестовий вклад ( Ворон Едгара Аллана По, люб’язно наданий Проектом Гутенберга ):

Once upon a midnight dreary, while I pondered, weak and weary,
Over many a quaint and curious volume of forgotten lore,
While I nodded, nearly napping, suddenly there came a tapping,
As of some one gently rapping, rapping at my chamber door.
"'T is some visiter," I muttered, "tapping at my chamber door--
                                          Only this, and nothing more."

Ah, distinctly I remember it was in the bleak December,
And each separate dying ember wrought its ghost upon the floor.
Eagerly I wished the morrow:--vainly I had sought to borrow
From my books surcease of sorrow--sorrow for the lost Lenore--
For the rare and radiant maiden whom the angels name Lenore--
                                          Nameless here for evermore.

And the silken sad uncertain rustling of each purple curtain
Thrilled me--filled me with fantastic terrors never felt before;
So that now, to still the beating of my heart, I stood repeating
"'T is some visiter entreating entrance at my chamber door
Some late visiter entreating entrance at my chamber door;--
                                          This it is, and nothing more."

Presently my soul grew stronger; hesitating then no longer,
"Sir," said I, "or Madam, truly your forgiveness I implore;
But the fact is I was napping, and so gently you came rapping,
And so faintly you came tapping, tapping at my chamber door,
That I scarce was sure I heard you"--here I opened wide the door;--
                                          Darkness there, and nothing more.

Deep into that darkness peering, long I stood there wondering, fearing,
Doubting, dreaming dreams no mortal ever dared to dream before;
But the silence was unbroken, and the darkness gave no token,
And the only word there spoken was the whispered word, "Lenore!"
This I whispered, and an echo murmured back the word, "Lenore!"
                                          Merely this and nothing more.

Back into the chamber turning, all my soul within me burning,
Soon again I heard a tapping, somewhat louder than before.
"Surely," said I, "surely that is something at my window lattice;
Let me see, then, what thereat is, and this mystery explore--
Let my heart be still a moment and this mystery explore;--
                                          'T is the wind and nothing more!"

Open here I flung the shutter, when, with many a flirt and flutter,
In there stepped a stately Raven of the saintly days of yore.
Not the least obeisance made he; not a minute stopped or stayed he;
But, with mien of lord or lady, perched above my chamber door--
Perched upon a bust of Pallas just above my chamber door--
                                          Perched, and sat, and nothing more.

Then this ebony bird beguiling my sad fancy into smiling,
By the grave and stern decorum of the countenance it wore,
"Though thy crest be shorn and shaven, thou," I said, "art sure no craven,
Ghastly grim and ancient Raven wandering from the Nightly shore,--
Tell me what thy lordly name is on the Night's Plutonian shore!"
                                          Quoth the Raven, "Nevermore."

Much I marvelled this ungainly fowl to hear discourse so plainly,
Though its answer little meaning--little relevancy bore;
For we cannot help agreeing that no living human being
Ever yet was blessed with seeing bird above his chamber door--
Bird or beast upon the sculptured bust above his chamber door,
                                          With such name as "Nevermore."

But the Raven, sitting lonely on the placid bust, spoke only
That one word, as if his soul in that one word he did outpour.
Nothing further then he uttered--not a feather then he fluttered--
Till I scarcely more than muttered, "Other friends have flown before--
On the morrow _he_ will leave me, as my hopes have flown before."
                                          Then the bird said, "Nevermore."

Startled at the stillness broken by reply so aptly spoken,
"Doubtless," said I, "what it utters is its only stock and store,
Caught from some unhappy master whom unmerciful Disaster
Followed fast and followed faster till his songs one burden bore--
Till the dirges of his Hope that melancholy burden bore
                                          Of 'Never--nevermore.'"

But the Raven still beguiling all my sad soul into smiling,
Straight I wheeled a cushioned seat in front of bird and bust and door;
Then, upon the velvet sinking, I betook myself to linking
Fancy unto fancy, thinking what this ominous bird of yore--
What this grim, ungainly, ghastly, gaunt and ominous bird of yore
                                          Meant in croaking "Nevermore."

This I sat engaged in guessing, but no syllable expressing
To the fowl whose fiery eyes now burned into my bosom's core;
This and more I sat divining, with my head at ease reclining
On the cushion's velvet lining that the lamplight gloated o'er,
But whose velvet violet lining with the lamplight gloating o'er
                                          _She_ shall press, ah, nevermore!

Then, methought, the air grew denser, perfumed from an unseen censer
Swung by seraphim whose foot-falls tinkled on the tufted floor.
"Wretch," I cried, "thy God hath lent thee--by these angels he hath sent thee
Respite--respite and nepenthe from thy memories of Lenore!
Quaff, oh quaff this kind nepenthe, and forget this lost Lenore!"
                                          Quoth the Raven, "Nevermore."

"Prophet!" said I, "thing of evil!--prophet still, if bird or devil!--
Whether Tempter sent, or whether tempest tossed thee here ashore,
Desolate yet all undaunted, on this desert land enchanted--
On this home by Horror haunted--tell me truly, I implore--
Is there--_is_ there balm in Gilead?--tell me--tell me, I implore!"
                                          Quoth the Raven, "Nevermore."

"Prophet!" said I, "thing of evil--prophet still, if bird or devil!
By that Heaven that bends above, us--by that God we both adore--
Tell this soul with sorrow laden if, within the distant Aidenn,
It shall clasp a sainted maiden whom the angels name Lenore--
Clasp a rare and radiant maiden whom the angels name Lenore."
                                          Quoth the Raven, "Nevermore."

"Be that word our sign of parting, bird or fiend!" I shrieked, upstarting--
"Get thee back into the tempest and the Night's Plutonian shore!
Leave no black plume as a token of that lie thy soul hath spoken!
Leave my loneliness unbroken!--quit the bust above my door!
Take thy beak from out my heart, and take thy form from off my door!"
                                          Quoth the Raven, "Nevermore."

And the Raven, never flitting, still is sitting, still is sitting
On the pallid bust of Pallas just above my chamber door;
And his eyes have all the seeming of a demon's that is dreaming,
And the lamplight o'er him streaming throws his shadow on the floor;
And my soul from out that shadow that lies floating on the floor
                                          Shall be lifted--nevermore!

Правильний тестовий вхід (закодований LF-рядками у стилі Unix) повинен мати довжину 7043 байт і мати шістнадцятковий хеш MD5 286206abbb7eca7b1ab69ea4b81da227. ( md5sum -tповинен створювати однакове хеш-значення, навіть якщо ви використовуєте CR + LF нові рядки в DOS / Windows.) Вихід вашого декомпресора повинен мати однакову довжину і хеш-пам'ять.

Пс. Майте на увазі, що цей виклик настільки ж важкий, як ви його вирішите. Дійсно, що-небудь під 7043 вважається хорошим балом. (На іншому кінці шкали я буду надзвичайно вражений, якщо хтось досягне балів менше 2500.)


Отже, я вважаю, ви не хочете бачити стиснення втрат ?
Містер Лама

2
Попередня примітка для людей, які не можуть зрівняти хеш MD5: текстовий файл має нові рядки Unix для кінцевих рядків. Також переконайтеся, що у вас є останній рядок у файлі на повну довжину 7043 байтів.
Містер Лама

@GigaWatt: Так, я мав би бути більш чітким щодо нових рядків. Оскільки я обмежив лише введення тексту ASCII, я думаю, я міг би дозволити людям використовувати будь-яку конвенцію нового рядка, яка вважається найбільш природною для них, доки вони нею користуються послідовно. Я спробую придумати гарний спосіб висловити це у виклику. І ні, компресор не повинен втрачати.
Ільмарі Каронен

Як щодо довжини файлу, чи потрібно запускати (у прийнятний час) лише для файлів у порядку розміру прикладу, а також для набагато більших файлів (> трохи МБ)?
перестали повертати проти годинника,

1
Якщо вихід подається як програма на тій же мові, що і компресор, чи можемо ми вважати довжину декомпресора як нуль?
Пітер Тейлор

Відповіді:


19

Perl, 3502 = 133 + 3269 + 100

Кодер:

#!/usr/bin/perl -0
$_=<>;for$e(map{~chr}0..255){++$p{$_}for/..|.\G./gs;
%p=$s=(sort{$p{$a}<=>$p{$b}}keys%p)[-1];$d.=/\Q$e/?$/:s/\Q$s/$e/g&&$s}print$_,$d

І декодер:

#!/usr/bin/perl -0777
sub d{($p=$d{$_})?d(@$p):print for@_}
sub r{%d=map{chr,ord($c=pop)&&[pop,$c]}0..255;&d}r<>=~/./gs

Для пуристів, які вважають за краще уникати використання перемикачів командного рядка: Ви можете видалити рядок shebang та додати $/=chr;до кодера та $/=$,;до декодера, щоб отримати той самий ефект. (Це призведе до того, щоб оцінка склала до 3510.)

Цей код використовує дуже примітивну схему стиснення:

  • Знайдіть двочарову біграму, яка найчастіше з’являється у вихідному тексті.
  • Замініть біграму значенням байту, що не використовується зараз.
  • Повторюйте, поки не буде більше повторених біграм (або більше немає невикористаних значень байтів).

Хтось там може розпізнати це як спрощений варіант стиснення "повторної пари" (короткий для рекурсивних пар).

Це не дуже хороша загальна схема стиснення. Він добре справляється з такими речами, як текст ASCII, де є багато невикористаних значень байтів, і навіть тоді він зазвичай отримує не більше 45-50% співвідношення. Однак вона має перевагу в застосуванні з мінімальним кодом. Декомпресор, зокрема, може бути досить компактним. (Більшість знаків мого сценарію декодера призначені для отримання словника біграмів.)

Ось нерозроблена версія коду:

#!/usr/bin/perl
use strict;
use warnings;
# Run with -d to decode.
if ($ARGV[0] eq "-d") {
    shift;
    $_ = join "", <>;
    my @in = split //;
    my %dict;
    foreach my $n (0 .. 255) {
        my $c = shift @in;
        $dict{chr $n} = [ $c, shift @in ] if ord $c;
    }
    sub decode {
        foreach (@_) {
            if ($dict{$_}) {
                decode(@{$dict{$_}});
            } else {
                print $_;
            }
        }
    }
    decode @in;
} else {
    $_ = join "", <>;
    my @dict;
    for (my $n = 255 ; $n >= 0 ; --$n) {
        my $symbol = chr $n;
        if (!/\Q$symbol/) {
            my %pop;
            ++$pop{$_} for /../gs, /(?!^)../gs;
            my $str = (sort { $pop{$b} <=> $pop{$a} } keys %pop)[0];
            s/\Q$str/$symbol/g;
            $dict[$n] = $str;
        }
    }
    for (0..255) { $dict[$_] ||= "\0" }
    print @dict, $_;
}

Я думаю, що одне вираження в кодері для гольфу вимагає пояснення, і це - (sort{$p{$a}<=>$p{$b}}keys%p)[-1]отримати ключ із найвищим значенням. Це виглядає так, що слід писати як (sort{$p{$b}<=>$p{$a}}keys%p)[0], що робить те саме, що на один символ коротше. Причиною того, що я не написав цього, є те, що він змінює вибраний ключ у випадку, коли є кілька клавіш з найвищим значенням. За випадковості це призвело до того, що отриманий результат для тестового входу на 10 байт довший. Я ненавидів брати на себе непотрібний зайвий персонаж, але недостатньо, щоб пожертвувати 9 балами з моєї оцінки.

В ваше обличчя, Гольфскрипт! (Ха-ха, Гольфскрипт цілком би прийшов сюди і бив мені по дупі, якби мене це чуло.)


3
Ого, це досить вражає! Пс. Це здається загальноприйнятою відповіддю щодо підрахунку комутаторів командного рядка.
Ільмарі Каронен

Данг, я читав це раніше, але мені не вдалося помітити цей біт посередині. Підсумок звучить так: ви не рахуєте початкового символу дефісів (тому що можете просто додати його до -eпакета опцій), якщо ваш код не містить одноцитатного символу, і в цьому випадку ви рахуєте дефіс (тому що тепер вам потрібно запустити його з файлу з рядком shebang, щоб уникнути оплати за уникнення одноцитати в командному рядку).
хлібниця

1
Техніку також називають кодуванням пари Byte . Приємна реалізація
roblogic

@roblogic Дякую за довідку; це добре знати.
хлібниця

20

Пітон, 3514 = 294 + 2894 + 326

В основному реалізація bzip2 . Це робить перетворення Берроуз-Уілера , перехід на фронт , просте кодування Хаффмана в бітовий потік, перетворює цей потік бітів на ціле число і виписує байти.

Кодер:

import sys
S=range(128)
H={0:'0'}
for b in range(7):
 for i in range(1<<b,2<<b):H[i]='1'*b+'10'+bin(i)[3:]
I=sys.stdin.read()+'\0'
N='1'
for x in sorted(I[i:]+I[:i]for i in range(len(I))):i=S.index(ord(x[-1]));N+=H[i];S=[S[i]]+S[:i]+S[i+1:]
N=int(N,2)
while N:sys.stdout.write(chr(N%256));N>>=8

S- це черга з переміщенням до фронту, Hє кодером Хаффмана і Nє бітовим потоком.

Кодування зменшує вхід тесту до приблизно 41% від його початкового розміру.

Декодер:

import sys
N=0
b=1
for c in sys.stdin.read():N+=ord(c)*b;b<<=8
N=bin(N)[3:]
S=range(128)
L=''
while N:
 n=N.find('0')
 if n:i=2**n/2+int('0'+N[n+1:2*n],2);N=N[2*n:]
 else:i=0;N=N[1:]
 L+=chr(S[i]);S=[S[i]]+S[:i]+S[i+1:]
S=''
i=L.find('\0')
for j in L:S=L[i]+S;i=L[:i].count(L[i])+sum(c<L[i]for c in L)
sys.stdout.write(S[:-1])

1
Мене спокусило застосувати BWT і зробити справжню форму стиснення, але я занадто лінивий. : P
Містер Лама

8

8086 Асемблер / MS_DOS

Компресор: 155

jNiAxBCO2I7AM/+9/QW5AAGK2TPAq4rDqv7D4va6AQkz9lK0BrL/zSFadDK7
/f+DwwM733QNOTd19ThHAnXwid7r34k1iEUC6BMAtACKRQJr8AODxwPryrQC
zSHrxFIz0ovGuwMA9/Nai9iKztPL0ePQ0nMWgPr+cgtSsv60Bs0hWoDq/rQG
zSGyAf7JdeA5/XUHA+2DxQP+xsM=

Дані: 3506

Декомпресор: 203

ieWD7CCM2IDEEI7YjsAz/7kAAYrZM8CrisOq/sPi9rYJxkb0Abn9BehtAIl2
/uhTAOhkAIl28Dv3cy3oRgCLRv6JBYt28Il2/oM8AHQEizTr94pEAohFAoPH
AznPddL+xgPJg8ED68mLdv6JNYM8AHQEizTr94pEAohFAol+/on+aFgBgzwA
dAdWizTo9f9etAaKVALNIcMz9ojz/k70dRu0BrL/zSF0IDz+cgi0BrL/zSEE
/sZG9AiIRvLQZvLR1v7Ldddr9gPDzSA=

Всього: 3864

Використовуйте цей декодер Base64 і збережіть двійкові файли як'press.com 'та' decompress.com ', а потім виконайте:

compress < source > compressed_file
decompress < compressed_file > copy_of_source

в оболонці DOS (тестується з WinXP). Перевірки помилок немає, тому стискання великих файлів призведе до неправильних результатів. Кілька невеликих доповнень, і це може впоратися з будь-яким розміром файлу. Крім того, він не може декомпресувати до двійкового, оскільки він не може вивести значення 0xff (стислі дані виходять із значення 0xff як 0xfe 0xff, а 0xfe уникнуло як 0xfe 0xfe). Використання імен файлів командного рядка дозволило б подолати проблему бінарного виводу, але було б більшим виконуваним файлом.


Які алгоритми стиснення використовує програма?
Sir_Lagsalot

@Sir_Lagsalot: Він використовує змінну ширину бітів LZW (той, який використовується у файлах GIF).
Скізз

6

Вірш Баша (566 + 117) + 4687 = 5370

Для задоволення я замаскував компресор як вірш:

for I in my chamber nodded, nearly napping, suddenly heard rapping, tapping upon my door    \
"'T is some visiter" \ I\  muttered, o\'er lamplight "nothing more" \
just this sainted maiden whom the angels name Lenore    \
And "Prophet!" said me "thing of evil" -- "prophet still, if bird or devil!"    \
Leave no token of that lie thy soul hath spoken and sitting take thy ore from This floor    \
But you velvet bird from some shore above   \
here this with sad raven before his word still spoke nothing    \
"                                          " Quoth the Raven Never more;                    do C=$[C+1];E=`perl -e "print chr($C+128)"`;echo "s/$I/$E/g">>c;echo "s/$E/$I/g">>d;done;LANG=C sed -f $1;rm c d

Це уніфікований компресор: запустіть з опцією "с" він буде стискати, а з "d" - розпакувати. Він має дві частини: версію поеми 566 байт «читачі дайджеста» та (2) суффікс із 117 байтів, де робиться весь «справжній» баш.

З деякою обережністю (наприклад, починаючи поему з "для я в"), bash інтерпретуватиме "втрачену" версію поеми як масив. Він замінює кожен елемент масиву символом, який не є ASCII (ми припускаємо, що вхід ASCII, тому немає зіткнень). Одна незначна перевага цього рішення: оскільки ми використовуємо той факт, що ми можемо вважати, що вхід є ASCII, вихід цього стиснення ніколи не буде довшим, ніж його вхід, незалежно від того, що є вхідною та / або втратною частиною.

Правило, яке наближається до порушення, - це правило про забезпечення гідного коефіцієнта стиснення для інших текстів. Однак, він голить 1386 байт з тексту GPL V2, що значно перевищує його власний розмір, який, схоже, відповідає визначенню ОЗ decent. Таким чином, здається, забезпечується так звана decentкомпресія на загальні тексти. Це тому, що майже будь-який текст в англійській мові матиме "" "це" і т. Д. Ясна річ, що це буде краще, якщо ви заміните "втрачену" частину текстом, що нагадує оригінал, який ви хочете без втрат стиснути.

Розбиття зображень та аудіо на втрачені та не втрачені частини - відома методика. Це не так добре підходить для тексту: 4687 байт не так вже й чудово, навіть якщо ми виключаємо 566 байт із версії, що втрачає програму, і ми не можемо автоматично створити втрачену версію тексту так само, як ми можемо для аудіо. З іншого боку, це означає, що кожного разу, коли ви стискаєте щось із цим компресором, ви можете отримувати задоволення від створення втомленої версії вручну. Тож це здається розумним рішенням "для розваги".


5

C ++, 4134 байт (код = 1357, стислий = 2777)

Це перетворює Burrow-Wheeler + перехід на фронт, як Кіт Рендалл, але потім стискає отриману послідовність байтів за допомогою адаптивного кодера діапазону . На жаль, покращеного стиснення з кодера діапазону недостатньо для компенсації багатомовності C ++. Я міг би скористатися цим кодом ще декілька, а саме використовувати інший метод введення / виводу, але цього було б недостатньо, щоб перемогти інші матеріали за допомогою поточного алгоритму. Код є специфічним для Windows, і підтримується лише текст ascii.
Для стиснення: "C text_file compression_file"
Для розпакування: "D compression_file decompression_file"
Досить будь-яка помилка командного рядка або помилка файлу призведе до збою програми, і для кодування або декодування вірша потрібна більша частина хвилини.

#include <windows.h>
#include <algorithm>
typedef DWORD I;typedef BYTE u;
#define W while
#define A(x)for(a=0;a<x;a++)
#define P(x)*o++=x;
I q,T=1<<31,B=T>>8,a,l,f[257],b,G=127,p=G,N=255;I Y(u*i,u*j){return
memcmp(i,j,l)<0;}I E(u*i,u*o){b=0;I L=0,h=0,R=T;u*c=o,*e=i+l;W(i<e){I
r=R/p,s=0;A(*i)s+=f[a];s*=r;L+=s;R=*i<N?r*f[*i++]++:R-s;p++;W(R<=B){if((L>>23)<N){for(;h;h--)P(N)P(L>>23)}else{if(L&T){o[-1]++;for(;h;h--)P(0)P(L>>23)}else
h++;}R<<=8;L<<=8;L&=T-1;}}P(L>>23)P(L>>15)P(L>>7)return
o-c;}void D(u*i,u*o){I R=128,L=*i>>1;u*e=o+l;W(o<e){W(R<=B){L<<=8;L|=((*i<<7)|(i++[1]>>1))&N;R<<=8;}I
h=R/p,m=L/h,x=0,v=0;W(v<=m)v+=f[x++];P(--x);L-=h*(v-f[x]);R=h*f[x]++;p++;}}void
main(I Z,char**v){u d[1<<16];I c=*v[1]<68,s;HANDLE F=CreateFileA(v[2],T,0,0,3,0,0),o=CreateFileA(v[3],T/2,0,0,2,0,0);ReadFile(F,d,GetFileSize(F,0),&l,0);l=c?l:*(I*)d;A(G)f[a]=1;u M[256];A(G)M[a]=a+1;u*g=new u[l*3],*h=g+l;if(c){memcpy(d+l,d,l);u**R=new
u*[l];A(l)R[a]=d+a;std::sort(R,R+l,Y);A(l){b=R[a][l-1];I
i=strchr((char*)M,b)-(char*)M;memmove(M+1,M,i);*M=g[a]=b;h[a]=i;}s=E(h,d+l+8);}else{D(d+8,g);A(l){I
k=g[a];g[a]=M[k];memmove(M+1,M,k);*M=g[a];}}u**j=new u*[l];A(l)j[a]=new
u[l*2],memset(j[a],0,l*2),j[a]+=l;A(l){for(b=0;b<l;)*--j[b]=g[b++];std::sort(j,j+l,Y);}if(c){A(l){if(!memcmp(j[a],d,l)){I*t=(I*)(d+l);*t=l;t[1]=a;g=d+l,l=s+8;}}}else
g=j[*(I*)(d+4)];WriteFile(o,g,l,&q,0);}

5

JavaScript, 393 (код) + 3521 (тест) = 3914 (всього)

Ця програма ітеративно підміняє невикористані значення байтів для 2-4-символьних фрагментів вводу. Кожна заміна оцінюється, виходячи з періодичності та довжини оригінального відрізка, і найкраща заміна вибирається кожного разу. Я би додав остаточний етап кодування Хаффмана, якби міг зрозуміти, як це зробити за відносно невеликої кількості символів. Декомпресія - це по суті ряд операцій пошуку та заміни.

Використання

C () забезпечує стиснення; U () забезпечує декомпресію. Оскільки рядки JavaScript засновані на 16-бітних одиницях коду Unicode, у стисненому форматі даних використовуються лише найменш значущі 8 біт кожної одиниці коду; це сумісно з функціями btoa () та atob () Firefox для кодування Base64. ( приклад використання )

Ця програма може працювати лише у Firefox через нестандартну опцію "g" для .replace ().

Код

Код для гольфу:

S=String.fromCharCode;function C(c){h=[];for(f=0;129>f;++f){g='';i=0;for(e=2;5>e;++e){d={};for(a=0;a<=c.length-e;a+=e)b="K"+c.substr(a,e),d[b]=d[b]?d[b]+1:1;for(b in d)a=d[b],a=a*e-(1+e+a),a>i&&(g=b.slice(1),i=a)}if(!g)break;h[f]=g;c=c.replace(g,S(127+f),"g")}return h.join("\1")+"\1"+c}function U(a){c=a.split("\1");a=c.pop();for(b=c.length,d=127+b;b--;)a=a.replace(S(--d),c[b],"g");return a}

Перед гольфом:

function compress(str) {

    var hash, offset, match, iteration, expansions, bestMatch, bestScore, times, length, score;

    expansions = [];

    for (iteration = 0; iteration < 129; ++iteration) {

        bestMatch = null;
        bestScore = 0;

        for (length = 2; length < 5; ++length) {

            hash = {};

            for (offset = 0; offset <= str.length - length; offset += length) {
                match = 'K' + str.substr(offset, length);
                hash[match] = hash[match] ? hash[match] + 1 : 1;
            }

            for (match in hash) {
                times = hash[match];
                score = times * length - (1 + length + times);
                if (score > bestScore) {
                    bestMatch = match.slice(1);
                    bestScore = score;
                }
            }

        }

        if (!bestMatch) {
            break;
        }

        expansions[iteration] = bestMatch;
        str = str.replace(bestMatch, String.fromCharCode(127 + iteration), 'g');

    }

    return expansions.join('\u0001') + '\u0001' + str;
}

function uncompress(str) {
    var i, j, expansions;

    expansions = str.split('\u0001');
    str = expansions.pop();

    for (j = expansions.length, i = 127 + j; j--;) {
        str = str.replace(String.fromCharCode(--i), expansions[j], 'g');
    }

    return str;
}

Чому я отримую C(text).length=7301? (FF 60.0.2)
l4m2

3

PHP, (347 + 6166 + 176) = 6689

Тому я пішов зі спрощеним словником + підхід до заміни.

Якщо слово з’являється кілька разів і воно коротше (кодуйте слово + збережіть запис заміни), то воно робить заміну. Якщо "слово" буває числом, воно все одно робить, щоб запобігти випадкові заміни під час декомпресії. До "словника" підстановок приєднується нульовий байт, а потім два нульові байти, а потім тіло, на якому працює підміна.

Можливі вдосконалення:

  • Windows не любить обробляти більше 4 кб даних навколо, тому знайдіть кращий спосіб, ніж використовувати файли.
  • Можливість зіставлення довгих рядків пробілів і рахувати їх як "слова", не додаючи занадто багато коду.
  • Придумати щось краще, замінивши замість числа.

Використання: компресор шукає файл під назвою "i" і записує стислі дані в "o". Декомпресор шукає "o" і записує нестиснені дані в "d". Це мій клопіткий шлях до Windows, який не любить труби даних даних навколо.


compress.php (347)

<?$d=file_get_contents('i');$z=chr(0);preg_match_all('|\b(\w+)\b|',$d,$m);$n=0;foreach($m[0]as$w){$l=strlen($w);$q[$w]=isset($q[$w])?$q[$w]+$l:$l;}arsort($q);foreach($q as$w=>$s){$l=strlen($w);$c=$s/$l;if($c*strlen($n)+$l<$s||is_int($w)){$d=preg_replace('|\b'.preg_quote($w).'\b|',$n++,$d);$f[]=$w;}}file_put_contents('o',implode($z,$f).$z.$z.$d);

Розширена версія з коментарями та поясненнями.


Зразок виводу без словника. Ніби смішно дивитись.
Нормальний розмір: 6166 .

Ah, distinctly I remember it 45 in 0 bleak December,
25 each separate dying ember wrought its ghost 39 0 37.
Eagerly I wished 0 88:--vainly I had sought to borrow
From 9 books surcease of 43--43 for 0 lost 8--
For 0 rare 1 67 40 54 0 26 38 8--
                                          Nameless 63 for evermore.

25 0 silken sad uncertain rustling of each purple curtain
Thrilled me--filled me 19 fantastic terrors never felt 17;
So 4 now, to 13 0 beating of 9 64, I stood repeating
"'T is 57 31 36 49 at 9 2 5
Some late 31 36 49 at 9 2 5;--
                                          58 it is, 1 10 16."

decpress.php (176)

<?$z=chr(0);$d=file_get_contents('o');list($w,$d)=explode($z.$z,$d);$w=explode($z,$w);$n=0;foreach($w as$r){$d=preg_replace('|\b'.$n++.'\b|',$r,$d);};file_put_contents('d',$d);

Розширена версія з поясненням.


Будь-які пропозиції щодо покращення вітаються.

Редагувати: Додано "розкручені" версії коду та додано тонни коментарів. Слід легко дотримуватися.


Гах! Та сама мова та метод, якими я користувався! Чорт. Хоча мені не вдалося пропустити окремі слова.
Гарет

що відбувається, коли в тексті є цифри? це врешті-решт замінить початкові номери на непомітне слово. Хоча я застосував аналогічний підхід (розбиття regex, знаходження загальних слів для підстановки та створення словника заміни та наклеювання його на нулі), я використав символи unicode замість чисел (починаючи з chr (128), оскільки все, що після цього не можна друкувати в стандартні асії)
Блейзер

@Blazer: Насправді існує код (а саме ||is_int($w)) для обробки чисел, завжди додаючи їх до словника, але він здається помилковим: після стиснення та розпакування всього електронного тексту Гутенберга вихід починається з The 4 3 EBook 2 The Raven, by Edgar Allan Poe. :-( Я підозрюю, що проблема полягає в тому, що щось замінюють двічі; ви можете подумати про використання, strtr()щоб уникнути цього питання.
Ільмарі Каронен

@Ilmari, якщо у вас є великий номер документа, додавання цих чисел до словника може призвести до того, що стиснення буде більшим, ніж було спочатку. зберігати кілька предметів довжиною 1-2 символів не ефективно. як якщо б ви замінили слово "a" в документі
Blazer

@Blazer - Для всіх алгоритмів стиснення є певні входи, що призведе до більшого виходу. Це властиво стисненню без втрат, як і неможливість надійно стиснути ентропічні дані.
Містер Лама

3

GolfScript, 3647 (стислий розмір 3408 + розмір коду 239)

128,{[.;]''+}%:d;8:k;{2k?={1k+:k;}*}:|;{2base}:b;{.[0]*@b+0@->}:$;.0=
{'':&,:i;1/{.d&@+?.0<{;d,i@d&@:&.0=:i;[+]+:d;k$\|}{:i;&\+:&;}if}%[0]k*+[]*8/{b}%"\0"\+}
{1>{8$}/][]*:^;{^k<b^k>:^;}:r~{.}{d,|d=:&r..d,<{d=}{;&}if[1<&\+]d\+:d;}while;}if

Використовуваний алгоритм - стиснення LZW з кодами змінної ширини. Перший рядок - це спільний код, другий - код стиснення, а третій - код декомпресії.

Він обробляє файли з символами ASCII в діапазоні 1-127, і він розпізнає стислі файли автоматично (вони починаються з 0 байтів), тому для декомпресії не потрібні параметри.

Приклад виконання:

$ md5sum raven.txt
286206abbb7eca7b1ab69ea4b81da227  raven.txt
$ ruby golfscript.rb compress.gs < raven.txt > raven.lzw
$ ls -l raven.lzw
-rw-r--r-- 1 ahammar ahammar 3408 2012-01-27 22:27 raven.lzw
$ ruby golfscript.rb compress.gs < raven.lzw | md5sum
286206abbb7eca7b1ab69ea4b81da227  -

Примітка: я розпочав це задовго до того, як була додана вимога обробляти 100 кбіт, тому я не перевіряв його на введенні такого розміру. Однак потрібно 30 секунд для стиснення тестового входу і 5 секунд для його декомпресії, використовуючи приблизно 20 МБ пам'яті на піку.


Стискаючи файл розміром 76 Кб , здається, займає близько 19 хвилин, в той час як розпакуванню він приймає 10. Це є свого роду повільний, але знову ж , це робить передати оригінальні правила, так що ... Я НЕ знаю. Начебто несправедливо не допускати цього за обставин. Я здогадуюсь, я міг би викликати неявну "дідову пропозицію" для вас чи чогось іншого.
Ільмарі Каронен

3

Хаскелл, 3973

Пізно на вечірку, і не збираюся вигравати, але мені було весело писати це, щоб я міг також розмістити його.

Це проста реалізація змінної ширини LZW, зі словником, чітко обмеженим для друку ASCII, вкладками та рядком передачі рядків. Запуск без аргументів, він стискає стандартний вхід у файл C. Запустити з будь-яким аргументом (але "- decompress" було б розумною ставкою), він розпаковує файл Cдо стандартного виводу.

import List
import System
import Data.Binary
q=head
main=getArgs>>=m
m[]=getContents>>=encodeFile"C".s 97 128 1 0.e 97h
m _=decodeFile"C">>=putStr.d tail""96h.u 97 128
h=zip[0..].map(:[])$"\t\n"++[' '..'~']
e _ _[]=[]
e n s y=c:e(n+1)((n,take(1+l)y):s)(drop(l)y)where{Just(c,p)=find((`isPrefixOf`y).snd)s;l=length p}
d _ _ _ _[]=""
d f p n s(x:y)=t++d id t(n+1)(f$(n,p++[q t]):s)y where t=maybe(p++[q p])id$lookup x s
s _ _ _ a[]=a::Integer
s n w o a y|n>w=s n(2*w)o a y|0<1=s(n+1)w(o*w)(a+o*q y)(tail y)
u _ _ 0=[]
u n w x|n>w=u n(2*w)x|0<1=(x`mod`w::Integer):u(n+1)w(x`div`w)
  • розмір коду: 578
  • Розмір стисненого зразка: 3395
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.