Стиснення паліндром


15

Виклик

Напишіть програму, яка без втрат стискає та стискає текст ASCII. Він повинен бути спеціалізованим для того, щоб добре працювати з паліндромами, включаючи нечутливі до регістру та нечутливі до паліндроми пунктуації. Виграє найкраще стиснення з найменшим джерелом.

Оцінка балів

total_bytes_saved / sqrt(program_size) - Найвищий результат виграє

total_bytes_saved- на скільки байтів менше стислих рядків, ніж оригінали, загалом у наведених нижче тестах. program_size- розмір вихідного коду в байтах програми стиснення та декомпресії. Код, поділений між двома, потрібно рахувати лише один раз.

Наприклад, якщо є 10 тестових випадків і 100-байтна програма зберегла 5 байт на 7 тестових випадках, 10 у кожній - 2, але останній тестовий випадок був на 2 байти довший, рішення набрало б 5,3 бала. ( (7 * 5 + 10 * 2 - 2) / sqrt(100) = 5.3)

Випробування

  • tacocat
  • toohottohoot
  • todderasesareddot
  • amanaplanacanalpanama
  • wasitacaroracatisaw?
  • Bob
  • IManAmRegalAGermanAmI
  • DogeeseseeGod
  • A Santa at NASA
  • Go hang a salami! I'm a lasagna hog.

Правила

  1. Застосовуються стандартні лазівки.
  2. Стиснення має працювати на всіх друкованих текстових рядках ASCII (байтів 32-126, включно), а не лише паліндромах. Однак насправді не потрібно економити місце для будь-яких входів.
  3. Виведенням може бути будь-яка послідовність байтів або символів, незалежно від їх реалізації чи внутрішнього представлення (рядки, списки та масиви - це, наприклад, чесна гра). Якщо кодування до UTF-8, рахуйте байти, а не символи. Широкі рядки (наприклад, UTF-16 або UTF-32) заборонені, якщо тільки використовувані точкові коди можуть бути від 0 до 255.
  4. Вбудовані стискання / декомпресії не дозволяються.

Задля нашого задоволення розміщуйте стислі рядки зі своїм вихідним кодом.

ОНОВЛЕННЯ 1: Зарахування балів змінюється total_bytes_saved / program_sizeна total_bytes_saved / sqrt(program_size), щоб надати більше ваги для кращого стиснення та меншої ваги для агресивного гольфу. Відповідно підкоригуйте свої бали.

UPDATE 2: фіксований , wasitacaroraratisaw?щоб бутиwasitacaroracatisaw?


2
Якщо вхідні знаки, пунктуація та пробіл видаляються з вхідних даних, чи гарантується, що введення буде суворим паліндром? Edit: nevermind - я бачу, що wasitacaroraratisaw?це контрприклад тому
Digital Trauma

2
Який діапазон символів ASCII ми повинні підтримувати у введенні? Це [32-126]?
Арнольд

1
Так, я не думаю, що ця 1000 *частина справді потрібна, і ні, я не думаю, що це зробить партитуру більш «задовольняючою»;)
Ерік Атгольфер

1
Чи можемо ми використовувати вбудовані стиснення / декомпресію?
Лінн

4
Маючи так мало входів, не так багато можливостей робити щось розумне. Було б непогано мати хоч у кілька разів більше.
user1502040

Відповіді:


16

JavaScript (ES6), 3.143 (збережено 81 байт, 664 байт програма)

R='replace',S=String.fromCharCode,T=c=>c.charCodeAt(),U='toUpperCase',V='0000000',W=(a,b,c=2)=>a.toString(c).slice(b),X=x=>'0b'+x,Y=a=>[...a].reverse().join``,Z=/[^]/g
C=s=>S(...((Y(q=s[U]()[R](/[^A-Z]/g,m=''))==q?(q=q.slice(0,p=-~q.length/2),p%1&&10):11)+q[R](Z,x=>W(T(x),2))+111+s[R](Z,c=>/[a-z]/.test(c)?W("00",m,m=1):m+(/[A-Z]/.test(c,m='')?"01":W(c<'!'?2:T(c)+384)))+V).match(/(?!0+$).{8}/g).map(X))
D=s=>{s=s[R](Z,c=>W(256+T(c),1))+V;M=r=>(s=s[R](p=s.match(`^${r}|`)[0],''),p);for([,a]=M`1.|0`,t=u=i='';!M`111`;)t+=W(X(M`.{5}`)-~8,0,36);for(t+=W(Y(t),a?a/0:1);p;)u+=M`0(?=00)|00?1`?(c=t[i++])?+p[1]?c[U]():c:'':M`10`?' ':M`11`&&S(X(M`.{7}`));return u+W(t,i)}

Тепер, коли я цілком задоволений цією програмою (та системою балів), я напишу трохи пояснень.

Основна ідея - стиснути вхід у рядок біт, після чого стиснути кожен набір з 8 біт у байт. З метою пояснення я просто маніпулюю біт-рядком.

Рядок бітів можна розділити на кілька розділів:

input  -> Taco Cat.
output -> 0101000000100011011111110100001100100011101011100000000

0      | 10100 00001 00011 01111 111 | 01 00001 10 01 0001 110101110
header | letter data                 | styling data

Заголовок - це дуже просте відображення:

0  -> odd-length palindrome
10 -> even-length palindrome
11 -> non-palindrome

Дані листів також досить прості. По-перше, всі не букви витягуються з рядка, а всі літери перетворюються у великі регістри. Якщо отримана струна є паліндром, перевернуту половину роздягають. Потім застосовується таке відображення:

A -> 00001
B -> 00010
C -> 00011
D -> 00100
...
Z -> 11010

Цей розділ припинено 111 . Після цього надходять дані стилізації, в яких зберігаються великі та малі дані та інші літери. Це працює так:

01 -> next letter as uppercase
0...01 (n 0s) -> next (n-1) letters as lowercase
10 -> space
11xxxxxxx -> character with code point 0bxxxxxxx

Отже, переглядаючи приклад, показаний вище, ми маємо

header: 0 -> palindrome
letter data: 10100 00001 00011 01111 111 -> taco
styling data:
  01        -> T
  00001     -> aco
  10        -> <space>
  01        -> C
  0001      -> at
  110101110 -> .

Коли кінець бітового рядка буде досягнуто, до результату додаються всі залишилися символи з літерних даних. Це позбавляє нас від необхідності робити останнє 000...001і дозволяє усімати ці біти з рядка.

Перевірка тестів:

tacocat -> 3 bytes (-4)
    24 bits: 010100000010001101111111
toohottohoot -> 5 bytes (-7)
    35 bits: 10101000111101111010000111110100111
todderasesareddot -> 7 bytes (-10)
    49 bits: 0101000111100100001000010110010000011001100101111
amanaplanacanalpanama -> 8 bytes (-13)
    59 bits: 00000101101000010111000001100000110000001011100000100011111
wasitacaroracatisaw? -> 11 bytes (-9)
    84 bits: 010111000011001101001101000000100011000011001001111111000000000000000000001110111111
Bob -> 2 bytes (-1)
    16 bits: 0000100111111101
IManAmRegalAGermanAmI -> 13 bytes (-8)
    98 bits: 00100101101000010111000001011011001000101001110000101100111010100010100101000001010100000010100101
DogeeseseeGod -> 7 bytes (-6)
    54 bits: 000100011110011100101001011001100101111010000000000101
A Santa at NASA -> 8 bytes (-7)
    63 bits: 100000110011000010111010100000011110110010000011000011001010101
Go hang a salami! I'm a lasagna hog. -> 20 bytes (-16)
   154 bits: 1000111011110100000001011100011100001100110000101100000010110101001111010011000000110001100000000111010000110011101001110011000110000000001100000111010111

Ого. Я дуже вражений таким підходом. Я б ніколи не думав робити таке кодування трохи. (Я думав про випак упаковки ASCII в 7 біт, але не економить багато місця для паліндромів) Мені вражає, що вам вдалося заощадити місце Bob.
Beefster

4
Це чудовий приклад основ техніки. Беручи опис проблеми, думаючи про різні способи її вирішення та здійснюючи компроміси між вимогами (тобто, скільки біт присвятити різним стилям) тощо
Роберт Фрейзер,

@Beefster Дякую :-) Bobдійсно просто став на місце - 1 біт для заголовка, 10 + 3 біти для двох літер та 2 біти для однієї великої літери. Я не міг би зробити його коротшим, якби я спробував
усе, що

1
@KevinCruijssen проблема полягає в тому, що додана річ - це рядок, тому вона спочатку повинна бути перетворена на число. Цей байт коротший, ніж-0+9
ETHproductions

1
@ETHproductions Ну звичайно (не помітив, що це струна)! +9би привласнив рядок, тоді як -~8робив би +9арифметично (оскільки -нічого не робить для рядків, тому інтерпретує його як число). У цьому випадку -~8досить розумно. :) Приємна відповідь btw, +1 від мене! Дуже розумно зберігати всю інформацію в таких бітах, навіть економивши байт Bob.
Kevin Cruijssen

2

Python 2: 2.765 (збережено 70 байт, програма 641 байт)

Я трохи змінив свій підхід. Зараз він добре працює на недосконалих паліндромах. Немає стислих рядків, які будуть довші вхідних. Ідеальні паліндроми рівної довжини завжди стискатимуть до 50% від початкового розміру.

A=lambda x:chr(x).isalpha()
def c(s):
 r=bytearray(s);q=len(r);L=0;R=q-1;v=lambda:R+1<q and r[R+1]<15
 while L<=R:
  while not A(r[L])and L<R:L+=1
  while not A(r[R])and R:
   if v()and r[R]==32:r[R]=16+r.pop(R+1)
   R-=1
  j=r[L];k=r[R]
  if A(j)*A(k):
   if L!=R and j&31==k&31:
    r[L]+=(j!=k)*64;r[R]=1
    if v():r[R]+=r.pop(R+1)
   else:r[L]|=128;r[R]|=128
  L+=1;R-=1
 while r[-1]<16:r.pop()
 return r
def d(s):
 r='';t=[]
 for o in s:
  if 15<o<32:r+=' ';o-=16
  while 0<o<16:r+=chr(t.pop());o-=1
  if o==0:continue
  if 127<o<192:o-=64;t+=[o^32]
  elif o>192:o-=128
  elif A(o):t+=[o]
  r+=chr(o)
 while t:r+=chr(t.pop())
 return r

Результати

'tacocat' <==> 'tac\xef'
4/7 (3 bytes saved)
'toohottohoot' <==> 'toohot'
6/12 (6 bytes saved)
'todderasesareddot' <==> 'todderas\xe5'
9/17 (8 bytes saved)
'amanaplanacanalpanama' <==> 'amanaplana\xe3'
11/21 (10 bytes saved)
'wasitacaroracatisaw?' <==> 'wasita\xe3ar\xef\x09?'
12/20 (8 bytes saved)
'Bob' <==> '\x82\xef'
2/3 (1 bytes saved)
'IManAmRegalAGermanAmI' <==> 'I\x8d\xa1n\x81m\x92e\xa7\xa1\xec'
11/21 (10 bytes saved)
'Dogeeseseegod' <==> '\x84ogees\xe5'
7/13 (6 bytes saved)
'A Santa at NASA' <==> 'A S\xa1\xaeta\x12\x14'
9/15 (6 bytes saved)
"Go hang a salami! I'm a lasagna hog." <==> "\x87o hang a salam\xa9!\x11'\x01\x11\x17\x13."
24/36 (12 bytes saved)

І як бонус, це економить 6 байт на моєму неправильному паліндромі, який я мав раніше.

'wasita\xe3ar\xef\x02\xf2\x06?' <==> 'wasitacaroraratisaw?'
6 bytes saved

Пояснення

Для декомпресії використовується стек. Кодові точки 32-127 трактуються буквально. Якщо символом є літера, значення також висувається на стек. Значення 128-192 використовуються для обернених букв, тому лист, o^32що перевернувся регістром ( через те, як розкладено ASCII), висувається на стек, а звичайний лист додається до рядка. Значення 192-255 використовуються для додавання букв без натискання на стек, тому це використовується, коли літери не збігаються, а для середньої літери у паліндромах непарної довжини. Кодові точки 1-15 вказують на те, що стік повинен вискакуватися стільки разів. Кодові точки 17-31 схожі, але вони надрукують пробіл, перш ніж вискакувати зі стека. Також в кінці вводу є неявна інструкція "проскакувати до порожнього".

Компресор працює з обох кінців і складається у відповідні літери як значення 1-31. Він пропускає не букви. Коли букви збігаються, але справа не відповідає, вона додає 64 до лівої літери та збільшує праву літеру. Це дозволяє економити місце на IManAmRegalAGermanAmI. В середині або коли букви не збігаються, вона становить 128 в обидві сторони. Я не можу додати туди, бо мені потрібно уникати особливого випадку, коли left == right. Складаючи сусідні маркери попсу з правого боку, я повинен перевірити, чи сусідній не перелиється в кодову точку 16, бо мені це потрібно для пробілів. (Це насправді не проблема для жодного з рядків тестового випадку)

РЕДАКТИКА 1 : Більше жодної версії, що не перебуває у віці.


1

Python3, 1,833 (збережено 25 байт, програма 186 байт)

Просто просте ентропійне кодування на 0 порядку. Немає оптимізацій щодо паліндром.

def C(s):
    u=0
    for c in s:u=u*96+ord(c)-31
    return u.to_bytes((u.bit_length()+7)//8,'big')
def D(a):
    u,s=int.from_bytes(a,'big'),''
    while u:s,u=s+chr((u%96)+31),u//96
    return s[::-1]

0

Java 8, оцінка: 1.355 (збережено 20 байт / 218 (107 + 111) байт)

Функція стиснення (містить три недруковані символи ASCII):

s->{int l=s.length();return s.contains(new StringBuffer(s).reverse())?s.substring(l/2)+(l%2<1?"":""):s;}

Функція декомпресії (містить два недрукованих символи ASCII):

s->{return s.contains("")?new StringBuffer((s=s.replaceAll("","")).substring(s.length()&1^1)).reverse()+s:s;}

Пояснення:

Спробуйте в Інтернеті.

Тільки стискає ідеальні паліндроми.

s->{                      // Method with String as both parameter and return-type
  int l=s.length();       //  Get the length of the input
  return s.contains(new StringBuffer(s).reverse())?
                          //  If the input is a palindrome:
    s.substring(l/2)      //   Only return the second halve of the String
    +(l%2<1?"":"")        //   + either one (if even) or two (if odd) unprintables 
   :                      //  Else:
    s;}                   //   Simply return the input again

s->{                      // Method with String as both parameter and return-type
  return s.contains("")?  //  If the input contains an unprintable:
    new StringBuffer((s=s.replaceAll("",""))
                          //   Remove the unprintables
                     .substring(s.length()&1^1))
                          //   And take either the full string (if even),
                          //   or minus the first character (if odd)
    .reverse()            //    And reverse that part
    +s                    //   And append the rest of the input (minus the unprintables)
   :                      //  Else:
    s;}                   //   Simply return the input again
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.