Стиснення лабіринту ASCII

Виклик

Розробіть алгоритм стиснення, спеціалізований для стиснення лабіринтів ASCII. Вам потрібно буде створити як алгоритм стиснення, так і алгоритм декомпресії. Ваш результат буде базуватися на розмірі стислих лабіринтів.

Лабіринти

Ці лабіринти зроблені в основному з персонажів (поверхів), +, -, |, і #(стіни), і рівно один кожне з ^(початок) і $(кінець). Вони також можуть містити літери ASCII, які вважаються плиткою для підлоги. Для цілей цього виклику лабіринти не повинні вирішуватися, а власне значення вмісту лабіринту не має значення.

+ буде використовуватися для стінових комірок, де є щонайменше одна горизонтально сусідня стінка комірки і щонайменше одна вертикально сусідня стінка комірки.
| буде використовуватися для стінових комірок, де є щонайменше одна вертикально сусідня стінка комірки, але немає горизонтально сусідніх стінових комірок.
- буде використовуватися для стінових комірок, де є хоча б одна комірка стінки по горизонталі, але немає вертикально сусідніх стінових комірок
# буде використовуватися лише для стінових клітин, які не ортогонально примикають до інших стінових клітин.

Всі лабіринти прямокутні, але не обов'язково мають регулярне вирівнювання сітки / стіни.

Лабіринти стискати

Лабіринт 1

+----+----
|  o |    |
| -- | o--+
|    | |  $
 --^-+-+---

Лабіринт 2

+-----+---+
|  a  |   |
^ +-+-+ # |
| | |  B  |
| | | --+ |
|   c   | $
+-------+--

Лабіринт 3

----------+-+-+-----+-+
^         | | |     | |
+-- --+R #  | |p| | | |
|     | |       | |   |
+---+ +-+-+-- +-+ | | |
|  m| | | |   |   | | |
| +-+ | | | | | --+ | |
| | |    h  | |   | | |
| | | | | |  #  --+-+ |
|     | | | | |  S|   $
+-----+-+-+-+-+---+----

Лабіринт 4

+-----+---+-+---+-------^-----+
|     |x  | |   |     tsrq    |
+-+-- +-- | +--  #  --+---- --+
| |   |           |   |       |
| | | | | +-+-+---+ | +-- | +-+
| | | u | | | |     | |   | | |
| +-+ | | | | +---- +-+---+ | |
| |   | |   |    y  |       w |
| | --+ | --+ +-- | +---- | | |
|     | |   | |   | |     | | |
+-- --+ +-+ | | | | +-- | +-+-+
|     | | |   | | | |   |     |
$ | --+-+ | --+-+ | +-+-+-- --+
| |   |      z|   |   |    v  |
+-+---+-------+---+---+-------+

Лабіринт 5

++ -----------+
++-       Beep|
$  ----+---+--+
+-+boop|   |  |
| +--- | | | ++
|      | |  +++
+------+-+--+ ^

Лабіринт 6

+-$---------------+-+--
|                 | |j 
| |l ---- # ---+ |  |  
| | |       m  | +--+ |
| | | +-+---- #       |
| | | | |      +----+ |
|o| | | | +----+    | |
|       | |    | -- | |
| | | | | | -+ |    | |
| | | | |  | | +--- | |
| | | | +- | | |   | ++
+-+ |n| |  | ++ +--+ | 
    | |   -+- | |  | +-
+---+ +---    |  | |  ^
|    |     --+ --+ | | 
| -- | |  k  |     | ++
|    | |      +--- | ++
|    |      | |    |  |
+-- -+----  | +----+--+

Лабіринт 7

+---+-+-------------+-+^+-----+-------+---+-+---+-+---+-+---+
|   |c|             | | |  c  |       |   | |   | |   |c|   |
+-- | | +-- +-- # | | | +-- --+ +---- +-- | +-+ | | +-+ | --+
|       |   |     | |           |         |   | |c| |       |
| | +-- | +-+-- +-+ +-- # +- # -+-- +-- | | --+ | | | | --+C|
|c| |   | | c   |         |         |c  |             |   | |
+-+-+---+-+-----+---------+---------+---+-------------+---+$|

Лабіринт 8

------+-+-+---+-+---+-----------+---+-----+---------------+-+
^     | | |   | |   |           |   |     |      r        | |
+-- | | | t | | +-- +----- # ---+-- +-- --+-- ----+-+ --+ | |
|   |   | | |   |   |         r |   |             | |   |   |
| | | | | +-+ --+ --+-- --------+-- | ----+ --+ | | | --+ | |
| |r| |            rotation               |   | |   |   | | $
+-+-+-+-----------------------------------+---+-+---+---+-+--

Лабіринт 9

|$|^--+-+---+-----+-+---+-+-+---+---+-+---+-----+
| |   | |   |     | |   | | | f |   | |   |     |
| +-+ | | # +-+ --+ +-+ | | | # | +-+ +-- | ----+
|   |       | |    f| |           | | |   |   f |
| |F+-+ | | | | +---+ | | | ----+-+ | | --+ --+-+
| |   | | |     |     | | |   f |   |         | |
| | | | +-+-+---+-- | | | +-+-+-+ +-+ +--- # -+ |
| | | |     |   |   |   | | | |   | | |         |
+-+-+ | +---+ --+ | +---+-+ | | --+ f | | | | --+
|     | |         |                 | | | | |   |
| --+f| | | +-- --+--f--+ --+ | ----+ | +-+ +---+
|   |     | |     |     |   | |           |     |
+---+-----+-+-----+-----+---+-+-----------+-----+

Лабіринт 10

+-----+-+-----------+
|  q  | |         q |
|Q+-+ | +-+-+-+---- |
$ | |     | | |  q  |
+-+ | | | | | +-- +-+
| |   | |     |   | |
| +-- +-+ |q| +-+ | |
|    q|   | |   |   |
| | | +-- | +-+ | --+
| | | |   | | |     |
+-+-+-+ +-+-+ +-- | |
|       |         | |
+--- # -+ | | +-- | |
|  q      | | |   | ^
+-+ +-- | | +-+ | +-+
| | |   | |q|   |   |
| +-+-+ | +-+-- | | |
|     | | |     | | |
| | | +-+-+-- +-+ +-+
| | |         | q   |
+-+-+---------+-----+

Правила, припущення, оцінка

Стандартні лазівки заборонені
- Напишіть загальну програму, а не ту, яка працює лише для десяти тестових випадків. Він повинен вміти обробляти будь-який довільний лабіринт.
Ви можете припустити, що буде рівно один вхід і один вихід. Входи та виходи завжди будуть на кордоні лабіринту.
Ви можете припустити, що всі входи використовують стіни, які відповідають переліченим вище правилам. Ваш алгоритм стиснення не повинен працювати для лабіринтів, що містять стіни, які порушують ці правила.
Лабіринти введення можуть бути, а можуть і не вирішуватися.
Ви можете припустити, що лабіринт буде не більше 100 символів в будь-якому напрямку.
Ви можете припустити, що літери не з’являться на краю лабіринту. (оскільки це стосується поданих прикладів)
Ваш бал - це загальний розмір усіх стислих лабіринтів у байтах (октетах).
- Ви можете використовувати шістнадцятковий, base64, двійкові рядки або будь-який подібний формат як подання для стисненого лабіринту, якщо вам це зручніше. Ви все одно повинні підраховувати результат цілими октетами, округлими для кожного лабіринту (наприклад, 4 базових 64 цифри - 3 байти, 2 шістнадцяткових цифр - 1 байт, 8 двійкових цифр - 1 байт і т.д. ...)
- Найнижчий рахунок виграє!

— Біфстер
джерело

Чи є обмеження розміру на лабіринті?

— Втілення

@EmbodimentofIgnorance 100x100

— Beefster

@Arnauld насправді це було проблемою копіювання, але я думаю, що SE форматування смужок пробілів у кінці рядка все одно. Так, це повинно бути з пробілом.

— Beefster

@ChasBrown, що вважається стандартною лазівкою, це означає, що вона заборонена за замовчуванням.

— Beefster

@schnaader, що здається розумним з огляду на приклади тестових випадків.

— Beefster

Відповіді:

JavaScript (Node.js) , оцінка = 586 541 503 492 479 байт

Стіни зберігаються як кодований Хаффманом потік бітів, що описує, повертає чи ні функція передбачення правильну здогадку, чи ні.

Спеціальні символи зберігаються як $(d, c)$ , де $d$ - відстань від попереднього спеціального символу і $c$ є кодом ASCII.

Спробуйте в Інтернеті!

Поширені

const HUFFMAN = [
  '00',       // 0000
  '010',      // 0001
  '1001',     // 0010
  '11100',    // 0011
  '011',      // 0100
  '101',      // 0101
  '11110',    // 0110
  '100010',   // 0111
  '110',      // 1000
  '11101',    // 1001
  '1111100',  // 1010
  '1111101',  // 1011
  '10000',    // 1100
  '1111110',  // 1101
  '100011',   // 1110
  '1111111'   // 1111
];

let bin = (n, w) => n.toString(2).padStart(w, '0');

let wallShape = (row, x, y) => {
  let vWall = (row[y - 1] || [])[x] | (row[y + 1] || [])[x],
      hWall = row[y][x - 1] | row[y][x + 1];

  return ' -|+'[row[y][x] ? vWall * 2 | hWall : 0];
}

let predictWall = (row, x, y, w, h) => {
  let prvRow = row[y - 1] || [];
  return !x | !y | x == w - 1 | y == h - 1 | (prvRow[x] | row[y][x - 1]) & !prvRow[x - 1];
}

Стиснення

let pack = str => {
  let row = str.split('\n').map(r => [...r]),
      w = row[0].length,
      h = row.length;

  let wall = row.map((r, y) => r.map((c, x) => +/[-+|]/.test(c)));

  if(row.some((r, y) => r.some((c, x) => wall[y][x] && wallShape(wall, x, y) != c))) {
    throw "invalid maze";
  }

  row = wall.map((r, y) => r.map((v, x) => predictWall(wall, x, y, w, h) ^ v));
  row = row.map(r => r.join('')).join('');
  row = row.replace(/.{1,4}/g, s => HUFFMAN[parseInt(s.padEnd(4, '0'), 2)]);

  str =
    str.replace(/[\n|+-]/g, '').replace(/ *(\S)/g, (s, c) => {
      let n = c.charCodeAt(),
          i = '^$#'.indexOf(c);

      return (
        bin(s.length > 63 ? 0xFC000 | s.length - 1 : s.length - 1, 6) +
        bin(~i ? i : n < 91 ? (n > 80 ? 0x1F0 : 0x1E0) | ~-n & 15 : n - 94, 5)
      );
    }).trim();

  return (
    Buffer.from(
      (bin(w, 7) + bin(h, 7) + row + str)
      .match(/.{1,8}/g).map(s => parseInt(s.padEnd(8, '0'), 2))
    ).toString('binary')
  );
}

Декомпресія

let unpack = str => {
  str = [...str].map(c => bin(c.charCodeAt(), 8)).join('');

  let x, y, n, i, s,
      ptr = 0,
      read = n => parseInt(str.slice(ptr, ptr += n), 2),
      w = read(7),
      h = read(7),
      row = [];

  for(x = s = ''; s.length < w * h;) {
    ~(i = HUFFMAN.indexOf(x += read(1))) && (s += bin(i, 4), x = '');
  }
  for(i = y = 0; y < h; y++) {
    for(row[y] = [], x = 0; x < w; x++) {
      row[y][x] = predictWall(row, x, y, w, h) ^ s[i++];
    }
  }

  row = row.map((r, y) => r.map((c, x) => wallShape(row, x, y)));

  for(i = 0; str[ptr + 10];) {
    for(
      n = (n = read(6)) == 0x3F ? read(14) + 1 : n + 1;
      n -= row[i / w | 0][i % w] == ' ';
      i++
    ) {}

    row[i / w | 0][i % w] = String.fromCharCode(
      (n = read(5)) >= 0x1E ? read(4) + (n == 0x1F ? 81 : 65) : [94, 36, 35][n] || n + 94
    );
  }
  return row.map(r => r.join('')).join('\n');
}

Як?

Лабіринт кодується як бітовий потік, який з часом перетворюється на рядок.

Заголовок

Заголовок складається з:

ширина $w$ на 7 біт
висота $h$ на 7 біт

Дані про стіни

Ми проходимо весь лабіринт і намагаємося передбачити, чи буде наступна стінка стіною чи ні, виходячи з раніше зустрічаються клітинок. Ми випускаємо a $0$ якщо ми правильні, або $1$ якщо ми помиляємось

Це призводить до послідовності виправлення бітів з (сподіваємось) значно більше $0$ з чим $1$ 's. Ця послідовність розбита на нібелі та зберігається за допомогою жорстко закодованих кодів Хаффмана:

00 → 0000
010 → 0001
1001 → 0010
11100 → 0011
011 → 0100
тощо.

Для декодування стіни $W_n$ , програма декомпресії обчислює те саме прогнозування $P_n$ і перемикає результат, якщо потрібно, використовуючи поправочний біт $C_n$ :

W_{н} = П_{н} \oplus С_{н}

$W_n=P_n\oplus C_n$

Остаточні форми стін виводяться подібним до відповіді Ніка Кеннеді .

Спеціальні символи

Кожні спеціальні символи кодуються як:

Відстань мінус $1$ від останнього спеціального символу (ігнорування стін):
- на 6 біт, якщо менше $63$
- або як $111111$ + 14 біт інакше (ніколи не використовується в тестових випадках, але вимагається теоретично)
Код символу:
- на 5 біт , якщо це ^, $, #або[a-z]
- або $11110$ + 4 біти для [A-O]
- або $11111$ + 4 біти для [P-Z]

— Арнольд
джерело

Ви пробували інші алгоритми стиснення deflate? На полиці їх надзвичайно багато!

— dfeuer

Немає жодного правила, яке говорить про те, що він повинен працювати в TIO!

— dfeuer

O_o приємно, цікаво, чи допоможе десяткове стиснення взагалі (в основному, протилежне Huffman, пробіл від 0 до 1, розділений на розділи з довільним розміром (<1 звичайно), а кодування - це найкоротше двійкове число, яке підпадає під правильний фрагмент простору

— лише для ASCII

Десяткове кодування @ ASCII (також арифметичне кодування) безумовно повинно покращити коефіцієнт стиснення, але, ймовірно, невеликим запасом на такому короткому потоці даних. Я впевнений, що можна вдосконалити кодування Хаффмана та / або функцію передбачення перед переходом на арифметичне кодування (хоча вони обидва зараз є основними).

— Арнольд

@ ASCII лише для прикладу, мабуть, я повинен спробувати більш довгі коди (використання nibbles є довільним). Я також міг би додати 1-бітний прапор у заголовку, який повідомляє, чи слід розпаковувати дані зі статичними кодами Хаффмана за замовчуванням або з динамічними кодами (якщо виявиться, що покращують стиснення деяких лабіринтів). Я намагався повернути лабіринт на 90 ° і подивитися, чи стискається краще. Але це врятувало лише 1 байт.

— Арнольд

R, набрав 668 байт

Цим користується той факт, що характер стіни визначається його оточенням. Таким чином, настінні символи можуть кодуватися як біти. Інша інформація, яку потрібно зберегти, - це розміри лабіринту, положення старту та фінішу та позиції будь-яких інших символів, що не належать до стін. Оскільки символи, що не належать до стін, - це ASCII, я використав найзначніший біт кожного байта, щоб вказати, чи є інший символ, який слід, щоб деякі слова в лабіринтах не мали зберігати місце кожного символу окремо. Зауважте також, що для лабіринтів менше або рівних 256 символів (наприклад, до 16х16 або еквівалентних прямокутних лабіринтів) позиції можуть зберігатися в одному байті, тоді як для великих лабіринтів позиції потрібні два байти.

Функціональні функції

r <- as.raw

int_as_raw <- function(int, bytes = 2) {
  if (bytes == 1) {
    r(int)
  } else {
    do.call(c, lapply(int, function(.x) r(c(.x %/% 256, .x %% 256))))
  }
}

raw_as_int <- function(raw, bytes = 2) {
  if (bytes == 1) {
    as.integer(raw)
  } else {
    sapply(
      seq(1, length(raw) - 1, 2),
      function(.x) as.integer(as.integer(raw[.x + 0:1]) %*% c(256, 1))
    )
  }
}

Алгоритм стиснення

compress_maze <- function(maze) {
  maze_array <- do.call(rbind, strsplit(maze, ""))
  simple_maze <- r(maze_array %in% c("+", "#", "-", "|"))
  simple_maze <- packBits(c(simple_maze, rep(r(0), (8 - length(simple_maze)) %% 8)))
  maze_dim <- int_as_raw(dim(maze_array), 1)
  bytes_needed <- 1 + (length(maze_array) > 256)
  start_finish <- int_as_raw(sapply(c("^", "$"), function(.x) which(maze_array == .x)) - 1, bytes = bytes_needed)
  other_ascii_locs_rle <- rle(!(maze_array %in% c(" ", "+", "#", "-", "|", "$", "^")))
  other_ascii_locs <- cumsum(
    c(1, other_ascii_locs_rle$lengths[-length(other_ascii_locs_rle$lengths)])
  )[other_ascii_locs_rle$values]
  other_ascii_locs_length <- other_ascii_locs_rle$lengths[other_ascii_locs_rle$values]

  encode_ascii <- function(loc, len) {
    text <- charToRaw(paste(maze_array[loc:(loc + len - 1)], collapse = ""))
    if (len > 1) {
      text[1:(len - 1)] <- text[1:(len - 1)] | r(128)
    }
    c(int_as_raw(loc - 1, bytes = bytes_needed), text)
  }

  other_ascii_encoded <- Map(encode_ascii,
    other_ascii_locs,
    other_ascii_locs_length
    )
  other_ascii_encoded <- do.call(c, other_ascii_encoded)
  c(maze_dim, simple_maze, start_finish, other_ascii_encoded)
}

Алгоритм декомпресії

decompress_maze <- function(c_maze) {
  dim_maze <- as.integer(c_maze[1:2])
  len_maze <- prod(dim_maze)
  len_maze_b <- ceiling(len_maze / 8)
  bit_maze <- rawToBits(c_maze[-(1:2)])[1:len_maze]
  dim(bit_maze) <- dim_maze
  bit_maze[-1, ] <- bit_maze[-1, ] | rawShift(bit_maze[-nrow(bit_maze), ] & r(1), 1)
  bit_maze[-nrow(bit_maze), ] <- bit_maze[-nrow(bit_maze), ] | rawShift(bit_maze[-1, ] & r(1), 1)
  bit_maze[, -1] <- bit_maze[, -1] | rawShift(bit_maze[, -ncol(bit_maze)] & r(1), 2)
  bit_maze[, -ncol(bit_maze)] <- bit_maze[, -ncol(bit_maze)] | rawShift(bit_maze[, -1] & r(1), 2)
  bit_maze[(bit_maze & r(1)) == r(0)] <- r(0)
  array_maze <- c(" ", "#", "|", "-", "+")[(as.integer(bit_maze) + 1) %/% 2 + 1]
  dim(array_maze) <- dim_maze
  bytes_needed <- 1 + (len_maze > 256)
  start_finish <- raw_as_int(c_maze[2 + len_maze_b + 1:(bytes_needed * 2)], bytes_needed) + 1
  array_maze[start_finish] <- c("^", "$")
  i <- 3 + len_maze_b + 2 * bytes_needed
  while (i < length(c_maze)) {
    loc <- raw_as_int(c_maze[i + 1:bytes_needed - 1], bytes_needed) + 1
    i <- i + bytes_needed
    text <- character(0)
    while (c_maze[i] & r(128)) {
      text <- c(text, rawToChar(c_maze[i] & r(127)))
      i <- i + 1
    }
    text <- c(text, rawToChar(c_maze[i]))
    array_maze[loc:(loc + length(text) - 1)] <- text
    i <- i + 1
  }
  apply(array_maze, 1, paste, collapse = "")
}

Спробуйте в Інтернеті!

— Нік Кеннеді
джерело

Я знав, що ви зможете зберігати стіни як біти, але мені подобається ваш підхід до стискання даних про положення не символів. +1

— Ніл