Відновлення втраченого веб-сайту без резервної копії?


262

На жаль, наш хостинг-провайдер зазнав 100% втрати даних, тому я втратив весь вміст для двох розміщених веб-сайтів блогу:

(Так, так, я абсолютно повинен був зробити повне резервне копіювання за межами сайтів. На жаль, всі мої резервні копії були на самому сервері. Тому збережіть лекцію; ви на 100% абсолютно праві, але це мені зараз не допомагає. Давайте зупиніться на питанні тут!)

Я починаю повільний, болісний процес відновлення веб-сайту з кеш-пам’яті веб-сканерів.

Існує кілька автоматизованих інструментів для відновлення веб-сайту з веб-павуків (Yahoo, Bing, Google тощо), таких як Warrick , але у мене були погані результати, використовуючи це:

  • Мій IP-адресу було швидко заборонено Google використовувати його
  • Я отримую безліч помилок 500 і 503 і "чекаю 5 хвилин ..."
  • Зрештою, я можу відновити текстовий вміст швидше вручну

Мені набагато пощастило, скориставшись списком усіх публікацій блогів, натиснувши на кеш Google і зберегти кожен окремий файл як HTML. Хоча є багато повідомлень в блозі, тобто не що багато, і я вважаю , що я заслуговую самобичування за не маючи краще стратегії резервного копіювання. У будь-якому разі, важливим є те, що мені пощастило отримати текст повідомлення в блозі таким чином, і я, безумовно, в змозі витягнути текст веб-сторінок з кешів Інтернету. Виходячи з того, що я зробив до цього часу, я впевнений, що зможу відновити весь втрачений текст публікації блогу та коментарі .

Однак, зображення, які йдуть із кожною публікацією блогу, виявляються… складніше.

Якісь загальні поради щодо відновлення сторінок веб-сайтів з кеш-пам'яток Інтернету, зокрема, місця для відновлення заархівованих зображень із сторінок веб-сайту ?

(І знову ж таки, будь-ласка, жодних резервних лекцій. Ви цілком, повністю, абсолютно праві! Але правильність не вирішує мою безпосередню проблему ... Якщо ви не маєте машину часу ...)


96
Коли хтось, як сам Джефф Етвуд, одним махом може втратити два цілі веб-сайти ... Ну. Я збираюся переглянути власні процедури резервного копіювання, для однієї: P

240
@Phoshi: Джефф має кілька хороших статей про кодування жахів на резервній копії. Ви повинні їм швидко прочитати.

34
joshhunt виграє один (1) Інтернет. Ця пропозиція може не поєднуватися з іншими пропозиціями, обмінюватися або замінюватися. Ніяких плащів.
Адам Девіс

28
Тривалість, на яку пітимуть деякі люди, щоб заробити репутацію на SU ...

26
Будь ласка, не посилайтеся на те, що ви робили як "резервні копії" - якщо ці файли на одному сервері, вони жодним чином не є "резервними копіями".

Відповіді:


220

Ось мій дикий удар в темряві: налаштуйте веб-сервер на повернення 304 для кожного запиту зображення, а потім натовпу відновлення, розмістивши десь список URL-адрес і попросивши в подкасті всі ваші читачі завантажити кожну URL-адресу та зібрати будь-які зображення які завантажуються з локальних кешів. (Це може працювати лише після відновлення самих HTML-сторінок у комплекті з <img ...>тегами, які, як видається, означають, що ви зможете зробити це.)

Це в основному химерний спосіб сказати: "дістаньте це з кешів веб-браузера ваших читачів". У вас є багато читачів і слухачів подкастів, тому ви можете ефективно мобілізувати велику кількість людей, які, ймовірно, нещодавно переглянули ваш веб-сайт. Але вручну знайти та витягнути зображення з кешів різних веб-браузерів складно, і весь підхід працює найкраще, якщо це досить просто, що багато людей спробують це та будуть успішними. Таким чином, підхід 304. Від читачів потрібно лише те, що вони клацають на низку посилань і перетягують будь-які зображення, які завантажуються у веб-переглядачі (або клацніть правою кнопкою миші та збережіть як і т.д.), а потім надішліть їх електронною поштою або завантажте на центральне місце, яке ви створили, або будь-що інше. Основним недоліком такого підходу є те, що кеші веб-браузера не заходять так далеко в часі. Але для того, щоб врятувати навіть дуже старий образ, потрібен лише один читач, який випадково завантажував публікацію з 2006 року. При достатньо великій аудиторії все можливо.


52
+1 для найкреативнішого підходу. Насправді може працювати, оскільки у CH багато читачів.

16
реалізовані тут? diovo.com/2009/12/…
Джефф Етвуд

3
Я думаю, ви можете сканувати свої статичні файли для тегів зображень і скопіювати їх на одну гігантську сторінку зображень, замість того, щоб усі натискали посилання. Реалізація diovo.com виглядає дуже вражаючою, сподіваємось, вона спрацює для вас.

2
ЯК це зле чарівне лайно I <3
Ахмад Альфі

4
Насправді ви маєте змогу витягувати зображення за canvasдопомогою AJAX та надсилати їх додому.
Томаш Зато

65

Деякі з нас стежать за вами за допомогою RSS-зчитувача і не очищають кеші. У мене є повідомлення в блозі, які, схоже, відносяться до 2006 року. Ніяких зображень, з того, що я бачу, але може бути кращим, ніж те, що ти зараз робиш.


+1 однозначно. Google Reader цього не робить, але я вважаю, що це буде настільний ПК.

2
Ви також можете попросити людей перевірити кеш-пам’ять браузера. У тих, хто переглядає ретро-стиль Coding Horror, можливо, деякі з зображень зберігаються в кеші.

У мене в GReader були повідомлення в блозі 2005 року, але, на жаль, у них немає зображень, і вони не дозволять мені просто експортувати їх у вигляді серії сторінок ... Я можу надіслати їх електронною поштою, Джефф. ..
Глен Солсберрі

Так, малося на увазі "я надішлю тобі, що я маю, якщо ти попросиш". в моїй відповіді також.

3
Забагато RSS-читачів припускають, що зображення ніколи не загинуть. Я знаю, що моє

62

(1) Витягніть список імен файлів усіх відсутніх зображень із резервних копій HTML. Вам залишиться щось на кшталт:

  • stay-puft-marshmallow-man.jpg
  • internet-properties-dialog.png
  • yahoo-homepage-small.png
  • пароль-шоу-анімовані.gif
  • tivo2.jpg
  • michael-abrash-graphics-програма

(2) Зробіть пошук зображень Google для цих файлів. Схоже, МНОГО з них були, як наслідок, "дзеркальними відображеннями" інших блогерів і дозріли для прийняття, оскільки вони мають однакове ім'я файлу .

(3) Ви можете зробити це в автоматизованому вигляді, якщо це виявиться успішним для, скажімо, 10+ зображень.


Було б дуже іронічно, якби він насправді отримав подібні зображення.
Хашим

51

Перейшовши до пошуку зображень Google і ввівши, site:codinghorror.comви можете принаймні знайти ескізні версії всіх своїх зображень. Ні, це не обов'язково допомагає, але це дає вихідну точку для отримання цих тисяч зображень.

Кодування зображень помилок

Схоже, в деяких випадках Google зберігає ескіз :

Google проти Бінга

Google зліва, Бінг справа.


2
так, в гіршому випадку, нам доведеться масштабувати ескізи Google. Але я чую, що Бінг зберігає ескізи більших розмірів?
Джефф Етвуд

Не знаю; Я не хлопець. Я навіть не знаю, чи роблять вони пошук зображень, як це робить Google. Я дізнаюся і оновлю зазначений пост.
Джордж Стокер

18
Я не знаю, чи це ти. Але у Imageshack, здається, є багато ваших зображень у блозі. profile.imageshack.us/user/codinghorror
Нік Берарді

Вони, схоже, мають 456 зображень, які мають повний розмір. Це може бути найкращим варіантом для відновлення всього. Можливо, вони можуть вам навіть дати смітник.
Нік Берарді

28
Використовуйте ескізи Google для початку, а потім використовуйте tineye.com, щоб побачити, чи хтось розміщує копію.
sep332

40

Вибачте, що чую про блоги. Не збираюся читати лекції. Але я знайшов те, що здається вашими образами на Imageshack. Вони справді ваші чи хтось зберігав їх копію.

http://profile.imageshack.us/user/codinghorror

Вони, схоже, мають 456 зображень, які мають повний розмір. Це може бути найкращим варіантом для відновлення всього. Можливо, вони можуть вам навіть дати смітник.


37

Джефф, я написав що - то для вас тут

Якщо коротко, я пропоную вам це:

  1. Налаштуйте веб-сервер для повернення 304 для кожного запиту зображення. 304 означає, що файл не модифікується, і це означає, що браузер виймає файл із кешу, якщо він там присутній. (кредит: ця відповідь SuperUser )

  2. На кожну сторінку веб-сайту додайте невеликий сценарій, щоб захопити дані зображення та відправити їх на сервер.

  3. Збережіть дані зображення на сервері.

  4. Вуаля!

Ви можете отримати сценарії з даного посилання.


Відповідь суперкористувача не пов'язана.
Натаніел

@Nathaniel: FIXED
alexanderpas

28

Спробуйте цей запит на машині Wayback :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

У результаті ви отримаєте всі зображення з сайту codinghorror.com, заархівовані archive.org. Це повертає 3878 зображень, деякі з яких є дублікатами. Це не буде повноцінним, але все-таки гарним початком.

Для решти зображень ви можете використовувати ескізи з кешу пошукової системи, а потім зробити зворотний пошук за допомогою цих даних на веб- сайті http://www.tineye.com/ . Ви надаєте йому ескіз зображення, і він надасть попередній перегляд та вказівник на тісне узгодження зображень, знайдених в Інтернеті.


1
повертає 404 зараз?
rogerdpack

Я створив інструмент для автоматичного отримання резервної копії з Wayback Machine: github.com/hartator/wayback-machine-downloader
Hartator

26

+1 за ddрекомендацією, якщо (1) необроблений диск десь доступний; та (2) зображення були простими файлами. Тоді ви можете використовувати криміналістичний інструмент «вирізання даних», щоб (наприклад) витягнути всі достовірні діапазони, які здаються JPG / PNG / GIF. Я відновив 95% + фотографій на iPhone, які були стерті таким чином.

Для цього можна використовувати інструменти з відкритим кодом «головне» та його наступник «скальпель»:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
Photorec також може бути корисний, коли ви отримаєте зображення DD.


26

На щастя, майбутнім поколінням буде добре.

Навіть лише з цієї великої скелі вчені / мовознавці багато чого зрозуміли.

розетський камінь

Якщо кілька знімків відсутнє, залиште це комусь, щоб розібратися через пару тисяч років.

Сподіваємось, ти трохи смієшся. :)


5
Гаразд, ти принаймні

21

Ви завжди можете спробувати archive.org. Використовуйте зворотну машину. Я використовував це для відновлення зображень з моїх веб-сайтів.


3
Здається, не має багато кешу для CodingHorror, принаймні. Я бачу зображення для blog.stackoverflow, хоча.

Я переробив веб-сайт за допомогою Інтернет-зворотної машини один раз, але я спробував кілька разів з тих пір, і це насправді не
архівує

Схоже, це повертається до 2004 року тут web.archive.org/web * / codinghorror.com

Слава богу, у нього не було файлу robots.txt, так? :)
Synetech

14

Отже, абсолютно гірший випадок, ви не можете відновити щось. Блін.

Спробуйте схопити мінімізовані google та перенести їх через TinEye , пошукову систему зворотного зображення. Сподіваємось, він повинен захопити будь-які дублікати або повторні врожаї, які люди зробили.


14

Це довгий постріл, але ви можете врахувати:

  • Опублікувавши точний список зображень, які ви відсутні
  • процес пошуку натовпу через весь Інтернет-кеш ваших читачів.

Наприклад, перегляньте переглядач кешу Nirsoft Mozilla :

alt текст
(джерело: nirsoft.net )

Він може швидко викопати будь-яку картинку "blog.stackoverflow.com", яку, можливо, все ще має простий командний рядок:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Примітка. У них однаковий провідник кешу для Chrome .

alt текст
(джерело: nirsoft.net )

(Я повинен мати 15 днів фотографій blog.stackoverflow.com)

І Internet Explorer , або Opera .


Потім оновіть загальнодоступний список, щоб відобразити те, що читачі повідомляють про знаходження у своєму кеші.


12

Раніше я використовував http://www.archive.org/, щоб підтягувати кешовані зображення. Це свого роду хіт чи промах, але це спрацювало на мене.
Крім того, коли я намагаюся відновити фотографії, які я використовував на старому сайті, www.tineye.com чудово підходить, коли у мене є лише ескізи і мені потрібні зображення в повному розмірі.

Я сподіваюся, що це вам допоможе. Щасти.


Кілька хвилин тому я переглянув archive.org для зображень codinghorror.com, і на декількох публікаціях, на які я натиснув, не було показано.
Джордж Стокер

Archive.org оприлюднює дані місяці після того, як вони вперше їх індексували.
Крістіан

10

Це, мабуть, не найпростіше або найповніше рішення, але такі послуги, як Evernote, зазвичай зберігають текст і зображення, коли вони зберігаються всередині програми - можливо, деякі корисні читачі, які зберегли ваші статті, зможуть зберегти зображення та надіслати їх вам назад. ?


10

У мене був великий досвід роботи з archive.org . Навіть якщо ви не в змозі витягнути всі ваші публікації блогу з сайту, вони зберігають періодичні знімки:

alt текст

Таким чином ви можете перевірити кожну сторінку та побачити зроблені вами публікації в блозі. Імена всіх публікацій ви можете легко знайти їх у кеші Google, якщо архів.org не має цього. Архів намагається зберегти зображення, кеш-пам’ять Google матиме зображення, а я кеш-пам'ять нещодавно не спорожняв, тому я можу вам допомогти з новими публікаціями блогу :)


Я намагався отримати деякі дані з веб-сайту компанії, на якій я працював деякий час тому. Це було добре для тексту, менше для зображень. Але YMMV
ChrisF

Я вважаю, що веб-кеш Google не зберігає зображення.
Натаніел

8

Ви спробували власний кеш локального браузера? Досить хороші шанси, що деякі з останніх матеріалів все ще є. http://lifehacker.com/385883/resurrect-images-from-my-web-browser-cache

(Або ви можете скласти список усіх відсутніх зображень, і кожен може перевірити кеш, щоб побачити, чи можемо ми заповнити заготовки)


8

Пропозиція на майбутнє: я використовую Windows Live Writer для ведення блогів, і це зберігає локальні копії публікацій на моїй машині, окрім публікації їх у блозі.


Крім того, використання Windows Live Writer - це просто здоровий глузд.

7

Близько п’яти років тому раннє втілення зовнішнього жорсткого диска, на якому я зберігав усі свої цифрові фотографії, погано вийшло. Я створив зображення жорсткого диска за допомогою ddі написав рудиментарний інструмент для відновлення всього, що було схоже на зображення JPEG. З цього вийшло більшість моїх фотографій.

Отже, питання полягає в тому, чи можете ви отримати копію образу диска віртуальної машини, який містив зображення?



7

Я пропоную комбінацію archive.org та анонімізатор запиту на зразок [Tor] [2]. Я пропоную використовувати анонімний інструмент, оскільки таким чином кожен ваш запит матиме випадковий IP-адресу та розташування, і таким чином ви зможете уникнути заборони архівом.org (як Google зробив) для незвично великої кількості запитів.

Удачі, у цьому блозі багато дорогоцінних каменів.


Враховуючи, що Джефф хоче внести пожертву на archive.org, тому зловживання анонімним інструментом може бути абсолютно неприйнятним. Але я все одно хочу за це поштовхнути. : - |

6

Машина зворотного зворотного зв'язку буде деякою. Кеш Google і подібні кеші будуть такими.

Одна з найефективніших речей, яку ви зможете зробити, - це надіслати електронною поштою оригінальні плакати, попросивши допомоги.

У мене фактично є деякі інфраструктурні рекомендації, оскільки після цього все очищено. Основна проблема насправді не створює резервні копії, це відсутність реплікації сайту та відсутність аудиту. Якщо ви надішлете мені електронний лист із вмістом у приватному полі електронної пошти, то пізніше, коли ви знову на ногах, я хотів би обговорити цю проблему з вами.


6

Якщо ваші зображення зберігалися на зовнішній службі, наприклад Flickr або CDN (як зазначено в одному з ваших подкастів), у вас все ще можуть бути ресурси для зображень.

Деякі зображення можна знайти за допомогою Google Images і натиснути «Знайти подібні зображення» , можливо, на інших сайтах є копії.


5

archive.org іноді приховує зображення. Отримайте кожну URL-адресу вручну (або напишіть короткий сценарій) і запитайте їх у такий спосіб:

string.Format ("GET / * / {0}", nextUri)

Звичайно, це буде досить біль для пошуку.

Можливо, у мене є кеш браузера. Якщо я це зроблю, я кудись їх прийму.


4

Якщо ви сподіваєтесь спробувати викреслити кеші користувачів, ви можете налаштувати сервер відповідати 304 Not Modifiedна всі умовно-GET ("If-Modified-Since" або "If-None-Match"), якими користуються браузери. оновити кешований матеріал.

Якщо ваші початкові заголовки кешування на статичний вміст, як-от зображення, були досить ліберальними - дозволяючи кешувати речі протягом днів або місяців - ви можете на деякий час отримувати повторні оновлення запитів. Встановіть cookie на ці запити та зверніться до тих користувачів, щоб запустити скрипт проти кешу, щоб витягти зображення, які вони все ще є.

Але будьте обережні: щойно ви починаєте викладати будь-який текстовий контент із вбудованими ресурсами, яких ще немає, ви можете витирати ці кешовані версії, коли ревалідатори потрапляють у 404.


4

Ви можете використовувати TinEye для пошуку дублікатів своїх зображень , шукаючи ескізи кеша Google . Це допоможе лише із зображеннями, які ви взяли з іншого сайту.


1
Ні, це допоможе зображенням, які інші взяли з СН.
НезадоволенняГота

@DisgruntledGoat: Спочатку я навіть не думав про це: D

4

Ризикуючи вказати на очевидне, спробуйте виправити резервні копії власного комп’ютера для зображень. Я знаю, що моя стратегія резервного копіювання є достатньо небезпечною, що у мене є кілька копій безлічі файлів, що розвішуються на зовнішніх накопичувачах, записаних дисках та у файлах zip / tar. Удачі!


4

Мені вдалося відновити ці файли з мого кеша Safari на Snow Leopard:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Якщо хтось хоче спробувати, я написав сценарій Python, щоб витягти їх до ~ / codinghorror / ім'я файлу, який я розмістив тут в Інтернеті .

Я сподіваюся, що це допомагає.


3

Чи отримали ви змогу побачити, чи є у вашого постачальника хостингу резервна копія взагалі (деякі старіші версії)?


це не виглядає добре .. їх програма резервного копіювання не змогла створити резервну копію файлів на жорсткому диску віртуальної машини, тому немає резервних копій.
Джефф Етвуд

2

Скільки коштують ці дані? Якщо це коштує значної суми (тисячі доларів), тоді варто попросити свого постачальника хостингу про жорсткий диск, який використовується для зберігання даних для вашого веб-сайту (у випадку втрати даних через збій обладнання). Після цього ви можете взяти диск із проїзною або іншою службою відновлення даних, щоб побачити, що можна дістати з накопичувача. Це може бути складно домовитись через можливість неповернення даних інших людей на накопичувачі, але якщо вам це дійсно цікаво, ви, ймовірно, зможете це розробити.


наскільки я знаю, сервер був VM.
splattne

1
@splattne навіть так, існує ненульовий шанс, що багато даних можна буде відновити.

Повинен бути вузькоспеціалізований сервіс.

2

Дуже шкода, що це чую, і я дуже роздратований за вас, і терміни - я хотів отримати офлайн-копію кількох ваших дописів і зробив HTTrack на всьому своєму сайті, але довелося вийти (це було пару тижнів тому) і Я зупинив це.

Якщо хост наполовину походить - і, мабуть, я здогадуюсь, що ви хороший клієнт ... я б попросив їх або надіслати вам жорсткі диски (як я здогадуюсь, вони повинні використовувати RAID) або зробити відновлення самостійно.

Хоча це може бути не швидким процесом, я зробив це з одним хостом для клієнта і зміг відновити цілі бази даних неушкодженими (... в основному, хост спробував оновити панель керування, яку вони використовували, і заплутав її.) але нічого не було переписано).

Що б не сталося - удачі від усіх ваших шанувальників на сайтах SO!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.