Як скинути MediaWiki для використання в режимі офлайн?


16

Я хотів би мати можливість робити офлайн-версію сайту MediaWiki щотижня.

Розширення DumpHTML насправді робить те, що я хочу, оскільки він скидає всі статті та медіа-файли, але я не бачу жодного індексу всіх статей, які він скинув, тому я не можу переходити на дамп.

Читаючи про функцію демпінгу XML, яку має MediaWiki, мені цікаво, чи можна було б використовувати програму для перегляду цих файлів або, можливо, перетворити їх у HTML?

Або є інші способи зробити офлайн-версію веб-сайту MediaWiki?


Вам справді потрібен індекс? Просто почніть з Main Pageта перейдіть за посиланнями звідти.
Ільмарі Каронен

Ось інструкція Cam Webb щодо створення статичної версії сайту MediaWiki. Ось моя власна , якщо вони комусь допоможуть. Обидва дають посилання на статичний результат ( мій тут ).
Майкл Аллан

Відповіді:


8

Ви можете використовувати інструмент веб-сканера, який збереже сайт як HTML-файли. Всі посилання будуть конвертовані, тому ви можете відкрити головну сторінку, скажімо, а потім натиснути на посилання та дістатися до всього сайту.

Існує ряд цих інструментів. Я використовую wget , який заснований на командному рядку і має тисячі варіантів, тому не дуже дружній. Однак він досить потужний.

Наприклад, ось командний рядок, який я використовував для скидання власного сайту mediawiki. Я пропоную вам зрозуміти кожен варіант, хоча перед тим, як використовувати його самостійно:

"c:\program files\wget\wget" -k -p -r -R '*Special*' -R '*Help*' -E http://example.com/wiki

10

Ви можете взяти його -pages-articles.xml.bz2з сміттєзвалища Wikimedia та обробити їх за допомогою WikiTaxi (завантажити у верхньому лівому куті). Інструмент імпорту Wikitaxi створить з .taxiфайлу (близько 15 Гбіт для Вікіпедії) .bz2. Цей файл буде використаний програмою WikiTaxi для пошуку статей. Досвід дуже схожий на досвід роботи браузера.

Або ви можете використовувати Kiwix , швидше, щоб налаштувати, оскільки він також забезпечує вже оброблені дамп ( .zimфайли). Як зазначено в коментарі, для того, щоб mwofflinerможна було використовувати інші сайти MediaWiki для kiwix , він може не працювати з усіма, оскільки вони можуть мати спеціальні відмінності, але це єдиний варіант, на який я натрапив.

Візьміть із Вікімедію речі wget не є хорошою практикою. Якщо занадто багато людей зробить це, це може затопити сайти запитами.


Пізніше відредагуйте для випадку, коли ви бажаєте також зображень в автономному режимі:

Проект XOWA

Якщо ви хочете повне дзеркало Вікіпедії (включаючи зображення), повне форматування HTML недоторкане, яке завантажуватиметься приблизно 30 годин , вам слід скористатися:

Англійська Вікіпедія має багато даних. Є 13,9+ мільйонів сторінок з 20,0+ ГБ тексту, а також 3,7+ мільйонів мініатюр.

XOWA :

Налаштування всього цього на вашому комп’ютері не буде швидким процесом ... Сам імпорт вимагатиме 80 Гб дискового простору та п’ять годин обробки текстової версії. Якщо ви також хочете зображень, цифри збільшуються до 100 Гб місця на диску і 30 годин часу обробки. Однак, коли ви закінчите, у вас з'явиться повна, нещодавня копія англійської Вікіпедії із зображеннями, які можуть вміститися на 128 Гб SD-картці.

Але офлайн-версія дуже схожа на онлайн-версію, включає фотографії тощо: (Я випробував нижче статтю повністю в автономному режимі) введіть тут опис зображення


Пізніше відредагуйте, якщо нічого із зазначеного не застосовується:

Якщо wiki не є частиною Wikimedia або не має дампа, на github є проект, який завантажує цю wiki за допомогою свого API:

WikiTeam - Ми архівуємо вікі, від Вікіпедії до найменших вікі


1
У випадку демпінгу користувальницької установки mediawiki XOWA цілком здатний це зробити (деякі проблеми можуть існувати), наступна стаття xowa.org/home/wiki/App/Wiki_types/Wikia.com є досить корисною. Використання Kiwix у користувацьких вікі ще тестується (потрібно спочатку скинути вікі за допомогою github.com/kiwix/mwoffliner чи іншого інструменту)
ескалатор
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.