Как зеркалить медиавики-сайты?
2014-Nov-24, Monday 03:33![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
UPD3: Кажется, я решил эту задачку. :)
http://farstars.arda.ru/ - Проверять можно целиком. Служебные страницы по большей части не валидны, так как не работают. Содержательная часть и обсуждения вроде все скопированы (2454 страниц всего в этой Вики, считая многие служебные).
Да - при проверке обращать внимание только на содержательную часть сайта!
К сожалению, новостная лента сайта (farstars.ru /live/ )заспамлена, и копия честно это воспроизводит.
Вот есть - http://farstars.ru/ - Легенды далёких звёзд.
Из-за особенностей движка на wget + тривиальная обработка получается http://farstars.arda.ru/ - с недостатками:
- полная потеря стилевых файлов
- невозможно сотворить index.php (SqFilePage index чтобы он показывал URI /index.php?...)так как уже есть каталог /index.php/
- часть страниц без очевидной причины "отсутствует":
-- Эта зеленая планета - есть (оригинал).
-- Прекрасное далеко - нету (оригинал.
Может у кого есть уже готовое решение?
UPD1: Капитан Очевидность предложил поискать perl Mediawiki::API - помедитируйте на страницу http://farstars.ru/w/api.php
UPD2: строка wget --mirror --no-parent --page-requisites --convert-links --no-host-directories --cut-dirs=2 --load-cookies cookies.txt --directory-prefix=. http://farstars.ru/wiki/%D0%97%D0%B0%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0
делает вроде бы всё замечательно, но вместо контента имеем "список связанных правок" на каждой странице. :)
http://farstars.arda.ru/ - Проверять можно целиком. Служебные страницы по большей части не валидны, так как не работают. Содержательная часть и обсуждения вроде все скопированы (2454 страниц всего в этой Вики, считая многие служебные).
Да - при проверке обращать внимание только на содержательную часть сайта!
К сожалению, новостная лента сайта (farstars.ru /live/ )заспамлена, и копия честно это воспроизводит.
Вот есть - http://farstars.ru/ - Легенды далёких звёзд.
Из-за особенностей движка на wget + тривиальная обработка получается http://farstars.arda.ru/ - с недостатками:
- полная потеря стилевых файлов
- невозможно сотворить index.php (SqFilePage index чтобы он показывал URI /index.php?...)так как уже есть каталог /index.php/
- часть страниц без очевидной причины "отсутствует":
-- Эта зеленая планета - есть (оригинал).
-- Прекрасное далеко - нету (оригинал.
Может у кого есть уже готовое решение?
UPD1: Капитан Очевидность предложил поискать perl Mediawiki::API - помедитируйте на страницу http://farstars.ru/w/api.php
UPD2: строка wget --mirror --no-parent --page-requisites --convert-links --no-host-directories --cut-dirs=2 --load-cookies cookies.txt --directory-prefix=. http://farstars.ru/wiki/%D0%97%D0%B0%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0
делает вроде бы всё замечательно, но вместо контента имеем "список связанных правок" на каждой странице. :)
no subject
Date: 2014-Nov-24, Monday 09:07 (UTC)http://openzim.org/wiki/Main_Page
Но в случае задействования его под public вебсервер - это означает "влезть в зависимость" уже от этого проекта, и секс с возможным взломом.
no subject
Date: 2014-Nov-24, Monday 09:13 (UTC)Я там нашел только writer, который из базы данных пишет, через публичный веб-интерфейс, даже без админ-доступа, оно вроде как zim-файл не соберет.
Что касается зависимости от этого проекта, то там как я погляжу. имеется пачка независимых реализаций - как минимум C++, Java и Perl. Что несколько обнадеживает.