Sergej Qkowlew

Капитан очевидность с тобой вполне согласен.

From:

Для случая медиавики стили можно мастерским произволом побирать из медиавиковских исходников. Их почти никто почти никогда не меняет.

Вообще конкретно под медиавики есть какие-то полуготовые решения которые позволяют переносить данные между движками, прямо с историей изменений, когда к источнику есть только веб доступ. Если хочется разворачивать медиавики у себя, могу неспешно изучить этот вопрос, у меня это знание стоит в очереди неспешных задач на освоение. Могу подвинуть вперед

Чисто наблюдение, возможно очивидное: Прекрасное далеко отличается от Зеленой планеты наличием слеша в конце.

From:

Ну то есть проблема та же, что и с index.php - некоторые страницы миррорятся в страницы и с ними все нормально. Некоторые - в каталоги, и тогда содержимое собственно страницы (которое должно бы стать в этом каталоге index.html) куда-то девается. wget, кстати, по-моему в таких случаях именно в index.html его и пишет.

From:

aywen.livejournal.com

http://rpg.shaplov.arda.ru/MySongs.html. Ссылка внизу страницы на Песня манчкина неролеплэйного ведёт вникуда. На оригинальном сайте тоже. Пофиксишь?

From:

http://www.sciencemedianetwork.org/wiki/Mediawiki_mirror

Вот это смотрел? На первый взгляд похоже на то, что надо.
Глубоко не копался и запускать не пробовал.

From:

не похоже.
2009 год - последняя правка страницы.
Почти все ссылки на сторонние ресурсы, на первый взгляд - битые.

Ну и капитан очевидность, опять же с нами, конечно же - без ссылок и конкретного скрипта:

http://www.sciencemedianetwork.org/wiki/Offline_mediawiki#Offline_html_copies

* It's easy to make a solution with wget, that allows the mirroring of a wiki. (Updated) pages are retrieved, and a perl script reconstructs all the links. This could be run every night on a remote server to update the master wiki (as read-only copy) to that remote server. (No admin access needed.)

* The wiki can also be dumped to html using tools in the wiki maintenance directory. (Admin access needed.)

From:

Да, значит это типичное не то.

Нашел еще вот это https://github.com/samuell/mw2html
запустил, работает пока. Доработает - посмотрю что получилось.

Оно, правда, похоже и не пытается сохранять URL на внутренние страницы. При наличии таких ссылок на других копируемых сайтах это может быть неприятно.

Хм, поработало-поработало и на середине выпало в осадок по причине некорректного ответа сервера "Bad Status Line" говорит.

Edited Date: 2014-Nov-24, Monday 09:08 (UTC)

From:

Ну вариант без сохранения внутренних урл я рассматриваю уже как допустимый (ибо связность всё равно плохо достижима при смене доменного имени).

From:

Этот набор страниц является годной иллюстрацией к утверждению "сайты умирают" - раскопать осмысленное РЕАЛЬНО СЛОЖНО.

From:

Разве что попытаться задействовать OpenZim...
http://openzim.org/wiki/Main_Page

Но в случае задействования его под public вебсервер - это означает "влезть в зависимость" уже от этого проекта, и секс с возможным взломом.

From:

Штука интересная, но, по-моему для несколько других целей. Оно скорее википедию на флэшке носить.

Я там нашел только writer, который из базы данных пишет, через публичный веб-интерфейс, даже без админ-доступа, оно вроде как zim-файл не соберет.

Что касается зависимости от этого проекта, то там как я погляжу. имеется пачка независимых реализаций - как минимум C++, Java и Perl. Что несколько обнадеживает.

From:

А еще в медиавики есть волшебная страница
http://farstars.ru/wiki/%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:AllPages
Из нее можно названия всех интересующих страниц выпарсить, и потом для каждой сделать wget -p без рекурсии. Тогда гарантированно будут созданы сами страницы, а не одноименные каталоги

From:

пожалуй, этот путь потенциально наиболее конструктивен и наименее зависит от версии mediawiki (в отличие от попыток работать через API)

From:

Ага. Надо парсить эту страницу, только на ней нет полного списка - есть ссылки на пагинацию, разбирать эту часть и парсить отдельные странички пагинации...

From:

ага.
1. все имена страниц преобразованы - например "Ахерон" - на самом деле "Ахерон" - то есть брать имена страниц бесполезно, ибо я не знаю, как оно ещё там отконверчено. Брать урлы....
2. Есть например страница Прекрасное_далеко - но нет страницы Прекрасное_далеко/ - зато в подкаталоге Прекрасное_далеко/ есть страницы. Попробуйте wget ага. :)

From:

#!/usr/bin/perl

use strict;
use URI::Encode;

my @l = (
"http://farstars.ru/wiki/%D0%9F%D1%80%D0%B5%D0%BA%D1%80%D0%B0%D1%81%D0%BD%D0%BE%D0%B5_%D0%B4%D0%B0%D0%BB%D0%B5%D0%BA%D0%BE/%D0%9C%D0%B5%D0%BD%D1%8E",
"http://farstars.ru/wiki/%D0%9F%D1%80%D0%B5%D0%BA%D1%80%D0%B0%D1%81%D0%BD%D0%BE%D0%B5_%D0%B4%D0%B0%D0%BB%D0%B5%D0%BA%D0%BE",
"http://farstars.ru/wiki/%D0%9F%D1%80%D0%B0%D0%B2%D0%BE_%D0%BD%D0%B0_%D0%BE%D0%BA%D0%B0%D0%B7%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BC%D0%B5%D0%B4%D0%B8%D1%86%D0%B8%D0%BD%D1%81%D0%BA%D0%BE%D0%B9_%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D0%B8"
);

`rm -r cache`;
`rm -r res`;

`mkdir res`;

foreach my $url (@l)
{
`mkdir cache`;
`cd cache; wget -p '$url'`;
my $file = './cache/farstars.ru/wiki';
while (1)
{
$file .= '/'.`ls $file`; # Мы точно знаем что там только один(!) файл или директория;
chomp $file;
die "Все плохо" if $file =~/\n/; # если вдруг файл оказался не один
last if ! -d $file
}
$url =~ m{^http://farstars\.ru/wiki/(.*)$};

my $real_name = "./res/farstars.ru/wiki/".URI::Encode::uri_decode($1);
`mkdir -p $real_name`;
`mv $file $real_name/index.html`;
`rm -r ./cache/farstars.ru/wiki`;
`cp -r ./cache/farstars.ru/* ./res/farstars.ru/`;

`rm -r cache`;

}

From:

Я таки сделал вариант круче (но хитрее и распереподвывернутее), и сейчас оно скопируется...
- Проблему "файл-директория" оно решает
- Проблему скачки и доступности сгенерённых стилей и скриптов оно решает
- Проблему внутренних ссылок и адекватного их направления - решает
- Проблему обхода всех статей всех пространств оно НЕ решает на автомате, но позволяет решить её достаточно легко руками (пространства делятся на "пагинутые" и "непагинутые" - одни вносятся в один список, другие в другой. на farstars - в первом списке 0 и 6, во втором - 1 2 3 4 5 7 8 9 10 11 12 13 14 15 102 103 104 105)
- API (которое не везде доступно) не использует
- Сверх того, что ранее я применял, используется только preg_match в том index.php, что показывает содержимое лежащих на диске файлов по принятым урлам.
- никаких отдельных urlencode/urldecode не применяет - только то, что встроено в wget

Edited Date: 2014-Nov-24, Monday 21:31 (UTC)

From:

http://mirrorpg.arda.ru/mirrorpg/mirrorpg-abandoned - тут найти farstars.ru и заценить. :)

From:

Это пруф оф концепт.
Там надо чуть аккуратнее с кавычками...

From:

А вот тут:
http://www.noah.org/wiki/MediaWiki_notes#Static_HTML_dump_of_MediaWiki

предлагают миррорить wget-ом с опциями несколько отличающимися от твоих.

From:

Ага. Интересно. Щас попробую...

From: