Страница 101 / 118

Wget: [Назад] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 [Вперед]

GaDiNa



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
[ UNIX Shell ] || [ Рекурсивная загрузка веб-сайтов ] — родительские ветки.
 
GNU Wget

GNU Wget — это свободная неинтерактивная утилита для скачивания файлов по HTTP, HTTPS, FTP и FTPS (и только), обладающая самым базовым функционалом загрузки одиночных файлов и рекурсивной загрузки сайтов (HTTP) и директорий (FTP).
 

| Офсайт | Википедия | Фрешмит | Опен-хаб (бывш. Охлох) | Мануал | Ман | Ман (русск., устар.) | --help (русск.) |

 
Где взять.
Под GNU — уже стоит. Под FreeBSD — есть в портах. Под [Mac] OS X — собрать ванильный.  
Под Windows есть варианты: 0) Cygwin,  1) GNUWin32 (учитывайте зависимости), 2) Wget + OpenSSL by GetGnuWin32, 3) by Bart Puype  4) by osspack32, 5) by Alex_Piggy, 6) by Jernej Simoncc (32 и 64 бит отдельные пакеты).
 
Литература.
Popkov. Параметры программы wget
В. А. Петров. Wget — насос для Интернета
 
FAQ
 
Q: Можно ли простым перебором загрузить страницы (допустим) с первой по сотую, если их адреса:  
http://example.org/index?page=1
http://example.org/index?page=2
...
http://example.org/index?page=100
A: Вэ-гет не умеет делать инкрементальный перебор, поскольку это умеет делать любая командная оболочка. На Баше это делается так:
$ wget -E "http://example.org/index?page="{1..100}
Еще раз отметьте, {1..100} — это синтаксическая конструкция Баша, а не Вэ-гета. Эквивалентной этой будет команда:
$ for i in {1..100}; do wget -E "http://example.org/index?page=$i"; done
Или для cmd.exe:
for /l %i in (1,1,100) do wget -E "http://example.org/index?page=%i"
 
Q: А как собственно сайт целиком-то загрузить?
A: $ wget -mpEk "http://example.org"
Это, наверное, самый ходовой набор ключей, но вам, может быть, более подойдут другие. Что значит каждый — легко узнать в мане.
 
Q: Я хочу загрузить с сайта, требующего авторизации. Что делать?
A: Проще всего кинуть куда-нибудь файл с нужными (но лишние не помешают) куками в нетскэйповском формате, затем воспользоваться ключом --load-cookies.
$ wget --load-cookies cookies.txt бла-бла # файл cookies.txt в текущей директории
У Файрфокса куки в требуемом виде можно получить, воспользовавшись расширением «Export Cookies»; у Хрома — «Cookie.txt export»
 
Q: Не-ASCII символы сохраняются в именах файлов как %D0%A5%D1%83%D0%B9 (или того хуже), хотя локаль юникодная.
A: Укажите ключ --restrict-file-names=nocontrol,unix или --restrict-file-names=nocontrol,windows соответственно.
Если у вас Windows и локаль не юникодная — используйте вариант от Alex_Piggy с ключом --local-filesystem-encoding=ENCODING, где ENCODING — имя кодировки локали в терминах iconv. Текущую локаль cmd.exe можно проверить при помощи команды chcp. Для русской кириллицы в Windows обычно используется CP866.
 
Q: Известно, что можно приказать Вэ-гету обновить ранее загруженный файл, если на сервере новее или иного размера (ключ --timestamping, он же -N). Можно приказать учитывать только дату, но не размер (--timestamping --ignore-length). А можно ли учитывать только размер, но не дату?
A: При помощи одного только Wgetа — нет.  Возможна обработка получаемых заголовков файла при помощи средств командной оболочки. Пример для cmd.exe.
 
Q: Можно ли приказать Вэ-гету докачать файл, но только если он не изменился.
A: Нет, нельзя. Сочетание ключей -cN (--continue --timestamping), как можно было бы предположить, нужного эффекта не даст — «докачает» даже если файл изменился — получите в итоге мусор.
 
Q: Можно ли при рекурсивной загрузке ограничится только ссылками, содержащими параметр lang=ru, т.е. грузить:
http://example.org/index?lang=ru
http://example.org/page?id=1001&lang=ru
http://example.org/file?id=60&lang=ru&format=dvi
и не грузить:
http://example.org/index?lang=en
http://example.org/about?lang=fr
и т.д.
A: Для версий < 1.14 нет такой возможности.  
Общий вид URI: <протокол>://<логин>:<пароль>@<хост>:<порт>/<путь>?<параметры>#<якорь>. Так вот ключи -I (--include-directories) и -X (--exclude-directories) относятся только к пути, но не к параметрам.
В версиях > 1.14 возможно при использовании ключей --accept-regex / --reject-regex. Пример: --reject-regex "lang=[^r][^u]"
 
Q: Можно ли средствами Вэ-гета ограничить перечень загружаемых файлов по дате модификации (новее чем, старше чем)?
A: Нет такой возможности.
 
Q: Можно ли при рекурсивной или множественной загрузке произвольно задать целевые пути и/или имена файлов на основе пути/имени по-умолчанию (применить транслитерацию, отбросить хвостовую часть) или хотя бы независимо (сгенерировать случайно или по счетчику)?
A: Нет.
 
Q: То — нельзя, это — невозможно. Почему все так плохо?
A: Потому что Вэ-гет на настоящий момент — базовая программа, предоставляющая только самый базовый функционал. Если вы уперлись в потолок ее возможностей, просто смените ее на другой инструмент. Из неинтерактивных свободных программ наиболее функциональными будут:
aria2c — для загрузки одиночных файлов по HTTP(S), FTP, бит-торренту;
httrack — для рекурсивной загрузки («зеркалирования») веб-сайтов;
lftp — для работы по FTP, FTPS, SFTP, FISH, а также с листингами, отдаваемыми по HTTP(S) (пример).
curl — для работы с одиночными файлам по HTTP(S), FTP(S) и многими другими протоколами на более низком уровне.
 
Разное.
GUI для Wgetа
 

Смело правьте и дополняйте шапку, однако не забывайте отписываться об исправлениях и сохранять исходный вариант под #.

Всего записей: 1503 | Зарегистр. 17-06-2003 | Отправлено: 12:39 08-11-2003 | Исправлено: VictorVG2, 22:57 06-01-2016
LanKing

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Приветствую!
 
Задача -- проверять работает ли интернет в bat файле. Для этого wget'ом качаю ya.ru и проверяю есть ли файл. Однако, нахожу этот способ не очень добрым для hdd, т.к. скрипт работает годами и совершает совершенно ненужную запись на винт, а потом - удаление.  
 
Можно ли wget'ом качать в память и проверять - получилось ли полностью скачать файл или нет? И если да - как?

Всего записей: 32 | Зарегистр. 02-11-2014 | Отправлено: 08:01 24-01-2015
data man



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LanKing
 
А почему именно wget? Используйте ping.

----------
2B OR NOT 2B = FF (Иногда код - это просто код. Почти Дйерф Омолш Днумзигис)
To ban or not to ban, that is the question. ©

Всего записей: 1222 | Зарегистр. 13-10-2005 | Отправлено: 09:29 24-01-2015
ASE_DAG



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LanKing, а вам не надо вообще его никуда его сохранять, сохраняйте в никуда (/dev/null и аналоги), а результат проверяете под коду возврата.

----------
Спроси, где спросить!

Всего записей: 8468 | Зарегистр. 11-05-2005 | Отправлено: 17:11 24-01-2015
LanKing

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Речь про виндовый wget.

Всего записей: 32 | Зарегистр. 02-11-2014 | Отправлено: 21:52 24-01-2015
data man



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
LanKing
Ещё раз - почему именно wget'ом проверять?
 

Код:
ping ya.ru
if %errorlevel% == 0 goto :download
...
...
...
:download
wget hxxxp://xxx.duma.gov.ru/Nicolay_Valuev_vs_Judoist_XXX.avip


----------
2B OR NOT 2B = FF (Иногда код - это просто код. Почти Дйерф Омолш Днумзигис)
To ban or not to ban, that is the question. ©

Всего записей: 1222 | Зарегистр. 13-10-2005 | Отправлено: 21:57 24-01-2015 | Исправлено: data man, 21:58 24-01-2015
Alex_Piggy

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Доброе время
data man
Например, если доступ необходим через определенный прокси. Хотя может это просто я не смог найти способ пинговать через прокси?
 
LanKing
В Винде это не /dev/null, а просто nul - wget ya.ru -nv -O- > nul
Полностью ли закачан - по коду возврата, по размеру файла, по тексту в файле.

Всего записей: 1537 | Зарегистр. 07-08-2002 | Отправлено: 22:35 24-01-2015 | Исправлено: Alex_Piggy, 22:39 24-01-2015
LanKing

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо всем за ответы!
 
Раньше проверял пингом. Но ушёл к вегету потому что интернет может быть но быть настолько узкий что файл не успевает закачаться. При этом отдельные ping пакеты пройти могут.
 
Поэтому, подскажите пожалуйста, либо как проверить коды возврата ping при раскладе -n 30
 
И то же самое - как получить коды возврата wget?
 

Всего записей: 32 | Зарегистр. 02-11-2014 | Отправлено: 00:27 25-01-2015
Victor_VG

Редактировать | Цитировать | Сообщить модератору
LanKing
 
Прочитать значение %EVERONMENT%. Доступна в скриптах/консоли, приёмы чтения стандартные.

Отправлено: 02:21 25-01-2015
LanKing

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Можно подробнее? Уверены в названии переменной?

Всего записей: 32 | Зарегистр. 02-11-2014 | Отправлено: 09:56 27-01-2015
Alex_Piggy

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Доброе время,  LanKing
Не %ENVIROMENT%, а "%ERRORLEVEL%" или просто ERRORLEVEL. Описание в справке "if /?".  
Возвращаемые значения - в справке Wget. Если численные значения неважны, а достаточно просто факта ошибки, то вместо "if errorlevel" можно использовать "&&" и "||".

Всего записей: 1537 | Зарегистр. 07-08-2002 | Отправлено: 13:18 27-01-2015
Victor_VG

Редактировать | Цитировать | Сообщить модератору
LanKing
 
%EVERONMENT% это общее название переменных среды, точное конкретной переменной как правильно указал Alex_Piggy "код возврата" или %ERRORLEVEL%.
 

Отправлено: 16:59 27-01-2015
ndch

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Может кто подскажет почему у меня wget устанавливает скаченным файлам текущие дата/время ?
 
Насколько я понял по мануалу такого быть не должно:
  --no-use-server-timestamps     don't set the local file's timestamp by the one on the server.

Всего записей: 4388 | Зарегистр. 31-08-2008 | Отправлено: 10:52 04-02-2015
Victor_VG

Редактировать | Цитировать | Сообщить модератору
ndch
 
А какое по идее в таком случае ставить ибо это время создания файла на локальной машине?

Отправлено: 11:33 04-02-2015
Alex_Piggy

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Доброе время  
ndch
Не все сервера выдают "Last-Modified". Надо смотреть по debug-log
По поводу curl - "-z, --time-cond <date expression>|<file>". Имя файла можно попробовать получить "-L -I". Или "Location:.*\\([^\\]*)$" или "Content-Disposition: .* filename=\x22([^x22]*)\x22.*"
Victor_VG
Делает touch временем сервера...

Всего записей: 1537 | Зарегистр. 07-08-2002 | Отправлено: 11:57 04-02-2015 | Исправлено: Alex_Piggy, 11:59 04-02-2015
Victor_VG

Редактировать | Цитировать | Сообщить модератору
Alex_Piggy
 
Логично.

Отправлено: 12:30 04-02-2015
ndch

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Alex_Piggy

Цитата:
Не все сервера выдают "Last-Modified". Надо смотреть по debug-log  

В данном конкретном случае "Last-Modified" присутствовало.
curl -I http://example.org/file
Last-Modified: Wed, 24 Dec 2014 15:53:17 GMT
 
wget -N --user=user --password=pass "http://example.org/file"
скачиваемому файлу установилась время "Last-Modified".
 
а вот так:
wget -N --user=user --password=pass "http://example.org/file" -Osomedir\somesubdir\new_file_name
скачиваемому файлу установилась текущее время.
 
Баг ? Фича ?

Всего записей: 4388 | Зарегистр. 31-08-2008 | Отправлено: 07:35 05-02-2015 | Исправлено: ndch, 07:47 05-02-2015
Skif_off

Редактировать | Цитировать | Сообщить модератору
ndch
После второй попытки докопаться, читая справку, взял в привычку делать так:

Код:
cd /d somedir\somesubdir
wget -N --user=user --password=pass "http://example.org/file"

Тогда Wget оставляет дату с севера, если сервер её отдаёт.
 
Добавлено:
Получается фича, т.к. так было сколько помню.

Отправлено: 08:00 05-02-2015
ndch

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Эта "фича" в справке где-нибудь упомянута ?

Всего записей: 4388 | Зарегистр. 31-08-2008 | Отправлено: 08:35 05-02-2015
Skif_off

Редактировать | Цитировать | Сообщить модератору
ndch
В описании ‘-O file':

Цитата:
file is always newly created

В своё время проглядел нечаянно.

Отправлено: 10:06 05-02-2015
Alex_Piggy

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Доброе время Skif_off, ndch

Цитата:
file is always newly created     
В своё время проглядел нечаянно.

Это немного не то. Имеется в виду, что нельзя докачивать.
Похоже на баг. Проверю.
 
UPD
Сделал. Теперь думаю - это нужно или нет?
Если указано -O - то открывается один поток для всего. touch проводится, время меняется. НО закрытие потока идет при выходе из wget и, естественно, время обновляется. Вариант - перед закрытием потока время файла (если он существует) сохраняется, затем восстанавливается. Если несколько файлов - это будет время последнего скачанного.

Всего записей: 1537 | Зарегистр. 07-08-2002 | Отправлено: 11:04 05-02-2015 | Исправлено: Alex_Piggy, 20:35 05-02-2015
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118

Компьютерный форум Ru.Board » Компьютеры » Программы » Wget

Сохранено: 09.06.2016 19:47:38 (c) xForumSaver