wget: The non-interactive network downloader

藍色泡泡 25 六月, 2008 16:35 基本指令 靜態連結網址 引用 (0) 預覽列印
wget: The non-interactive network downloader

寫在前面的碎碎念:  原本沒有打算要寫這篇紀錄,只是突然間發現系統中竟然沒有內建.

GNU Wget 是一個用來做為網頁非互動式下載的程式. 支援 HTTP, HTTPS , FTP 協定

官方網站: http://www.gnu.org/software/wget/



位置: /usr/ports/ftp/wget/

安裝: 
cd /usr/ports/ftp/wget/
make install ; make clean

設定檔:
wget config

基本參數: 
-V    -- 顯示版本資訊.
-h    -- 顯示使用資訊(help information),列出所有參數
-b    -- 背景執行.
-o  logfile  -- 紀錄輸出至logfile
-a  logfile  -- 紀錄附加至logfile (非覆蓋)
-d    -- 除錯模式
-q    -- 安靜模式
-v    -- 複雜模式
-nv  -- 非複雜模式(還是會有些許資訊輸出)
-i file    -- 從file檔案讀取 URL資訊.
-F    -- 強制將檔案是為html格式讀取
--bind-address=ADDRESS  -- 附加上IP位址資訊.
-t    -- 失敗重試次數.
-O    -- 輸出位置
-nc  -- 不下載重複檔案.
-c    -- 續傳檔案
-s    --  列出server端的回應
--spider  -- 將wget仿造成為spider(搜尋引擎) , 不產生檔案
-T timeoust seconds  -- 設定連線逾時時間(預設為900秒)
此細項仍有 dns network 讀取 等timeout設定.
--limit-rate=amount  -- 限定下載速率為amount值.(預設為bytes , 可以為k 或是 m)
-w   -- 等待多少時間後進行資料檢索
--waitretry=seconds    -- 下載失敗的重試間隔秒數.
--random-wait  -- 隨機等待秒數(針對重新檢索)
--no-proxy  -- 不使用代理伺服器
.......................................................
......... 其餘還有好多好多的參數...簡單來說有點類似teleport pro 網站下載工具一般.
(不想寫下去了.. 光速逃走..Embarassed)
..............................................................

最常見的使用方式:
1. 下載某檔案

wget http://xxx.xxx.xxx.xxxx/file.tar.gz

2. 砍站(類似teleport pro)
wget -r http://xxx.xxx.xxx.xxxx/

3. 砍站無視robots.txt檔案 , 我想這才是您想知道的吧..Tongue out
   在告訴您之前,請想想robots.txt的用途, 以及為何管理者設了這個東西.
   以及您無視robots.txt後 對網站及管理造成的負擔/困擾...

   我先說我的處理方式:
   心情好時,無視此行為,反正網站就是要給你看的..
   心情差時,拒絕該區段ip連線,例如: 163.19.163.99 砍站, 我就拒絕 163.19.163.0/24 .
   甚者...拒絕該ip所屬isp或是所屬國家所有區段. Cool
wget -erobots=off http://xxx.xxx.xxx.xxxx/

實測: 當沒有加上 -erobots=off 只會抓取網頁的首頁及robots.txt ,若加上,則會進行砍站動作.

4. 若對方網站拒絕Wget...
wget -m -U "Mozilla/5.0 (compatible; Konqueror/3.2; Linux)" http://xxx.xxx.xxx.xxx

則可以偽裝為其他瀏覽器...

迴響


發表迴響

發表迴響
 authimage

©2008 - Post by 藍色泡泡 (some rights reserved)