2011年12月19日 星期一

用Eclipse開發Nutch準備工作

環境說明

  • 作業系統: Windows XP sp3
  • Eclipse Indigo Service Release 1
  • Java JDK 1.6.17
  • Subclipse 1.6.x
  • IvyDE
  • Maven Integration for Eclipse 1.0 SR1

 

軟體安裝

  1. 下載 Eclipse http://www.eclipse.org/downloads/
    • 下載eclipse-jee-indigo-SR1-win32.zip
    • 解開壓縮檔 eclipse 目錄
    • 執行目錄中eclipse.exe執行檔
    • 指定workspace位置
  2. 安裝 subclipse 1.6.x
    • 從eclpise下拉式選單選擇Eclipse Marketplace (Help->Eclipse Marketplace) image
    • 搜尋 subclipseimage
    • 確認使用者授權image
    • 安裝中 image
    • 需要重新啟動 eclipse

      image

  3. 在Eclipse Marketplace依據類似步驟安裝 IvyDE 2.1.0
  4. 再用同樣步驟安裝m2e(Maven Integration for Eclipse )

安裝 Nutch

  1. 在Eclipse選單中 File->New->Project->SVN->自SVN取回專案image
  2. 建立新的檔案庫位置 https://svn.apache.org/repos/asf/nutch/trunkimage image  

    此處可能會有透過proxy取檔問題,請參考

    http://eureka.ykyuen.info/2010/03/09/eclipse-configure-proxy-for-subclipse/

     

  3. 選擇根節點,並按下Finishimage
  4. 後續會導到開啟新專案畫面,選擇 Java->Java Projectimage
  5. 命名專案名稱 Nutch,並確認勾選 Create separate folders for sources and class filesimage
  6. 取回程式原始碼中 image
  7. 取回原始碼後,請勿在此時編譯(Build) 。請先確認目錄下沒有.project 及 .classpath 檔案,也沒有 runtime目錄。

在Eclipse中設定Nutch環境

  1. 請在Package Explorer中Nutch[nutch/trunk]根節點上按右鍵,選擇Properties後,在左方選擇Java Build Path,將出現以下畫面image
  2. 在Source中移除(Remove)唯一的目錄Nutch/src,再新增目錄(Add Folder )時,展開Nutch/src的目錄,選擇Nutch/src/bin、Nutch/src/java、Nutch/src/test以及Nutch/src/testsourcesimage
  3. 展開Nutch/src/plugin目錄,並將每個子目錄中的src/java、src/test選取(可能會花一點時間)imageimage
  4. 切換到Libraries分頁,選擇(Add Class Folder)按鈕,新增 Nutch/confimage
  5. 同樣是Libraries分頁,選擇(Add Jars)按鈕,新增src/plugin/urlfilter-automaton/lib/automaton.jar 及 src/plugin/parse-swf/lib/javaswf.jar
  6. 同樣是Libraries分頁,選擇(Add Library)按鈕,在以下視窗中選擇IvyDE Managed Dependencies,選擇Nutch/ivy/ivy.xml檔案,並在下一步驟中將所有的設定值(Configuration)都勾選。imageimageimageimage
  7. 切換至Order and Export分頁,找出Nutch/conf目錄,並將其移到最上方(Top)
  8. image

  9. 請勿將Nutch/Build放到Class Path中,至此您可以按下完成(Finish)按鈕。

設定Nutch

  1. 請參考Nutch官方網站Wiki中的導覽 http://wiki.apache.org/nutch/NutchTutorial
  2. 請確認在$NUTCH_HOME/conf/nutch-site.xml 設定檔中有將"plugin.folders" 設定為"./src/plugin"

 

建置(Build) Nutch

  • 將nutch目錄下的build.xml拖曳到Ant View之中,就可以開始建置Nutch了。

image

  • 建置成功可以在Console中看到以下資訊

BUILD SUCCESSFUL
Total time: 10 minutes 21 seconds

請開始進入Nutch的世界吧!!!

2011年11月29日 星期二

Apache Nutch 1.4 Released

Apache Nutch是最知名的開放原始碼網路爬蟲及搜尋引擎專案,在 2011/11/26 發表了新版,主要由幾項更新

  • 允許Parsers宣告之多種MIME型態 (allowing Parsers to declare support for multiple MIME types)
  • 可以設定抓取網頁的排隊深度 (configurable Fetcher Queue depth)
  • 抓取網頁速度提升 (Fetcher speed improvements)
  • Tika專案更緊密的結合( tigther Tika integration)
  • 支援在Solr專案使用HTTP驗證 (support for HTTP auth in Solr indexing)
  • 其他更新請參考這裡

詳細資料請參考官網 http://nutch.apache.org/