<form id="dlljd"></form>
        <address id="dlljd"><address id="dlljd"><listing id="dlljd"></listing></address></address>

        <em id="dlljd"><form id="dlljd"></form></em>

          <address id="dlljd"></address>
            <noframes id="dlljd">

              聯系我們 - 廣告服務 - 聯系電話:
              您的當前位置: > 關注 > > 正文

              java爬蟲框架介紹:Heritrix優勢劣勢

              來源:CSDN 時間:2023-02-24 11:13:33

              爬蟲框架介紹 Heritrix 優勢劣勢簡單demo地址 crawler4j 優勢劣勢簡單demo地址 WebMagic 優勢劣勢簡單demo地址 快速入門 seimicrawler項目地址簡單爬蟲實現 導入項目編寫爬蟲啟動爬蟲 同系列文章


              (資料圖片僅供參考)

              爬蟲框架介紹

              java爬蟲框架非常多,比如較早的有Heritrix,輕量級的crawler4j,還有現在最火的WebMagic。 他們各有各的優勢和劣勢,我這里順便簡單介紹一下吧。

              Heritrix

              優勢

              java的第一批爬蟲框架,擁有獨立的后臺頁面,可以實現界面操作去爬去網頁。

              劣勢

              相對其他框架,代碼相對臃腫,上手難度較高,解析網頁不如其他框架靈活。

              簡單demo地址

              https://github.com/a252937166/Heritrix

              crawler4j

              優勢

              代碼相當輕量級,可實現多線程爬取,上手難度低。

              劣勢

              封裝程度太低,很多功能需要開發者自己封裝實現,多線程下,很容易重復爬取相同資源。

              簡單demo地址

              https://github.com/a252937166/crawler4j

              WebMagic

              優勢

              這框架我們公司在用,各方面都比較完美吧,上手難度低,社區活躍度也較高,有問題可以得到及時反饋。

              劣勢

              沒有持久層框架的封裝,需要自己實現。

              簡單demo地址

              這個框架我沒有自己的demo,大家可以去開發者的GitHub看看 https://github.com/code4craft/webmagic

              快速入門

              seimicrawler

              我這里推薦使用seimicrawler,個人感覺這個框架配合JsoupXpath,解析網頁真心非常方便,而且框架整合了spring,用起來也很順手。

              項目地址

              中文官網地址:http://seimicrawler.org/ 官方Github地址:https://github.com/zhegexiaohuozi/SeimiCrawler 自己修改項目地址:https://github.com/a252937166/seimicrawler/

              簡單爬蟲實現

              導入項目

              下載源碼,解壓后把demo目錄的文件單獨拿出來,project目錄不用管,里面是這個框架的一些源碼,demo直接maven依賴它就可以了。 以maven的形式,導入demo,等待jar拉取玩,項目不報錯就說明導入成功了。

              編寫爬蟲

              打開crawlers文件夾,里面每個文件都是一個爬蟲,我們可以學習一下Basic,這是開發者寫的最簡單的爬蟲demo,其他的都可以以此內推。

              package com.ouyang.crawlers;import cn.wanghaomiao.seimi.annotation.Crawler;import cn.wanghaomiao.seimi.def.BaseSeimiCrawler;import cn.wanghaomiao.seimi.struct.Request;import cn.wanghaomiao.seimi.struct.Response;import cn.wanghaomiao.xpath.model.JXDocument;import java.util.HashMap;import java.util.List;import java.util.Map;/** * @author 汪浩淼 [et.tw@163.com] * @since 2015/10/21. */@Crawler(name = "basic")public class Basic extends BaseSeimiCrawler {@Override    public String[] startUrls() {        //兩個是測試去重的        return new String[]{"http://www.cnblogs.com/","http://www.cnblogs.com/"};    }    @Override    public void start(Response response) {        JXDocument doc = response.document();        try {            List

              責任編輯:

              標簽:

              相關推薦:

              精彩放送:

              新聞聚焦
              Top 中文字幕在线观看亚洲日韩