123,123

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

深挖網(wǎng)絡(luò)爬蟲技術(shù)及Crawl4J應(yīng)用

2019-03-15 10:18

啟迪云計算

配置介紹：

config．setMaxDepthOfCrawling（int maxDepthOfCrawling）：抓取深度限制，默認抓取深度不受限制（設(shè)定值為－1也不受限制）。如種子頁面為A，A鏈接到B，B鏈接到C，C鏈接到D。種子頁面A的深度為0，B的深度為1，以此類推。如果設(shè)定值為2，就不會抓取到D鏈接的內(nèi)容。

config．setPolitenessDelay（int politenessDelay）：每次請求前等待毫秒數(shù)，默認不等待�？梢苑乐棺ト≌埱筮^快而被服務(wù)器端認為是非法請求而終止訪問的情況。

可以通過如下代碼設(shè)定代理設(shè)置：

crawlConfig．setProxyHost（＂proxyserver．example．com＂）；

crawlConfig．setProxyPort（8080）；

如果代理需要認證：

crawlConfig．setProxyUsername（username）；

crawlConfig．getProxyPassword（password）；

解析器

代碼解釋：

shouldVisit（）：用來實現(xiàn)滿足抓取數(shù)據(jù)的條件，如滿足抓取條件則返回true，返回false代表不滿足條件則放棄本次抓取。

visit（）：抓取返回的響應(yīng)結(jié)果，此示例中通過Jsoup來解析響應(yīng)內(nèi)容。Jsoup的代碼解析語法遵循JavaScript規(guī)范要求，對熟悉JavaScript的開發(fā)者使用起來比較方便易懂。

標(biāo)簽定位：HTML標(biāo)簽定位可以通過瀏覽器控制臺的方式進行查看。

資源庫：

本示例中通過Java標(biāo)準輸出流來替代資源庫的實現(xiàn)部分，未單獨實現(xiàn)資源庫的代碼。從輸出結(jié)果可以看出項目設(shè)定10個線程同時抓取滿足條件的第一級深度的博客文章共計21篇。

規(guī)避反爬蟲技術(shù)

在實際項目抓取的過程中應(yīng)該滿足君子協(xié)議即不違背robots．txt定義的抓取協(xié)議。同時爬蟲項目的開發(fā)中可能會遇被抓取的WEB網(wǎng)站對訪問頻繁程度的限制，異步Ajax動態(tài)渲染數(shù)據(jù)等。可以參考如下方法解決：

通過設(shè)定動態(tài)IP代理的方式，每抓取幾次之后動態(tài)更換IP地址，讓服務(wù)器端判斷每次IP來源不同；

通過設(shè)定抓取前休眠時間來降低抓取頻度；

分析動態(tài)Ajax請求，結(jié)合Jsoup進行單獨的URL請求，獲取異步請求數(shù)據(jù)響應(yīng)內(nèi)容；

通過Selenium等相關(guān)自動化測試工具，模擬真實的瀏覽器請求獲取Ajax異步請求渲染之后的數(shù)據(jù)；

通過設(shè)定Header中的值，來規(guī)避相關(guān)請求參數(shù)的限制。

<上一頁 1 2

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

12月9日
立即報名>> 恩智浦創(chuàng)新技術(shù)峰會
【深圳專場】
立即報名 >> 12月16-17日 AMD 嵌入式峰會
12月19日
立即報名>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選
精彩回顧
立即查看>> 【白皮書】精準洞察無線掌控——283FC智能自檢萬用表
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會

一周熱點月點擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网