123,123,123

<center id="kecwe"></center>

<ul id="kecwe"></ul>

<fieldset id="kecwe"></fieldset>

<samp id="kecwe"></samp>

<bdo id="kecwe"></bdo>

當前位置： OFweek 人工智能網(wǎng) > 大數(shù)據(jù) > 正文

如何通過搜索關鍵字來獲取百度貼吧評論區(qū)的圖片和視頻？

2020-12-18 09:37

Python進階學習交流

【一、項目背景】

百度貼吧是全球最大的中文交流平臺，你是否跟我一樣，有時候看到評論區(qū)的圖片想下載呢？或者看到一段視頻想進行下載呢？

今天，小編帶大家通過搜索關鍵字來獲取評論區(qū)的圖片和視頻。

【二、項目目標】

實現(xiàn)把貼吧獲取的圖片或視頻保存在一個文件。

【三、涉及的庫和網(wǎng)站】

1、網(wǎng)址如下：

https：／／tieba．baidu．com／f？ie＝utf－8＆kw＝吳京＆fr＝search

2、涉及的庫：requests、lxml、urrilb

【四、項目分析】

1、反爬措施的處理

前期測試時發(fā)現(xiàn)，該網(wǎng)站反爬蟲處理措施很多，測試到有以下幾個：

1）直接使用requests庫，在不設置任何header的情況下，網(wǎng)站直接不返回數(shù) 據(jù)。

2）同一個ip連續(xù)訪問40多次，直接封掉ip，起初我的ip就是這樣被封掉的。

為了解決這兩個問題，最后經(jīng)過研究，使用以下方法，可以有效解決。

獲取正常的 http請求頭，并在requests請求時設置這些常規(guī)的http請求頭。

2、如何實現(xiàn)搜索關鍵字？

通過網(wǎng)址我們可以發(fā)現(xiàn)只需要在kw＝（），括號中輸入你要搜索的內(nèi)容即可。這樣就可以用一個｛｝來替代它，后面我們在通過循環(huán)遍歷它。

【五、項目實施】

1、創(chuàng)建一個名為BaiduImageSpider的類，定義一個主方法main和初始化方法init。導入需要的庫。import requestsfrom lxml import etreefrom urllib import parseclass BaiduImageSpider（object）： def ＿＿init＿＿（self， tieba＿name）： pass def main（self）： passif ＿＿name＿＿＝＝＇＿＿main＿＿＇： inout＿word ＝ input（＂請輸入你要查詢的信息：＂）
spider．main（） passif ＿＿name＿＿＝＝＇＿＿main＿＿＇： spider＝ ImageSpider（） spider．main（）

2、準備url地址和請求頭headers 請求數(shù)據(jù)。import requestsfrom lxml import etreefrom urllib import parseclass BaiduImageSpider（object）： def ＿＿init＿＿（self， tieba＿name）： self．tieba＿name ＝ tieba＿name ＃輸入的名字 self．url ＝＂http：／／tieba．baidu．com／f？kw＝｛｝＆ie＝utf－8＆pn＝0＂ self．headers ＝｛＇User－Agent＇：＇Mozilla／4．0 （compatible； MSIE 8．0； Windows NT 6．1； WOW64； Trident／4．0； SLCC2；．NET CLR 2．0．50727；．NET CLR 3．5．30729；．NET CLR 3．0．30729； Media Center PC 6．0；．NET4．0C； InfoPath．3）＇｝
＇＇＇發(fā)送請求獲取響應＇＇＇ def get＿parse＿page（self， url， xpath）： html ＝ requests．get（url＝url， headers＝self．headers）．content．decode（＂utf－8＂） parse＿html ＝ etree．HTML（html） r＿list ＝ parse＿html．xpath（xpath） return r＿list def main（self）： url ＝ self．url．format（self．tieba＿name）if ＿＿name＿＿＝＝＇＿＿main＿＿＇： inout＿word ＝ input（＂請輸入你要查詢的信息：＂） key＿word ＝ parse．quote（inout＿word） spider ＝ BaiduImageSpider（key＿word） spider．main（）

1 2 下一頁>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

4日10日
立即報名>> 維科杯· OFweek 2025中國機器人行業(yè)年度評選
4日10日
立即報名>> OFweek 2026（第十五屆）中國機器人產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 12月16-17日 AMD 嵌入式峰會
精彩回顧
立即查看>> 恩智浦創(chuàng)新技術峰會
精彩回顧
立即查看>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久人妻av无码中文字幕

m3u8午夜福利一区二区三区久久久精产国品一产二产三产区中文字幕在线一级av片久久精品国产亚洲AV电影网

<option id="6u0a8"></option>
<noscript id="6u0a8"><rt id="6u0a8"></rt></noscript>

<optgroup id="6u0a8"></optgroup>

<delect id="6u0a8"></delect><code id="6u0a8"><tr id="6u0a8"></tr></code>