Powered by GitBook

week_2

3 Web Crawler

什麼是爬蟲 ?
關於request & response
關於網頁結構與爬蟲
常用爬蟲工具
1. SelectorGadget or InfoLite -- 以CSS結構進行網頁觀察
2. Xpath Helper -- 以Xpath結構進行網頁觀察
3. JsonViewer -- 讓json格式資料美美搭=_+
4. Postman 搭配 httpbin -- 快速了解關於HTTP Request、Response
5. Quick javascript switcher -- 開關網頁的 javascript功能，幫助辨識哪些部分有用到 javascript
Python爬蟲常用packages

爬蟲最困難的地方不在於程式撰寫，而在於對於網站的觀察，很多網站都有超過一種以上的爬蟲方法可以爬取，而這時就要透過觀察網頁所累積的經驗來判斷用什麼方法能夠達成目標，因此學爬蟲最好的方法就是盡量多爬幾個網站，看多就變高手了。以下列出簡易的爬蟲流程給大家參考：

觀察網站是靜態還是動態
觀察網站的 css與 xpath結構 (靜態) 或 network活動(動態) 並進行爬取
利用 pandas處理資料
存入 csv或 database

網站爬蟲範例

結構簡單且無 js動態生成網頁 (靜態爬蟲)

a. PTT爬蟲

b. 淘寶爬蟲

c. 愛評網爬蟲
結構簡單且有 js動態生成網頁 (動態爬蟲)

a. 透過 selenium 或 PhantomJS 爬取

b. 透過 network xhr 找出對應的 get或 post

Reference : 大數學堂

results matching ""

No results matching ""