week_2
4 R Crawler
爬蟲最困難的地方不在於程式撰寫,而在於對於網站的觀察,很多網站都有超過一種以上的爬蟲方法可以爬取,而這時就要透過觀察網頁所累積的經驗來判斷用什麼方法能夠達成目標,因此學爬蟲最好的方法就是盡量多爬幾個網站,看多就變高手了。以下列出簡易的爬蟲流程給大家參考:
- 觀察網站是靜態還是動態
- 觀察網站的 css與 xpath結構 (靜態) 或 network活動(動態) 並進行爬取
- 利用 dataframe等資料結構處理資料
- 存入 csv或 database
- 什麼是爬蟲?
- 關於request & response
- 請搭配下述Postman與httpbin學習!
- 關於網頁結構與爬蟲
常用爬蟲工具
- 瀏覽器內之開發人員工具
- 參考此篇介紹
- SelectorGadget or InfoLite
- 以CSS結構進行網頁觀察
- Xpath Helper
- 以Xpath結構進行網頁觀察
- JsonViewer
- 讓json格式資料美美搭=_+
- Postman
- 搭配httpbin,快速了解關於HTTP Request、Response
- 瀏覽器內之開發人員工具
使用R,建構一支爬蟲!