Powered by GitBook

week_2

4 R Crawler

爬蟲最困難的地方不在於程式撰寫，而在於對於網站的觀察，很多網站都有超過一種以上的爬蟲方法可以爬取，而這時就要透過觀察網頁所累積的經驗來判斷用什麼方法能夠達成目標，因此學爬蟲最好的方法就是盡量多爬幾個網站，看多就變高手了。以下列出簡易的爬蟲流程給大家參考：

觀察網站是靜態還是動態
觀察網站的 css與 xpath結構 (靜態) 或 network活動(動態) 並進行爬取
利用 dataframe等資料結構處理資料
存入 csv或 database

什麼是爬蟲?
1. 網路爬蟲MBA智庫百科
關於request & response
1. 請搭配下述Postman與httpbin學習!
關於網頁結構與爬蟲
常用爬蟲工具
1. 瀏覽器內之開發人員工具
  1. 參考此篇介紹
2. SelectorGadget or InfoLite
  1. 以CSS結構進行網頁觀察
3. Xpath Helper
  1. 以Xpath結構進行網頁觀察
4. JsonViewer
  1. 讓json格式資料美美搭=_+
5. Postman
  1. 搭配httpbin，快速了解關於HTTP Request、Response
使用R，建構一支爬蟲!

results matching ""

No results matching ""