week_2


3 Web Crawler

爬蟲最困難的地方不在於程式撰寫,而在於對於網站的觀察,很多網站都有超過一種以上的爬蟲方法可以爬取,而這時就要透過觀察網頁所累積的經驗來判斷用什麼方法能夠達成目標,因此學爬蟲最好的方法就是盡量多爬幾個網站,看多就變高手了。以下列出簡易的爬蟲流程給大家參考:

  1. 觀察網站是靜態還是動態
  2. 觀察網站的 css與 xpath結構 (靜態) 或 network活動(動態) 並進行爬取
  3. 利用 pandas處理資料
  4. 存入 csv或 database

網站爬蟲範例

Reference : 大數學堂

results matching ""

    No results matching ""