week_2


4 R Crawler

爬蟲最困難的地方不在於程式撰寫,而在於對於網站的觀察,很多網站都有超過一種以上的爬蟲方法可以爬取,而這時就要透過觀察網頁所累積的經驗來判斷用什麼方法能夠達成目標,因此學爬蟲最好的方法就是盡量多爬幾個網站,看多就變高手了。以下列出簡易的爬蟲流程給大家參考:

  1. 觀察網站是靜態還是動態
  2. 觀察網站的 css與 xpath結構 (靜態) 或 network活動(動態) 並進行爬取
  3. 利用 dataframe等資料結構處理資料
  4. 存入 csv或 database

  1. 什麼是爬蟲?
    1. 網路爬蟲MBA智庫百科
  2. 關於request & response
    1. 請搭配下述Postman與httpbin學習!
  3. 關於網頁結構與爬蟲
    1. HTML Tutorial
    2. XML Tutorial
    3. XML Path Tutorial
  4. 常用爬蟲工具

    1. 瀏覽器內之開發人員工具
      1. 參考此篇介紹
    2. SelectorGadget or InfoLite
      1. 以CSS結構進行網頁觀察
    3. Xpath Helper
      1. 以Xpath結構進行網頁觀察
    4. JsonViewer
      1. 讓json格式資料美美搭=_+
    5. Postman
      1. 搭配httpbin,快速了解關於HTTP Request、Response
  5. 使用R,建構一支爬蟲!

    1. R Crawler R爬蟲
    2. 超簡單爬蟲教學-使用R軟體的rvest套件抓網站資料(基礎篇)
    3. 第一次爬蟲就上手 rvest_tutorial
    4. 用xml2爬美國中情局(CIA)的解密文件資料庫
    5. R語言爬蟲常用方法
    6. 使用 R 與 rvest 套件擷取網頁資料

results matching ""

    No results matching ""