Pecu PPT / Code:https://ceiba.ntu.edu.tw/course/26c034/content/NewsClass.pdf

https://pecu.github.io/NTU_R/NTUCSX/teachers.html

參考資料:

  1. 國立臺灣大學主計室 2015 年統計年報http://acct2015.cc.ntu.edu.tw/

  2. 視覺化資料工具Tableau Public

「資料科學」

#不同技能的交疊:軟體工程師 / 數據工程師 / 資料科學家

#分析方法

  1. 敘述統計

隨機抽樣的樣本集合,進行某些計算與繪圖,忠實呈現出樣本的某些特性。這些計算出的數值,以及呈現出來的圖形,反映出樣本的某些統計特性,讓統計者能透過數值或圖形,大致了解樣本的統計特徵。

  1. 相關係數分析

變項間的相關程度高或低,得到的相關係數只能說明這兩個變項間是正相關、負相關,或者是無關。

相關程度之高低,在正負0.3之間(即0.3至-0.3之間)稱為低度相關 ; 在正負0.3-0.6之間 (即指介於0.3至0.6,-0.3至-0.6之間)稱為中度相關 ; 而在正負0.6至0.9之間(即指在 0.6至0.9,-0.6至-0.9之間)則稱為高度相關 ; 若是為正負1,即表示完全相關 ; 若是為0,即表示無關

  1. 迴歸分析

  2. 變異數分析

  3. 時間序列分析

  4. 機器學習

  5. 深度學習

# 雲端資料分析導引系統(可參考其中範例)http://www.r-web.com.tw/guider/1/section_A.php

期末報告需定義問題,了解自己想要得到什麼答案。

「以空污為例」

#處理政府的空開資料

政府資料開放平台:http://data.gov.tw

行政院環境保護署:http://data.gov.tw/node/6350

幫你的資料說故事

R 被微軟買走了,買走之後開發的套件(ex.machine learning)都在微軟伺服器上,根據使用量計價

#空污R範例

package rm(list = ls(all=TRUE))

library(dplyr) ←記得事先安裝dplyr,使用 install.packages("dplyr")

rawdata = read.csv( 'AQXDaily_20170409211519.csv', encoding = 'UTF-8', header=T)

df <- rawdata %>% group_by(SiteName)

result1 = summarise(df, mean(SO2SubIndex), mean(COSubIndex))← 使用mean()取平均值

#result2 = rawdata %>% filter(PSI < 20)

#SO2<-result2 %>%group_by(SiteName)

#result3 <-summarise(SO2)

#people = read.csv(‘people.csv’,header=T)

#people[,3]=gusb[

%>% (pipe, 管線)名詞解釋:https://blog.gtwang.org/r/r-pipes-magrittr-package/

group_by() :分類(待補

join() :合併(待補含圖

inner_join

left_join

outer_join

台灣行政區人口密度表
(補網址

作業三:

請每一位同學找一張表說故事

使用今天教的group_by / summarise / filter

(可以不使用join)製表

需要包含 想解決或是知道的問題 為何做這張表 以及資料分析故事

同樣使用R markdown繳交

同組做的表要不同

問題範例:

Q1. 每個測站的二氧化硫平均濃度為多少

Q2. 每日平均的二氧化硫濃度為多少

Q3. 哪些測站的二氧化硫濃度較平均低/高

作業繳交deadline 4/30 18:00

資料的分組歸納常用工具

apply、tapply、lapply、sapply、mapply、table

Pecu PPT / Code :

https://goo.gl/e1cNEs

https://ceiba.ntu.edu.tw/modules/index.php?csn=26c034&default_fun=syllabus&current_lang=chinese

自學統計學:台大開放式課程

http://ocw.aca.ntu.edu.tw/ntu-ocw/index.php/ocw/cou/102S113

補充:

  1. ggplot2有以下問題的人

Attaching package: ‘plotly’

The following object is masked from ‘package:ggplot2’:

last_plot

The following object is masked from ‘package:stats’:

filter

The following object is masked from ‘package:graphics’:

layout

**

可以在 Console 打update.packages("ggplot2")解決**

  1. 老師給的資料路徑不能用怎麼辦,是因為 Script 跟要讀的檔案不在同一個 project 裡面

使用自己電腦裡該檔案的絕對路徑如下可以解決

dta <- read.table(file ="data/TIMSS2011TW.txt",

header = TRUE)

變成

dta <- read.table(file ="/Users/tsaitsai/Downloads/teacher/teacher/data/TIMSS2011TW.txt",

header = TRUE)

  1. R Studio 在 Mac 上無法正常顯示中文,都是亂碼?

點選R Studio > Tools > Global Options

選擇 Code > Saving > Default texy encoding

把它改成 UTF-8 ,按 OK 後重啟 R Studio 後中文就可以正常顯示囉!

results matching ""

    No results matching ""