Pecu PPT / Code:https://ceiba.ntu.edu.tw/course/26c034/content/NewsClass.pdf
https://pecu.github.io/NTU_R/NTUCSX/teachers.html
參考資料:
國立臺灣大學主計室 2015 年統計年報http://acct2015.cc.ntu.edu.tw/
視覺化資料工具Tableau Public
「資料科學」
#不同技能的交疊:軟體工程師 / 數據工程師 / 資料科學家
#分析方法
- 敘述統計
隨機抽樣的樣本集合,進行某些計算與繪圖,忠實呈現出樣本的某些特性。這些計算出的數值,以及呈現出來的圖形,反映出樣本的某些統計特性,讓統計者能透過數值或圖形,大致了解樣本的統計特徵。
- 相關係數分析
變項間的相關程度高或低,得到的相關係數只能說明這兩個變項間是正相關、負相關,或者是無關。
相關程度之高低,在正負0.3之間(即0.3至-0.3之間)稱為低度相關 ; 在正負0.3-0.6之間 (即指介於0.3至0.6,-0.3至-0.6之間)稱為中度相關 ; 而在正負0.6至0.9之間(即指在 0.6至0.9,-0.6至-0.9之間)則稱為高度相關 ; 若是為正負1,即表示完全相關 ; 若是為0,即表示無關
迴歸分析
變異數分析
時間序列分析
機器學習
深度學習
# 雲端資料分析導引系統(可參考其中範例)http://www.r-web.com.tw/guider/1/section_A.php
期末報告需定義問題,了解自己想要得到什麼答案。
「以空污為例」
#處理政府的空開資料
政府資料開放平台:http://data.gov.tw
行政院環境保護署:http://data.gov.tw/node/6350
幫你的資料說故事
R 被微軟買走了,買走之後開發的套件(ex.machine learning)都在微軟伺服器上,根據使用量計價
#空污R範例
package rm(list = ls(all=TRUE))
library(dplyr) ←記得事先安裝dplyr,使用 install.packages("dplyr")
rawdata = read.csv( 'AQXDaily_20170409211519.csv', encoding = 'UTF-8', header=T)
df <- rawdata %>% group_by(SiteName)
result1 = summarise(df, mean(SO2SubIndex), mean(COSubIndex))← 使用mean()取平均值
#result2 = rawdata %>% filter(PSI < 20)
#SO2<-result2 %>%group_by(SiteName)
#result3 <-summarise(SO2)
#people = read.csv(‘people.csv’,header=T)
#people[,3]=gusb[
%>% (pipe, 管線)名詞解釋:https://blog.gtwang.org/r/r-pipes-magrittr-package/
group_by() :分類(待補
join() :合併(待補含圖
inner_join
left_join
outer_join
台灣行政區人口密度表
(補網址
作業三:
請每一位同學找一張表說故事
使用今天教的group_by / summarise / filter
(可以不使用join)製表
需要包含 想解決或是知道的問題 為何做這張表 以及資料分析故事
同樣使用R markdown繳交
同組做的表要不同
問題範例:
Q1. 每個測站的二氧化硫平均濃度為多少
Q2. 每日平均的二氧化硫濃度為多少
Q3. 哪些測站的二氧化硫濃度較平均低/高
作業繳交deadline 4/30 18:00
資料的分組歸納常用工具
apply、tapply、lapply、sapply、mapply、table
Pecu PPT / Code :
https://ceiba.ntu.edu.tw/modules/index.php?csn=26c034&default_fun=syllabus¤t_lang=chinese
自學統計學:台大開放式課程
http://ocw.aca.ntu.edu.tw/ntu-ocw/index.php/ocw/cou/102S113
補充:
- ggplot2有以下問題的人
Attaching package: ‘plotly’
The following object is masked from ‘package:ggplot2’:
last_plot
The following object is masked from ‘package:stats’:
filter
The following object is masked from ‘package:graphics’:
layout
**
可以在 Console 打update.packages("ggplot2")解決**
- 老師給的資料路徑不能用怎麼辦,是因為 Script 跟要讀的檔案不在同一個 project 裡面
使用自己電腦裡該檔案的絕對路徑如下可以解決
dta <- read.table(file ="data/TIMSS2011TW.txt",
header = TRUE)
變成
dta <- read.table(file ="/Users/tsaitsai/Downloads/teacher/teacher/data/TIMSS2011TW.txt",
header = TRUE)
- R Studio 在 Mac 上無法正常顯示中文,都是亂碼?
點選R Studio > Tools > Global Options
選擇 Code > Saving > Default texy encoding
把它改成 UTF-8 ,按 OK 後重啟 R Studio 後中文就可以正常顯示囉!