R Basics

relative

# print
print('hello world!')
## [1] "hello world!"
# sequence
seq(1, 10)
##  [1]  1  2  3  4  5  6  7  8  9 10
# random numbers
rnorm(100, mean = 10, sd = 2)
##   [1] 11.085192  9.192332 10.349963 10.238987  9.213114 11.010849  9.267569
##   [8] 12.981547 12.486094 10.128061  7.348144  9.160814 10.498722 11.921668
##  [15] 10.021998 12.507582  5.246055  7.260954 11.193130 11.279005  6.110330
##  [22]  9.054189 10.050198  9.873586 10.552290  5.818445 12.148514  7.985858
##  [29]  6.997446  9.903328 10.717424 11.897656  9.172362  9.784205 10.800245
##  [36]  7.767227  6.486270 10.572088 11.144569  8.408919 11.106370 10.250885
##  [43] 10.778581  7.689642 12.706928  9.297030  8.654339 15.317251 10.219142
##  [50]  7.533850  6.222045 11.034672 11.472195  9.840206  9.339358  7.002769
##  [57]  8.608446 11.554941 10.770206  9.920413 10.386251 10.476744 11.713804
##  [64] 10.843184 11.584776 11.205979  9.169727 10.502087  9.173733  9.088571
##  [71] 10.191449 13.402200 14.658937 11.605204 10.742572  8.863879  9.606648
##  [78]  8.152089  9.749207  9.450558  6.300119  9.643208 10.072190 10.484949
##  [85]  9.421646 12.441273 11.439271  9.846037 11.673512  9.526894 11.802623
##  [92]  9.544732 11.829104 11.433815 12.364725 10.073136 10.445779  9.997659
##  [99] 11.335664 10.305792
# average 
mean(rnorm(100))
## [1] 0.1214006
# sum
sum(rnorm(100))
## [1] -4.961656
my_random_sum <- sum(rnorm(100))
my_random_sum
## [1] -2.514964
# install packages from CRAN
install.packages("tidyverse")
install.packages("remotes")
install.packages("mapview")
remotes::install_github("tbep-tech/peptools")
library("tidyverse")
library("readxl")
library("mapview")
library("peptools")
# Using the help command/shortcut
# When you know the name of a function
help("print") # Help on the print command
?print # Help on the print command using the `?` shortcut

# When you know the name of the package
help(package = "sf") # Help on the package `dplyr`

# Don't know the exact name or just part of it
apropos("print") # Returns all available functions with "print" in the name
??print # shortcut, but also searches demos and vignettes in a formatted page
dbl_var <- c(1, 2.5, 4.5)
int_var <- c(1L, 6L, 10L)
log_var <- c(TRUE, FALSE, T, F)
chr_var <- c("a", "b", "c")
class(dbl_var)
## [1] "numeric"
length(log_var)
## [1] 4
# taking the mean of a character vector
mean(chr_var)

# adding two numeric vectors of different lengths
vec1 <- c(1, 2, 3, 4)
vec2 <- c(2, 3, 5)
vec1 + vec2
ltrs <- c('a', 'b', 'c')
nums <- c(1, 2, 3)
logs <- c(T, F, T)
mydf <- data.frame(ltrs, nums, logs)
mydf
##   ltrs nums  logs
## 1    a    1  TRUE
## 2    b    2 FALSE
## 3    c    3  TRUE
library(readxl)
rawdat <- read_excel('data/currentdata.xlsx')
enterodat <- read_excel('data/enterodata.xlsx')
# get the dimensions
dim(rawdat)
## [1] 33978    41
dim(enterodat)
## [1] 36231     7
# get the column names
names(rawdat)
##  [1] "Date"                         "Time"                        
##  [3] "BayStation"                   "Diurnal"                     
##  [5] "Location"                     "Replicate"                   
##  [7] "Depth"                        "Secchi"                      
##  [9] "Temp"                         "D.O."                        
## [11] "Sal"                          "Cond"                        
## [13] "pH"                           "T Coliform"                  
## [15] "F Coliform"                   "NH3"                         
## [17] "NO2"                          "NO3"                         
## [19] "Nox"                          "Urea"                        
## [21] "TKN"                          "DKN"                         
## [23] "TN"                           "DN"                          
## [25] "Total Phosphate"              "Dissolved Phosphate"         
## [27] "TP"                           "DP"                          
## [29] "o-PO4"                        "TOC"                         
## [31] "DOC"                          "Silicates"                   
## [33] "Chloride"                     "Sulfate"                     
## [35] "TSS"                          "Chlorophyll A - Total"       
## [37] "Chlorophyll A - Fractionated" "Aureo"                       
## [39] "Tide"                         "Weather"                     
## [41] "Water Color"
names(enterodat)
## [1] "Beach_EPA_ID"   "Name"           "FieldNum"       "ColDate"       
## [5] "Time"           "Waterbody_Area" "Result"
# see the first six rows
head(rawdat)
## # A tibble: 6 x 41
##   Date                Time                BayStation Diurnal Location Replicate
##   <dttm>              <dttm>                   <dbl> <chr>   <chr>    <chr>    
## 1 1976-07-20 00:00:00 1899-12-31 07:00:00      60100 A       <NA>     <NA>     
## 2 1976-07-20 00:00:00 1899-12-31 13:20:00      60100 P       <NA>     <NA>     
## 3 1976-07-20 00:00:00 1899-12-31 06:10:00      60110 A       <NA>     <NA>     
## 4 1976-07-20 00:00:00 1899-12-31 06:25:00      60110 A       <NA>     R        
## 5 1976-07-20 00:00:00 1899-12-31 13:00:00      60110 P       <NA>     <NA>     
## 6 1976-07-20 00:00:00 1899-12-31 13:10:00      60110 P       <NA>     R        
## # ... with 35 more variables: Depth <dbl>, Secchi <dbl>, Temp <dbl>,
## #   D.O. <dbl>, Sal <dbl>, Cond <lgl>, pH <lgl>, T Coliform <chr>,
## #   F Coliform <chr>, NH3 <chr>, NO2 <chr>, NO3 <chr>, Nox <lgl>, Urea <lgl>,
## #   TKN <chr>, DKN <chr>, TN <lgl>, DN <lgl>, Total Phosphate <dbl>,
## #   Dissolved Phosphate <dbl>, TP <lgl>, DP <lgl>, o-PO4 <dbl>, TOC <lgl>,
## #   DOC <lgl>, Silicates <lgl>, Chloride <lgl>, Sulfate <lgl>, TSS <lgl>,
## #   Chlorophyll A - Total <dbl>, Chlorophyll A - Fractionated <lgl>,
## #   Aureo <dbl>, Tide <lgl>, Weather <lgl>, Water Color <lgl>
head(enterodat)
## # A tibble: 6 x 7
##   Beach_EPA_ID Name             FieldNum ColDate             Time               
##   <lgl>        <chr>            <chr>    <dttm>              <dttm>             
## 1 NA           Bayport Beach    I10      2020-05-18 00:00:00 1899-12-31 12:00:00
## 2 NA           Sayville Marina~ I11      2020-05-18 00:00:00 1899-12-31 12:00:00
## 3 NA           Bayberry Beach ~ I27      2020-05-18 00:00:00 1899-12-31 12:00:00
## 4 NA           East Islip Beach I4       2020-05-18 00:00:00 1899-12-31 12:00:00
## 5 NA           Islip Beach      I3       2020-05-18 00:00:00 1899-12-31 12:00:00
## 6 NA           Benjamin Beach   I2       2020-05-18 00:00:00 1899-12-31 12:00:00
## # ... with 2 more variables: Waterbody_Area <lgl>, Result <chr>
# get the overall structure
str(rawdat)
## tibble [33,978 x 41] (S3: tbl_df/tbl/data.frame)
##  $ Date                        : POSIXct[1:33978], format: "1976-07-20" "1976-07-20" ...
##  $ Time                        : POSIXct[1:33978], format: "1899-12-31 07:00:00" "1899-12-31 13:20:00" ...
##  $ BayStation                  : num [1:33978] 60100 60100 60110 60110 60110 ...
##  $ Diurnal                     : chr [1:33978] "A" "P" "A" "A" ...
##  $ Location                    : chr [1:33978] NA NA NA NA ...
##  $ Replicate                   : chr [1:33978] NA NA NA "R" ...
##  $ Depth                       : num [1:33978] 10 12 23 23 22 22 NA NA 22 NA ...
##  $ Secchi                      : num [1:33978] NA 6 5 5 6 6 NA NA 4 NA ...
##  $ Temp                        : num [1:33978] 21.8 23.8 22.4 22.4 23.8 23.8 23 23 22.8 23.4 ...
##  $ D.O.                        : num [1:33978] 6.8 7.3 6.8 6.6 7.3 7.7 7.1 7 7.2 6.3 ...
##  $ Sal                         : num [1:33978] 28.3 28.2 28.4 28.4 28.4 ...
##  $ Cond                        : logi [1:33978] NA NA NA NA NA NA ...
##  $ pH                          : logi [1:33978] NA NA NA NA NA NA ...
##  $ T Coliform                  : chr [1:33978] NA "< 3" "< 3" "< 3" ...
##  $ F Coliform                  : chr [1:33978] NA "< 3" "< 3" "< 3" ...
##  $ NH3                         : chr [1:33978] "< 0.002" "2E-3" "< 0.002" "3.0000000000000001E-3" ...
##  $ NO2                         : chr [1:33978] "2E-3" "2E-3" "2E-3" "2E-3" ...
##  $ NO3                         : chr [1:33978] "< 0.002" "< 0.002" "< 0.002" "< 0.002" ...
##  $ Nox                         : logi [1:33978] NA NA NA NA NA NA ...
##  $ Urea                        : logi [1:33978] NA NA NA NA NA NA ...
##  $ TKN                         : chr [1:33978] "0.1" "0.3" "0.1" "< 0.1" ...
##  $ DKN                         : chr [1:33978] NA NA NA NA ...
##  $ TN                          : logi [1:33978] NA NA NA NA NA NA ...
##  $ DN                          : logi [1:33978] NA NA NA NA NA NA ...
##  $ Total Phosphate             : num [1:33978] 0.091 0.096 0.087 0.085 0.091 0.091 NA NA 0.096 NA ...
##  $ Dissolved Phosphate         : num [1:33978] 0.061 0.073 0.06 0.063 0.067 0.069 NA NA 0.061 NA ...
##  $ TP                          : logi [1:33978] NA NA NA NA NA NA ...
##  $ DP                          : logi [1:33978] NA NA NA NA NA NA ...
##  $ o-PO4                       : num [1:33978] NA NA NA NA NA NA NA NA NA NA ...
##  $ TOC                         : logi [1:33978] NA NA NA NA NA NA ...
##  $ DOC                         : logi [1:33978] NA NA NA NA NA NA ...
##  $ Silicates                   : logi [1:33978] NA NA NA NA NA NA ...
##  $ Chloride                    : logi [1:33978] NA NA NA NA NA NA ...
##  $ Sulfate                     : logi [1:33978] NA NA NA NA NA NA ...
##  $ TSS                         : logi [1:33978] NA NA NA NA NA NA ...
##  $ Chlorophyll A - Total       : num [1:33978] NA 3.3 8.6 4.9 5.1 3.7 NA NA 3.7 NA ...
##  $ Chlorophyll A - Fractionated: logi [1:33978] NA NA NA NA NA NA ...
##  $ Aureo                       : num [1:33978] NA NA NA NA NA NA NA NA NA NA ...
##  $ Tide                        : logi [1:33978] NA NA NA NA NA NA ...
##  $ Weather                     : logi [1:33978] NA NA NA NA NA NA ...
##  $ Water Color                 : logi [1:33978] NA NA NA NA NA NA ...
str(enterodat)
## tibble [36,231 x 7] (S3: tbl_df/tbl/data.frame)
##  $ Beach_EPA_ID  : logi [1:36231] NA NA NA NA NA NA ...
##  $ Name          : chr [1:36231] "Bayport Beach" "Sayville Marina Park Beach" "Bayberry Beach & Tennis Club Beach" "East Islip Beach" ...
##  $ FieldNum      : chr [1:36231] "I10" "I11" "I27" "I4" ...
##  $ ColDate       : POSIXct[1:36231], format: "2020-05-18" "2020-05-18" ...
##  $ Time          : POSIXct[1:36231], format: "1899-12-31 12:00:00" "1899-12-31 12:00:00" ...
##  $ Waterbody_Area: logi [1:36231] NA NA NA NA NA NA ...
##  $ Result        : chr [1:36231] "0" "0" "0" "4" ...
View(rawdat)
View(enterodat)

R Basics

Lesson Outline

Lesson Exercises

Goals and Motivation

Why should I invest time in R?

RStudio

Open R and RStudio

Scripting

Executing code in RStudio

Exercise 1

R language fundamentals

What is the environment?

Packages

CRAN

Installing packages

Exercise 2

Getting Help

Help from the console

Official R Resources

Google and StackOverflow

Other Resources

Data structures in R

Vectors (one-dimensional data)

2-dimensional data

Getting your data into R

The working directory

Exercise 3