The basics of working in R

Содержание

Слайд 2

The objective of the lecture:

Языки статистического программирования

You will learn how to work

The objective of the lecture: Языки статистического программирования You will learn how
with the basic R tools needed to work in R.
Objectives of the lecture:
Access R packages
Effectively organize your workspace
learn the methods and rules for loading data into R

Слайд 3

Packages:

Языки статистического программирования

Package Overview
Installing packages in R and RStudio
Use of

Packages: Языки статистического программирования Package Overview Installing packages in R and RStudio Use of packages
packages

Слайд 4

Рекомендуемая литература:

Языки статистического программирования

Мастицкий С., Шитиков В. Статистический анализ и визуализация данных

Рекомендуемая литература: Языки статистического программирования Мастицкий С., Шитиков В. Статистический анализ и
с помощью R. ДМК Пресс, 2015. - 496 с.
Роберт И. Кабаков. R в действии. Анализ и визуализация данных на языке R. ДМК Пресс, 2014. – 588 с.
An Introduction to R. интернет-источник: https://cran.r-project.org/doc/manuals/r-release/R-intro.html
Пакеты в R. Основы программирования на R. Видео (10 мин)
https://www.youtube.com/watch?v=DXzHCVEkFz8&list=PLu5flfwrnSD7wxKXFgsiuxrMKLfFHm6CD&index=10

Слайд 5

Языки статистического программирования

A package is a collection of functions created to perform

Языки статистического программирования A package is a collection of functions created to
a specific class of tasks, or a collection of tables with data

1. Package Overview

Слайд 6

Языки статистического программирования

not installed - the package was not installed using

Языки статистического программирования not installed - the package was not installed using
the install.packages function. You can get a list of such packages with the following command:
>setdiff(row.names(available.packages()), .packages(all.available = TRUE))
installed but not connected - the package was installed using the install.packages function, but not connected using the library function. You can get a list of such packages with the following command:
>setdiff(.packages(all.available = TRUE), (.packages()))
installed and connected - the package was installed using the install.packages function and connected using the library function. You can get a list of such packages with the following command
>(.packages())

Getting package information

Слайд 7

Installing a new package (Internet connection required):
> install.packages("package_name")

Языки статистического программирования

2. Installing

Installing a new package (Internet connection required): > install.packages("package_name") Языки статистического программирования
packages in R

Слайд 8

Языки статистического программирования

Download an already installed package:
>library(package)
or
>require(имя_установленного_пакета)
When downloaded, the package may report

Языки статистического программирования Download an already installed package: >library(package) or >require(имя_установленного_пакета) When
various diagnostic information. You can suppress the output of these messages with the suppressPackageStartupMessages () function.
>suppressPackageStartupMessages(library(rvest))

3. Using Packages

Слайд 9

Языки статистического программирования
Connect the ggplot2 package and apply its qplot function:
>library(ggplot2)
>

Языки статистического программирования Connect the ggplot2 package and apply its qplot function:
qplot(carat, price, data = diamonds)

The exercise

Слайд 10

Языки статистического программирования

Getting help that comes with the package A package can

Языки статистического программирования Getting help that comes with the package A package
come with accompanying documentation (help), you can get it like this:
>help(package = "имя_пакета")

Package removal
>remove.packages("имя_пакета")

For example:
>remove.packages(«ggplot2")

s

package

Слайд 11

Языки статистического программирования

Other functions for working with packages:
.libPaths() # returns the directory

Языки статистического программирования Other functions for working with packages: .libPaths() # returns
where the packages are installed
library() # listing installed packages
search() # listing downloaded packages

Слайд 12

Языки статистического программирования

Data can be entered from the keyboard, imported from text

Языки статистического программирования Data can be entered from the keyboard, imported from
files, from Microsoft Excel and Access.

1. Preparing data for R

Слайд 13

Языки статистического программирования

Microsoft Excel is one of the most common programs for

Языки статистического программирования Microsoft Excel is one of the most common programs
preparing data for R.
Before uploading to R, the Excel file is usually saved as a text file .txt or .csv

1. Подготовка данных для R

Слайд 14

Языки статистического программирования

No empty cells – missing values are denoted as NA
Assign

Языки статистического программирования No empty cells – missing values are denoted as
a name to each variable:
No spaces in names
Names must not start with dots or numbers
The file should be placed in the current working folder

Some data preparation rules

Слайд 15

Языки статистического программирования

1. Подготовка данных для R

Рассмотрим чтение данных из текстового

Языки статистического программирования 1. Подготовка данных для R Рассмотрим чтение данных из
документа:
R может читать данные, сохраненные в текстовом (ASCII) файле.
Для этого используются три функции: read.table() (которая имеет два варианта:
read.csv() и read.csv2(),
scan() и read.fwf().
 Например, если мы имеем файл data.txt, то для того чтобы его прочитать можно набрать:
mydata <-read.table ("dataf.txt")

В разных европейских странах, поскольку запятая является десятичной точкой, вместо этого следует использовать функцию read.csv2

Слайд 16

Языки статистического программирования

Функция read.table()

File = "имя.txt": имя файла (или URL-ссылка)
Header = TRUE

Языки статистического программирования Функция read.table() File = "имя.txt": имя файла (или URL-ссылка)
: есть ли в файле заголовки столбцов
Sep = = "\t" или sep = "," : разделитель значений в файле

"Рабочая лошадка" для загрузки данных
Основные аргументы:

Слайд 17

Языки статистического программирования

An example of LOADING DATA

Iris Dataset
(archive.ics.uci.edu/ml/datasets/Iris)
download.file() – downloading file
read.csv()

Языки статистического программирования An example of LOADING DATA Iris Dataset (archive.ics.uci.edu/ml/datasets/Iris) download.file()
– reading data in csv

Слайд 18

Языки статистического программирования

Upload the file to R

>fileUrl <- "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
>download.file(fileUrl, destfile="./iris.csv")

iris.data <- read.csv("./iris.csv")

Языки статистического программирования Upload the file to R >fileUrl >download.file(fileUrl, destfile="./iris.csv") iris.data
# iris.data became data frame

Слайд 19

Языки статистического программирования

Первичный анализ в R

>head(iris.data, 1)
X5.1 X3.5 X1.4 X0.2 Iris.setosa
1 4.9 3.0 1.4 0.2 Iris-setosa

colnames(iris.data)

Языки статистического программирования Первичный анализ в R >head(iris.data, 1) X5.1 X3.5 X1.4
<- c("Sepal.Length", "Sepal.Width",
"Petal.Length", "Petal.Width", "Species")

Слайд 20

Языки статистического программирования

Saving a workspace

> save.image(file =
"pH_experiment.rda")

Языки статистического программирования Saving a workspace > save.image(file = "pH_experiment.rda")

Слайд 21

Языки статистического программирования

Downloading a file from the Internet

>source("http://www.openintro.org/stat/data/present.R")
>str(present)
>head(present)
>summary(present)

Birth data for boys and

Языки статистического программирования Downloading a file from the Internet >source("http://www.openintro.org/stat/data/present.R") >str(present) >head(present)
girls from 1940 to 2002 in the United States

Слайд 22

Языки статистического программирования

4. The treatment of missing values

Consider the following example: suppose

Языки статистического программирования 4. The treatment of missing values Consider the following
we have the result of a survey of the same seven employees. They were asked: how many hours they sleep on average, while one of the respondents refused to answer, another said "I do not know", and the third at the time of the survey was simply not in the office. So there was a missing data:
>h <- c(8, 10, NA, NA, 8, NA, 8)
> h [1] 8 10 NA NA 8 NA 8
From the example you can see that NA should be entered without quotes, and R is not at all embarrassed that among the numbers there is a" like " text

Слайд 23

Языки статистического программирования

If we try to calculate the average value (the mean

Языки статистического программирования If we try to calculate the average value (the
() function), we get:
>mean(h)
[1] NA
To calculate the average value not including NA, you can use
one of two ways:
>mean(h, na.rm=TRUE)
>[1] 8.5
>mean(na.omit(h))
>[1] 8.5

4. The treatment of missing values

Слайд 24

Языки статистического программирования

4. Обработка пропущенных значений

Часто возникает ещё одна проблема: как сделать

Языки статистического программирования 4. Обработка пропущенных значений Часто возникает ещё одна проблема:
подстановку пропущенных данных, скажем, заменить все NA на среднюю по выборке.
Распространённое решение примерно следующее:
>h[is.na(h)] <- mean(h, na.rm=TRUE)
>h
>[1] 8.0 10.0 8.5 8.5 8.0 8.5 8.0
В левой части первого выражения осуществляется индексирование, то есть выбор нужных значений h таких, которые являются пропущенными (is.na()).
После того, как выражение выполнено, «старые» значения исчезают навсегда.

Слайд 25

Языки статистического программирования

Какие источники данных для R вам известны?
Как в R считать

Языки статистического программирования Какие источники данных для R вам известны? Как в
текстовые файлы?
Как в R считать файлы из MS Excel?
Как в R считать интернет- файлы?
Как в R считать файлы баз данных?
Как в R привести исходные данные к аккуратному виду, пригодному для анализа?

Вопросы для самопроверки

Слайд 26

Выводы по лекции 4

МЫ
УЗНАЛИ:

Языки статистического программирования

Какие источники данных можно использовать в R
Какие

Выводы по лекции 4 МЫ УЗНАЛИ: Языки статистического программирования Какие источники данных
данные считаются пригодными к анализу в R
Как привести данные к аккуратному виду
Как скачать данные из файлов *.txt, Excel, Интернета и баз данных
Как работать с пропущенными значениями
Как задавать имена столбцам и строкам

МЫ
НАУЧИЛИСЬ:

Слайд 27

Что такое пакет в R?

А. это программа, необходимая для установки языка

Что такое пакет в R? А. это программа, необходимая для установки языка
R на компьютер

С. это коллекция функций, созданных для выполнения определенного класса задач, или коллекция таблиц с данными

В. это набор драйверов для управления ресурсами в среде R

D. это набор системных команд для управления ядром языка R

Языки статистического программирования

Слайд 28

C.
>library(package)

D.
>insert.packages(name, repos = uri)

Как подключить установленный в R пакет?

C. >library(package) D. >insert.packages(name, repos = uri) Как подключить установленный в R
A.
>(.packages())

B.
>install.packages(name, repos = uri)

Языки статистического программирования

Имя файла: The-basics-of-working-in-R.pptx
Количество просмотров: 51
Количество скачиваний: 0