Ну тоді: ласкаво просимо у світ R ;-)
Ось ви йдете
Налаштування коду
urls <- c(
"http://stat.ethz.ch/R-manual/R-devel/library/base/html/connections.html",
"http://en.wikipedia.org/wiki/Xz",
"xxxxx"
)
readUrl <- function(url) {
out <- tryCatch(
{
# Just to highlight: if you want to use more than one
# R expression in the "try" part then you'll have to
# use curly brackets.
# 'tryCatch()' will return the last evaluated expression
# in case the "try" part was completed successfully
message("This is the 'try' part")
readLines(con=url, warn=FALSE)
# The return value of `readLines()` is the actual value
# that will be returned in case there is no condition
# (e.g. warning or error).
# You don't need to state the return value via `return()` as code
# in the "try" part is not wrapped insided a function (unlike that
# for the condition handlers for warnings and error below)
},
error=function(cond) {
message(paste("URL does not seem to exist:", url))
message("Here's the original error message:")
message(cond)
# Choose a return value in case of error
return(NA)
},
warning=function(cond) {
message(paste("URL caused a warning:", url))
message("Here's the original warning message:")
message(cond)
# Choose a return value in case of warning
return(NULL)
},
finally={
# NOTE:
# Here goes everything that should be executed at the end,
# regardless of success or error.
# If you want more than one expression to be executed, then you
# need to wrap them in curly brackets ({...}); otherwise you could
# just have written 'finally=<expression>'
message(paste("Processed URL:", url))
message("Some other message at the end")
}
)
return(out)
}
Застосування коду
> y <- lapply(urls, readUrl)
Processed URL: http://stat.ethz.ch/R-manual/R-devel/library/base/html/connections.html
Some other message at the end
Processed URL: http://en.wikipedia.org/wiki/Xz
Some other message at the end
URL does not seem to exist: xxxxx
Here's the original error message:
cannot open the connection
Processed URL: xxxxx
Some other message at the end
Warning message:
In file(con, "r") : cannot open file 'xxxxx': No such file or directory
Дослідження результату
> head(y[[1]])
[1] "<!DOCTYPE html PUBLIC \"-//W3C//DTD HTML 4.01 Transitional//EN\">"
[2] "<html><head><title>R: Functions to Manipulate Connections</title>"
[3] "<meta http-equiv=\"Content-Type\" content=\"text/html; charset=utf-8\">"
[4] "<link rel=\"stylesheet\" type=\"text/css\" href=\"R.css\">"
[5] "</head><body>"
[6] ""
> length(y)
[1] 3
> y[[3]]
[1] NA
Додаткові зауваження
tryCatch
tryCatchповертає значення, пов’язане з виконанням, exprякщо немає помилки чи попередження. У цьому випадку конкретні значення повернення (див. return(NA)Вище) можна задати, надавши відповідну функцію обробника (див. Аргументи errorта warningв ?tryCatch). Це можуть бути функції, які вже є, але ви також можете їх визначити в межах tryCatch()(як я це робив вище).
Наслідки вибору конкретних зворотних значень функцій обробника
Як ми вказали, що NAслід повернути у випадку помилки, третім елементом yє NA. Якби ми вибрали NULLзначення повернення, довжина yпросто була б 2замість того, 3як lapply()просто «ігнорує» повернені значення, які є NULL. Також зауважте, що якщо ви не вкажете явне значення повернення через return(), функції обробника повернуться NULL(тобто у випадку помилки чи попередження).
"Небажане" попереджувальне повідомлення
Оскільки, warn=FALSEздається, не має жодного ефекту, альтернативним способом придушити попередження (що в даному випадку насправді не цікавить) є використання
suppressWarnings(readLines(con=url))
замість
readLines(con=url, warn=FALSE)
Кілька виразів
Зверніть увагу , що ви можете також помістити кілька виразів в «фактичних виразах частини» (аргумент exprпро tryCatch()) , якщо загорнути їх в фігурних дужках (так само , як я ілюстрував в finallyчастині).
pasteфункціях закінчується пробілом, чому б не опустити пробіл таsep=""?