티스토리 뷰
install.packages("rvest")
library(rvest)
install.packages("rvest")
library(rvest)
library(stringr)
# 크롤링 결과를 담는 주머니
title <- c()
press <- c()
time <- c()
body <- c()
url <- c()
url_base <- "https://news.daum.net/breakingnews?page=i"
for(i in 1:100){ #1~100까지 페이지 가져오기
url_crawl=paste(url_base,i,sep="")
t_css <- "#mArticle .tit_thumb .link_txt"
pt_css <- ".info_news"
b_css <- ".desc_thumb"
hdoc <- read_html(url_base)
t_node <- html_nodes(hdoc, t_css)
pt_node <- html_nodes(hdoc, pt_css)
b_node <- html_nodes(hdoc, b_css)
# 해당 내용에서 텍스트파일만 읽어옴
title_part <- html_text(t_node)
pt_part <- html_text(pt_node)
b_part <- html_text(b_node)
body_part = gsub("\n","",b_part)
time_part=str_sub(pt_part,-5) #-5는 뒤에서부터 5개 가져오란 거임
press_part=str_sub(pt_part,end=-9)
body_part=str_trim(body_part,side = "both")
url_part=html_attr(t_node,"href")
title=c(title,title_part)
press=c(press,press_part)
time=c(time,time_part)
body=c(body,body_part)
url=c(url,url_part)
}
news=cbind(title,press,time,body,url)
View(news)
write.csv(news,"news.csv") #csv파일로 저장
반응형
LIST
'공부합시다 > 찍먹' 카테고리의 다른 글
[R] 성경크롤링에 따른 텍스트마이닝 (0) | 2021.04.13 |
---|---|
[R] 영화 평점에 따른 타이틀 선정크롤링 (0) | 2021.04.13 |
[R] 한국복지패널 데이터 분석하기 (0) | 2021.04.13 |
[R] Barplot (0) | 2021.04.13 |
[R] Dygraph pkg (0) | 2021.04.12 |
댓글