티스토리 뷰

공부합시다/찍먹

[R] rvest pkg for Crawling

신규_유저 2021. 4. 13. 16:06
install.packages("rvest")
library(rvest)

install.packages("rvest")
library(rvest)
library(stringr)

# 크롤링 결과를 담는 주머니
title <- c()
press <- c()
time <- c()
body <- c()
url <- c()

url_base <- "https://news.daum.net/breakingnews?page=i"
for(i in 1:100){ #1~100까지 페이지 가져오기
url_crawl=paste(url_base,i,sep="")

t_css <- "#mArticle .tit_thumb .link_txt"
pt_css <- ".info_news"
b_css <- ".desc_thumb"

hdoc <- read_html(url_base)
t_node <- html_nodes(hdoc, t_css)
pt_node <- html_nodes(hdoc, pt_css)
b_node <- html_nodes(hdoc, b_css)

# 해당 내용에서 텍스트파일만 읽어옴
title_part <- html_text(t_node)
pt_part <- html_text(pt_node)
b_part <- html_text(b_node)
body_part = gsub("\n","",b_part)
time_part=str_sub(pt_part,-5) #-5는 뒤에서부터 5개 가져오란 거임
press_part=str_sub(pt_part,end=-9)
body_part=str_trim(body_part,side = "both")
url_part=html_attr(t_node,"href")

title=c(title,title_part)
press=c(press,press_part)
time=c(time,time_part)
body=c(body,body_part)
url=c(url,url_part)
}
news=cbind(title,press,time,body,url)
View(news)
write.csv(news,"news.csv") #csv파일로 저장

반응형
LIST

'공부합시다 > 찍먹' 카테고리의 다른 글

[R] 성경크롤링에 따른 텍스트마이닝  (0) 2021.04.13
[R] 영화 평점에 따른 타이틀 선정크롤링  (0) 2021.04.13
[R] 한국복지패널 데이터 분석하기  (0) 2021.04.13
[R] Barplot  (0) 2021.04.13
[R] Dygraph pkg  (0) 2021.04.12
댓글
링크
공지사항
최근에 올라온 글