티스토리 뷰
#네이버 맛집 리뷰 블로그 주소들로 설명
# 웹 소스를 가져 오기 위한 패키지 선언
library(rvest)
# 네이버에서 하양맛집으로 검색 후
# 리뷰 더보기를 누른 후 주소창 주소
url<-"https://search.naver.com/search.naver?where=review&sm=tab_pge&query=%ED%95%98%EC%96%91%EB%A7%9B%EC%A7%91&nso=&start=1"
# html 전체 소스를 가져오기
nv<-read_html(url)
# 리뷰의 리스트들을 가져오기
# rv_list 에는 블로그들의 주소가 들어 간다.(10개)
rv_list<-html_nodes(nv, ".review_tit") %>% html_attr("href")
# 리스트의 갯수를 가져 오기(반복(for문)을 하기 위해)
rv_cnt <- length(rv_list)
# 진짜 블로그 주소를 저장 하기 위한 벡터(배열)
bloglist <- c("")
# 반복문 rv_cnt의 값은 10이 되기 때문에 10번까지 반복
for (i in 1:rv_cnt) {
# nvns2에 저장된 값을 비우기
nvns2 <- ""
# rv_list[1] 블로그 주소 리스트의 첫번째 부분의 html 소스를
# 가져 와서 nv2에 저장
nv2<-read_html(rv_list[i])
# nv2안에 진짜 주소를 찾기
nvns2<-html_nodes(nv2, "#mainFrame") %>% html_attr("src")
# 진짜 주소는 /Postview.nhn으로 시작 되는 부분 인데 앞부분에
# https:// 부분이 생략이 되어 있어서 붙여 줘야 함.
nvns2<-paste0("https://blog.naver.com", nvns2)
# 합쳐진 완전한 블로그 주소를 bloglist 변수에 각각 담ㅇ
bloglist[i] <- nvns2
#print(nvns2) # 확인용
}
# 잘 들어 갔는지 확인
bloglist
# bloglist.txt 라는 파일에 블로그 리스트들을 저장
write(bloglist, "bloglist.txt")