티스토리 뷰


#네이버 맛집 리뷰 블로그 주소들로 설명

# 웹 소스를 가져 오기 위한 패키지 선언

library(rvest)


# 네이버에서 하양맛집으로 검색 후

# 리뷰 더보기를 누른 후 주소창 주소


url<-"https://search.naver.com/search.naver?where=review&sm=tab_pge&query=%ED%95%98%EC%96%91%EB%A7%9B%EC%A7%91&nso=&start=1"



# html 전체 소스를 가져오기

nv<-read_html(url)



# 리뷰의 리스트들을 가져오기

# rv_list 에는 블로그들의 주소가 들어 간다.(10개)

rv_list<-html_nodes(nv, ".review_tit") %>% html_attr("href")



# 리스트의 갯수를 가져 오기(반복(for문)을 하기 위해)

rv_cnt <- length(rv_list)



# 진짜 블로그 주소를 저장 하기 위한 벡터(배열)

bloglist <- c("")



# 반복문 rv_cnt의 값은 10이 되기 때문에 10번까지 반복

for (i in 1:rv_cnt) {

  # nvns2에 저장된 값을 비우기 

  nvns2 <- ""

  # rv_list[1] 블로그 주소 리스트의 첫번째 부분의 html 소스를

  # 가져 와서 nv2에 저장

  nv2<-read_html(rv_list[i])

  # nv2안에 진짜 주소를 찾기

  nvns2<-html_nodes(nv2, "#mainFrame") %>% html_attr("src")

  # 진짜 주소는 /Postview.nhn으로 시작 되는 부분 인데 앞부분에

  # https:// 부분이 생략이 되어 있어서 붙여 줘야 함.

  nvns2<-paste0("https://blog.naver.com", nvns2)

  # 합쳐진 완전한 블로그 주소를 bloglist 변수에 각각 담ㅇ

  bloglist[i] <- nvns2

  #print(nvns2)   # 확인용

}



# 잘 들어 갔는지 확인

bloglist 



# bloglist.txt 라는 파일에 블로그 리스트들을 저장

write(bloglist, "bloglist.txt")



여러 방법으로 응용가능하다.
하지만 특정 사이트는 사용이 불가능하다.
왜냐하면 구글같은 경우에는 네이버말고도
여러가지 글을 보여주기 때문에 더욱 복잡해진다.


댓글