티스토리 뷰
# 그런데 만약 페이지 소스를 숨겼다면?
url2 <- "https://post.naver.com/viewer/postView.nhn?volumeNo=16542912&memberNo=30120665"
url2
nv2 <- read_html(url2)
nv2
#nv2 를 했을 때 xml_document 라고 나왔으므로 write_xml 으로 한다
write_xml(nv2, file = "naver_post.html")
#만약 마우스 우클릭이 안되서 정보를 못가져온다면
#F12 후 Setting 후 Debugger -> Disable JavaScript 하면 된다
#Java를 이용해서 마우스 우클릭을 막고있기 때문에
#다시 우 클릭 후 페이지 소스보기
#frameset 과 mainframe 을 찾아보자
#근처에 있는 주소를 다시 클릭하면
#똑같이 생긴 창이 다시 뜬다
#주소창에 postview.nhn 이라고 적혀있는 걸 볼 수 있다
#다시 개발자 도구 (F12) 하자
#다시 마우스 우 클릭을 할 수 있는 위에한 것을 한다음
#페이지 소스보기 클릭
#그러면 제대로된 소스가 나온다.
#주소창의 https ~ logNo=어쨌든 숫자
#까지만 가져오자
url2 <- "https://blog.naver.com/PostView.nhn?blogId=kdww1203&logNo=221316567855"
url2
nv2 <- read_html(url2)
nv2
write_xml(nv2, file = "naver_post.html")
#메모장을 열어보면 본문의 내용을 찾아보자
#본문의 내용을 찾으면 본문을 감싸고 있는 함수를 찾아야한다
nvns2 <- html_nodes(nv2, "#postViewArea")
nvns2
body2 <- html_text(nvns2)
body2
#txt 파일로 저장 후 원하는 방식대로 사용하자
write(body2, "monster.txt")
'컴퓨터 언어 공부 > RStudio' 카테고리의 다른 글
RStudio 크롤링 간단 방법 정리 (뉴스 기사로 설명) (1) | 2018.08.22 |
---|---|
(RStudio) 많이나온 글자 수 확인하고 예쁘게 정리하기 (0) | 2018.08.22 |