티스토리 뷰


# 그런데 만약 페이지 소스를 숨겼다면?

url2 <- "https://post.naver.com/viewer/postView.nhn?volumeNo=16542912&memberNo=30120665"

url2


nv2 <- read_html(url2)

nv2

#nv2 를 했을 때 xml_document 라고 나왔으므로 write_xml 으로 한다

write_xml(nv2, file = "naver_post.html")


#만약 마우스 우클릭이 안되서 정보를 못가져온다면

#F12 후 Setting 후 Debugger -> Disable JavaScript 하면 된다

#Java를 이용해서 마우스 우클릭을 막고있기 때문에


#다시 우 클릭 후 페이지 소스보기

#frameset 과 mainframe 을 찾아보자

#근처에 있는 주소를 다시 클릭하면

#똑같이 생긴 창이 다시 뜬다

#주소창에 postview.nhn 이라고 적혀있는 걸 볼 수 있다

#다시 개발자 도구 (F12) 하자

#다시 마우스 우 클릭을 할 수 있는 위에한 것을 한다음

#페이지 소스보기 클릭

#그러면 제대로된 소스가 나온다.


#주소창의 https ~ logNo=어쨌든 숫자

#까지만 가져오자


url2 <- "https://blog.naver.com/PostView.nhn?blogId=kdww1203&logNo=221316567855"

url2


nv2 <- read_html(url2)

nv2


write_xml(nv2, file = "naver_post.html")


#메모장을 열어보면 본문의 내용을 찾아보자

#본문의 내용을 찾으면 본문을 감싸고 있는 함수를 찾아야한다


nvns2 <- html_nodes(nv2, "#postViewArea")

nvns2


body2 <- html_text(nvns2)

body2


#txt 파일로 저장 후 원하는 방식대로 사용하자

write(body2, "monster.txt")



댓글