반응형

데이터 분석에서 데이터를 구하는 일은 늘 숙제인 것 같다.

오늘은 네이버 실시간 증권 뉴스를 가져오는 연습을 진행해본다.

 

1. 네이버 증권뉴스 주소 

finance.naver.com/news/news_list.nhn?mode=LSS2D&section_id=101&section_id2=258

 

실시간 속보 : 네이버 금융

관심종목의 실시간 주가를 가장 빠르게 확인하는 곳

finance.naver.com

뉴스 제목에서 오른쪽 마우스 - 검사를 누르면 오른쪽에 패널이 생기면서 태그들이 생성됨

 

 

2. RStudio 켜고 패키지 다운 및 라이브러리 생성

install.packages(c("rvest","ggplot2","dplyr","httr"))
library(httr)
library(rvest)

 

3. URL 생성

url <- 'https://finance.naver.com/news/news_list.nhn?mode=LSS2D&section_id=101&section_id2=258'
data <- GET(url)

위에 링크에 맞는 url을 url객체에 넣어준다.

 

4. 태그를 찾아 text 뽑아내기

news <- read_html(data, encoding="EUC-KR")

headlines <- news %>% 
  html_nodes('dl') %>% 
  html_nodes('.articleSubject') %>% 
  html_nodes('a') %>% 
  html_text()

 

5. 결과 보기

 [1] "‘삼천피’‘천스닥’ 시대 눈앞에 왔다"                                                  
 [2] "박셀바이오, `투자위험종목` 지정에 6일 거래정지된다"                                     
 [3] "코로나19로 지친 삶…술·담배 소비액 역대 최대"                                          
 [4] "[신년 대예측]코스피 3천 시대?…동학개미 힘 어디까지?"                                   
 [5] "[데일리안 오늘뉴스 종합] 박원순 피소 몰랐다는 남인순에 野 맹폭, 배달비 부담에 직접 나.."
 [6] "[어르신이 행복한 나라] 경제력 있고 건강한데 여가는 아직도 경로당?"                      
 [7] "두산 오너家, 퓨얼셀 지분 3천억 규모 블록딜로 처분"                                      
 [8] "고객 대접할 쿠키를 발 위에…백화점 직원들의 일탈"                                       
 [9] "코스피 3000선 육박…배경엔 68조 고객예탁금"                                             
[10] "코스피 1000 돌파후 31년만에 `삼천스피`시대 연다"                                        
[11] "[마켓인사이트]두산 오너家의 '새옹지마'...석달 전보다 50% 높은값에 퓨얼셀 블록딜"        
[12] "[표]아시아 주요 증시 동향(1월 5일)"                                                     
[13] "국민연금, 대한항공의 아시아나 인수 '반대'...\"주주가치 훼손 우려\""                     
[14] "5일 장 마감 후 주요 종목 뉴스"                                                          
[15] "“세스코, 믿고 먹는 깨끗한 음식점 되는데 도움”"                                        
[16] "장 마감 후 기업공시[1월 5일]"                                                           
[17] "[마켓인사이트]AJ셀카, 중고차 '오토허브' 운영사 신동해홀딩스에 매각"                     
[18] "'8만전자' 된 삼성전자, 시총도 500조원 돌파"                                             
[19] "엔드림, 조이시티 지분 23만주 추가 취득"                                                 
[20] "오르비텍, 100억원 규모 CB 발행 결정"      

So Happy Baby

 

크롤링하는 법은 해도 해도 잘 안쓰니 까먹는 것 같다.

R을 산소처럼 사용해야 이 툴이 손에 익을텐데 아직은 멀었나보다.

Qlik 사용하듯 R을 편하게 다루는 날도 얼른 왔으면 좋겠다.

 

반응형

'Data > R' 카테고리의 다른 글

R) 명령어로 버전 업그레이드 하기  (1) 2021.02.12
R) Data Frame 다루기  (0) 2021.02.06
R) lapply와 sapply의 차이  (0) 2020.04.23
R) class(), typeof()의 차이  (0) 2020.04.23
R) apply 정리  (0) 2020.04.22

+ Recent posts