반응형
데이터 분석에서 데이터를 구하는 일은 늘 숙제인 것 같다.
오늘은 네이버 실시간 증권 뉴스를 가져오는 연습을 진행해본다.
1. 네이버 증권뉴스 주소
finance.naver.com/news/news_list.nhn?mode=LSS2D§ion_id=101§ion_id2=258
뉴스 제목에서 오른쪽 마우스 - 검사를 누르면 오른쪽에 패널이 생기면서 태그들이 생성됨
2. RStudio 켜고 패키지 다운 및 라이브러리 생성
install.packages(c("rvest","ggplot2","dplyr","httr"))
library(httr)
library(rvest)
3. URL 생성
url <- 'https://finance.naver.com/news/news_list.nhn?mode=LSS2D§ion_id=101§ion_id2=258'
data <- GET(url)
위에 링크에 맞는 url을 url객체에 넣어준다.
4. 태그를 찾아 text 뽑아내기
news <- read_html(data, encoding="EUC-KR")
headlines <- news %>%
html_nodes('dl') %>%
html_nodes('.articleSubject') %>%
html_nodes('a') %>%
html_text()
5. 결과 보기
[1] "‘삼천피’‘천스닥’ 시대 눈앞에 왔다"
[2] "박셀바이오, `투자위험종목` 지정에 6일 거래정지된다"
[3] "코로나19로 지친 삶…술·담배 소비액 역대 최대"
[4] "[신년 대예측]코스피 3천 시대?…동학개미 힘 어디까지?"
[5] "[데일리안 오늘뉴스 종합] 박원순 피소 몰랐다는 남인순에 野 맹폭, 배달비 부담에 직접 나.."
[6] "[어르신이 행복한 나라] 경제력 있고 건강한데 여가는 아직도 경로당?"
[7] "두산 오너家, 퓨얼셀 지분 3천억 규모 블록딜로 처분"
[8] "고객 대접할 쿠키를 발 위에…백화점 직원들의 일탈"
[9] "코스피 3000선 육박…배경엔 68조 고객예탁금"
[10] "코스피 1000 돌파후 31년만에 `삼천스피`시대 연다"
[11] "[마켓인사이트]두산 오너家의 '새옹지마'...석달 전보다 50% 높은값에 퓨얼셀 블록딜"
[12] "[표]아시아 주요 증시 동향(1월 5일)"
[13] "국민연금, 대한항공의 아시아나 인수 '반대'...\"주주가치 훼손 우려\""
[14] "5일 장 마감 후 주요 종목 뉴스"
[15] "“세스코, 믿고 먹는 깨끗한 음식점 되는데 도움”"
[16] "장 마감 후 기업공시[1월 5일]"
[17] "[마켓인사이트]AJ셀카, 중고차 '오토허브' 운영사 신동해홀딩스에 매각"
[18] "'8만전자' 된 삼성전자, 시총도 500조원 돌파"
[19] "엔드림, 조이시티 지분 23만주 추가 취득"
[20] "오르비텍, 100억원 규모 CB 발행 결정"
So Happy Baby
크롤링하는 법은 해도 해도 잘 안쓰니 까먹는 것 같다.
R을 산소처럼 사용해야 이 툴이 손에 익을텐데 아직은 멀었나보다.
Qlik 사용하듯 R을 편하게 다루는 날도 얼른 왔으면 좋겠다.
끝
반응형
'Data > R' 카테고리의 다른 글
R) 명령어로 버전 업그레이드 하기 (1) | 2021.02.12 |
---|---|
R) Data Frame 다루기 (0) | 2021.02.06 |
R) lapply와 sapply의 차이 (0) | 2020.04.23 |
R) class(), typeof()의 차이 (0) | 2020.04.23 |
R) apply 정리 (0) | 2020.04.22 |