본문 바로가기
Python

[웹 크롤링] 파이썬 웹크롤링 기초 - 01

by 사용자 집탱구리 2020. 2. 17.

1. 크롤링 하고자하는 정하기

 - 네이버 뉴스 홈

 

2. requests로 html 받아오기

webpage = requests.get('https://news.naver.com/')

 

받아온 페이지를 출력해보자

 

3. BeautifaulSoup으로 html 파싱하기

그냥 print로 출력하면 첫번째 태그 출력됨.

 

하위 구조 출력하는 방법.

 

뉴스홈에 있는 섹션을 가져오고 싶다.

개발자 도구를(F12)켜서 해당 태그를 보면

<div class="main_component">아래의 <h4 class="tit_sec">안의 텍트스 이다.

h4 태그들을 전부 긁어와야 하기 때문에 find_all() 함수를 써야한다.

해당 태그 안에 있는 텍스트만 긁어오기 위해서는 string을 붙인다.

print(tit_sec.string)

클래스명으로 태그 추출

#1번
page_soup.find_all(attrs={'class':'com_list'})

#2번
page_soup.find_all('.com_list')

#1번과 2번 코드의 결과 값은 같다.
#2번이 더 편하다.

 

본격적으로 리스트 추출에 들어가본다.

무수히 많은 <div> 중에 .main_component의 하위 구조를 가져와서 

그안의 .com_list인 <div>를 가져온 뒤 .com_list의 하위 요소 텍스트 추출

댓글0