Skip to content

Latest commit

 

History

History
84 lines (50 loc) · 2.31 KB

README.md

File metadata and controls

84 lines (50 loc) · 2.31 KB

Selenium과 Beautifulsoup을 이용한 파이썬 웹 스크랩핑

image

🔥목차🔥

🍓 1. 크롤링

🍓 2. 개발 환경 구축

🍓 3, 웹드라이버란?

🍓 4. Selenium과 Beautifulsoup의 차이점

🐥 예제 1 - 여러 영화 제목 및 평점 크롤링

🐥 예제 2 - 인터파크 해외여행지 정보 크롤링

🍓 1. 크롤링

크롤링이란?

웹 페이지를 그대로 가져와 데이터를 추출해 내는 행위

머신러닝 영역 안에 빅데이터 처리 분석의 데이터 수집에 해당

selenium 과 Beautifulsoup을 이용해서 데이터 수집

크롤러 ?

크롤링 소프트웨어

🍓 2. 개발 환경 구축

기술스택

  • 프로그래밍 언어 : Python (3.x)

개발툴

  • IDE : vscode

Plugin 설치

  • Python
  • Python for VSCode
  • Python Extension Pack
  • Python (PyDev)

사용 모듈

  • selenium
  • bs4 (=Beautifulsoup)

웹 드라이버

  • Chrome 드라이버 설치
  • Phantom 드라이버 설치

🍓 3, 웹드라이버란?

  • 자동화 설계
  • 시나리오에 따른 움직임

🍓 4. Selenium과 Beautifulsoup의 차이점

Selenium

BeautifulSoup은 사용자 행동을 특정해서 데이터를 가져올 수 없다.
사용자의 행동을 동적으로 추가하기 위해 Selenium이 필요하다.

  • 웹드라이버 띠우기
  • 에이전트 조작
  • 프록시 조작

Selenium 공식문서

BeautifulSoup

HTML과 XML을 파싱하는데 사용되는 파이썬 라이브러리이다.

BeautifulSoup 공식문서

🐥 예제 1 - 여러 영화 제목 및 평점 크롤링

2019년 9월 27일 기준으로 영화들의 제목 및 평점 크롤링

🐥 예제 2 - 인터파크 해외여행지 정보 크롤링

찰나의 개발흔적(aonee.tistory.com) - [crawling] Selenium, BeautifulSoup을 이용한 크롤링 - 인터파크 여행지 크롤링