웹 페이지를 그대로 가져와 데이터를 추출해 내는 행위
머신러닝 영역 안에 빅데이터 처리 분석의 데이터 수집에 해당
selenium 과 Beautifulsoup을 이용해서 데이터 수집
크롤링 소프트웨어
- 프로그래밍 언어 : Python (3.x)
- IDE : vscode
- Python
- Python for VSCode
- Python Extension Pack
- Python (PyDev)
- selenium
- bs4 (=Beautifulsoup)
- Chrome 드라이버 설치
- Phantom 드라이버 설치
- 자동화 설계
- 시나리오에 따른 움직임
BeautifulSoup은 사용자 행동을 특정해서 데이터를 가져올 수 없다.
사용자의 행동을 동적으로 추가하기 위해 Selenium이 필요하다.
- 웹드라이버 띠우기
- 에이전트 조작
- 프록시 조작
HTML과 XML을 파싱하는데 사용되는 파이썬 라이브러리이다.
2019년 9월 27일 기준으로 영화들의 제목 및 평점 크롤링
찰나의 개발흔적(aonee.tistory.com) - [crawling] Selenium, BeautifulSoup을 이용한 크롤링 - 인터파크 여행지 크롤링