목차
- 환경설정 - 파이썬 개발 환경 설정(구름 IDE)
- 원하는 사이트 크롤링하여 텍스트 저장
- 이미지 크롤링 라이브러리 사용
개념
🤷♀️ 크롤링이란?
크롤링이란 웹 상에 존재하는 데이터를 자동적으로 탐색하는 행위
크롤링 = 파싱 = 스크래핑 = 스파이더링
방대한 양의 데이터를 빠르게 수집 가능하다는 장점이 있다.
1. 환경설정
통합개발환경을 활용하면 복잡하게 파이썬을 설치하지 않고도 크롤링 예제 구현이 가능하다.
- 구름 IDE 회원가입
- 새 컨테이너 만들기 (컨테이너 이름(crawling), 공개범위(public), 개발언어(python), 자막(한국어)로 설정 후 생성)
- index.py 자동생성 확인, 실행창에 python index.py 입력 후 "Hello Python" 출력되는지 확인
2. 텍스트 크롤링
- BeautifulSoup 검색 - 우측 위키백과 클릭 - 예시 코드 복사
#!/usr/bin/env python3
# Anchor extraction from HTML document
from bs4 import BeautifulSoup
from urllib.request import urlopen
with urlopen('https://en.wikipedia.org/wiki/Main_Page') as response:
soup = BeautifulSoup(response, 'html.parser')
for anchor in soup.find_all('a'):
print(anchor.get('href', '/'))
- 복사한 텍스트 index,py에 붙여 넣기
- 원하는 url로 변경 -> 네이버 뉴스 IT/과학
- BeautifulSoup 사이트 접속, 원하는 데이터의 태그 찾는 법 확인 → span태그, class이름 : cluster_head_sub_topic
- python text file write 검색
- 파일을 쓰기 모드로 열어 출력값 적기 복사하기
# writedata.py
f = open("C:/doit/새파일.txt", 'w')
for i in range(1, 11):
data = "%d번째 줄입니다.\n" % i
f.write(data)
f.close()
- 다음과 같이 수정
- '새파일' 생성되는지, 원하는 데이터가 텍스트로 저장되는지 확인
패키지 관리자 PIP
💖 pip란?
파이썬으로 작성된 패키지 소프트웨어를 설치·관리하는 패키지 관리 시스템이다.
💖 패키지 개념
PPT를 만들기 위해서는 PPT 프로그램을 깔아야 실행이 가능한 것과 같은 맥락
3. 이미지 크롤링
- python google image search and download 검색
- 구글 이미지 크롤링 라이브러리 사용하기
- 해당 사이트에서 pip install google_images_download 복사 후 실행창에 붙여넣기
pip install google_images_download
- code sample 복사하기
from google_images_download import google_images_download #importing the library
response = google_images_download.googleimagesdownload() #class instantiation
arguments = {"keywords":"Polar bears,baloons,Beaches","limit":20,"print_urls":True} #creating list of arguments
paths = response.download(arguments) #passing the arguments to the function
print(paths) #printing absolute paths of the downloaded images
- 새 파일 - google.py - 복사한 코드 붙여 넣기
- 키워드와 수집할 이미지 개수(limit)를 수정하여 원하는 데이터를 원하는 만큼 모아보기
실행 시 파일 생성은 되지만 이미지 다운로드가 안된다면,
- 기존 라이브러리 삭제
pip uninstall google_images_download
2. 수정 라이브러리 설치
pip install git+https://github.com/Joeclinton1/google-images-download.git
3. 재실행
python google.py
4. 정상 다운로드 확인
참고 사이트
- 크롤링 시 태그 찾기 참고 사이트
반응형