[SK 쉴더스 루키즈] openpyxl & schedule
·
Security/SK Shieldus Rookies
이번에는 파이썬에서 엑셀을 다루는 라이브러리인 openpyxl과 스케줄러 라이브러리인 schedule을 알아보자. openpyxlopenpyxl은 엑셀을 다룰 수 있는 파이썬 라이브러리다. 나중에 csv 파일을 엑셀로 옮겨서 작업할 때 좋을 것 같다. 회사 생활을 하다 보면 엑셀을 다뤄야 하는 경우가 많을 테니까 말이다. 기본적으로 엑셀은 파일을 나타내는 워크북과 하나의 시트를 나타내는 워크시트로 이루어져 있다. 하나의 워크북 안에 여러 개의 워크시트가 있는 것이다. 이를 참고하여 다음 명령어를 살펴보자. Workbook() : 새 엑셀 파일 생성ws.append() : 워크시트에 리스트 형태 데이터를 행 단위로 추가sheet['A1'] = value : 특정 셀 안에 데이터 추가PatternFill ..
[SK 쉴더스 루키즈] BeautifulSoup
·
Security/SK Shieldus Rookies
html 문서 파싱을 통해 웹 크롤링을 도와주는 BeautifulSoup 라이브러리를 알아보자. BeautifulSoup웹 크롤링을 도와주는 라이브러리다. BeautifulSoup 혼자 웹 크롤링을 하는 것은 아니고, request 라이브러리가 HTTP Response를 가져오면 BeautifulSoup가 html 파싱을 진행한다. 라이브러리를 이용해 다양한 사이트에서 다양한 정보를 가져올 수 있다. 유의점어느 사이트의 정보를 다 가져올 수 있는 만큼 주의해야할 점도 있다. 1️⃣ robots.txt 웹사이트 메인 홈페이지 뒤에 /robots.txt를 붙여 검색해 보면 사이트 별로 크롤링에 대한 정책들이 나와 있다. 이걸 위반할 시 책임을 묻게 되므로 주의하자. 위의 구글 예시를 보면 finan..