Linkedin에서 Ajax 통해 데이터 가져오는 법을 알아냈다.
<앞으로 추가 수정할 데이터 크롤러 프로그램 계획안>
- Headers가 너무 많아져서 pickle로 저장
- 기존의 Crawling을 Scraping + Parser 두가지로 나누어서 기능을 나누기
- 멀티 프로세싱을 이용해서 사이트 별로 requests를 나눠 데이터 가져오는 속도 증가
- nltk로 단어 단위로 나누어서 Google_search_api 사용시 말도 안되는 검색 결과를 거름
- Verifier라는 클래스를 만들어 크롤링해서 얻은 데이터와 실제 기업의 관련 홈페이지가 맞는지 검사
- 크롤링 횟수를 조절해서 1주일에 한번 크롤링하는 홈페이지, 하루에 한번 격일에 한번 이런식으로 데이터에 따라 빈도를 다르게 크롤링하는 방법을 고안
- 랜덤한 구글 리뷰를 크롤링(주에 한번)
- 뉴스 크롤링 기능 구현
아마 위의 기능을 다 구현하고 나면 전체 프로그램의 절반 정도는 완성이 된 것이다.
'도깨비 비서' 카테고리의 다른 글
2022-03-17 개발 일지 (0) | 2022.03.17 |
---|---|
2022-03-09 투자 프로그램 개발 일지 (0) | 2022.03.09 |