도깨비 비서

2022-02-09(데이터 크롤러 개발 일지)

도깨비사장 2022. 2. 9. 17:15

Linkedin에서 Ajax 통해 데이터 가져오는 법을 알아냈다.

 

<앞으로 추가 수정할 데이터 크롤러 프로그램 계획안>

  1. Headers가 너무 많아져서 pickle로 저장
  2. 기존의 Crawling을 Scraping + Parser 두가지로 나누어서 기능을 나누기
  3. 멀티 프로세싱을 이용해서 사이트 별로 requests를 나눠 데이터 가져오는 속도 증가
  4. nltk로 단어 단위로 나누어서 Google_search_api 사용시 말도 안되는 검색 결과를 거름
  5. Verifier라는 클래스를 만들어 크롤링해서 얻은 데이터와 실제 기업의 관련 홈페이지가 맞는지 검사
  6. 크롤링 횟수를 조절해서 1주일에 한번 크롤링하는 홈페이지, 하루에 한번 격일에 한번 이런식으로 데이터에 따라 빈도를 다르게 크롤링하는 방법을 고안
  7. 랜덤한 구글 리뷰를 크롤링(주에 한번)
  8. 뉴스 크롤링 기능 구현

아마 위의 기능을 다 구현하고 나면 전체 프로그램의 절반 정도는 완성이 된 것이다. 

'도깨비 비서' 카테고리의 다른 글

2022-03-17 개발 일지  (0) 2022.03.17
2022-03-09 투자 프로그램 개발 일지  (0) 2022.03.09