2022-02-09(데이터 크롤러 개발 일지)

도깨비 비서

2022-02-09(데이터 크롤러 개발 일지)

도깨비사장 2022. 2. 9. 17:15

Linkedin에서 Ajax 통해 데이터 가져오는 법을 알아냈다.

<앞으로 추가 수정할 데이터 크롤러 프로그램 계획안>

Headers가 너무 많아져서 pickle로 저장
기존의 Crawling을 Scraping + Parser 두가지로 나누어서 기능을 나누기
멀티 프로세싱을 이용해서 사이트 별로 requests를 나눠 데이터 가져오는 속도 증가
nltk로 단어 단위로 나누어서 Google_search_api 사용시 말도 안되는 검색 결과를 거름
Verifier라는 클래스를 만들어 크롤링해서 얻은 데이터와 실제 기업의 관련 홈페이지가 맞는지 검사
크롤링 횟수를 조절해서 1주일에 한번 크롤링하는 홈페이지, 하루에 한번 격일에 한번 이런식으로 데이터에 따라 빈도를 다르게 크롤링하는 방법을 고안
랜덤한 구글 리뷰를 크롤링(주에 한번)
뉴스 크롤링 기능 구현

아마 위의 기능을 다 구현하고 나면 전체 프로그램의 절반 정도는 완성이 된 것이다.

'도깨비 비서' 카테고리의 다른 글

2022-03-17 개발 일지 (0)	2022.03.17
2022-03-09 투자 프로그램 개발 일지 (0)	2022.03.09

현재글2022-02-09(데이터 크롤러 개발 일지)

제가 꿈꾸는 미래를 채워 줄 기업에 투자합니다. 내일을 오늘보다 더 나은 미래로 만드는 기업에 집중합니다. 벤처는 20년뒤의 우리나라의 힘이며 모습입니다.

벤처, 성장주, 투자, 4차 산업 혁명, 전기차, 블록체인, 보험, 친환경, IPO, 4차 산업혁명, 스팩주, 라이다, 제조업, 코로나, Ai, 배터리, 3D 프린팅, 암호화폐, 자율주행, 스팩,

Today :
Yesterday :

티스토리툴바