도깨비 비서 3

2022-03-17 개발 일지

우분투 개발 환경 설정 Django로 SEC Crawler 서버 구축 해보기 초반에 yahoo에 문의하는 거 없애서 속도 올리기 Google_reviews 검색 결과 모아보고 검색 결과가 별로 없는 것은 제외하는 프로그램 작성 IPO쪽 작동 제대로 안하는 것 고치기 트위터 API 데이터 수집 완성 시키기 지금까지 만든 프로그램을 서버에 올려볼 예정이다. Django를 배워야 해서 시간이 좀 걸리겠지만 SEC 크롤러 기능부터 하나씩 올려서 필요한 기능을 탑재할 예정이다. Django, 데이터 분석 공부해서 실시간 가치평가, 각종 금융 안전성에 관한 모니터링을 서버에 올리면 당장 필요한 기능은 대부분 구현이 가능해진다. 올해 9월까지 완료하는 것이 목표. 미국 주식에 대한 투자 프로그램은 별로 없었는 데, ..

도깨비 비서 2022.03.17

2022-03-09 투자 프로그램 개발 일지

IPO시장에서 가져오는 정보와 내가 워치리스트 그룹에 넣어놓는 두가지 방식으로 나눔 구글 랜덤 리뷰 크롤링 기능 구현 스케쥴링 기능을 정해진 스케쥴 (언제나, 매일, 격일, 주일, 격주, 달별)로 모아야하는 정보를 분류해 크롤링의 부담을 줄임 중간에 프로그램이 종료되더라도 다음 실행시 실패한 부분을 포함해 실행하는 기능을 구현 멀티 프로세싱을 통해 항상 크롤링이 필요한 부분과 스케쥴을 통해 관리하는 부분을 동시에 실행시키는 기능을 구현 실패시 텔레그램으로 실패 시점과 이유를 보내는 기능을 구현 뉴스 크롤링 SNS(인스타, 유튜브, 페이스북, 트위터) 기능 구현 구글 리뷰 크롤러 캡챠를 방지할 대책 생각 체크 포인트, 에러 포인트 저장 기능 더 확실히 구현 클라우드 상에서 SEC크롤링, 웹에서 계속 모니터..

도깨비 비서 2022.03.09

2022-02-09(데이터 크롤러 개발 일지)

Linkedin에서 Ajax 통해 데이터 가져오는 법을 알아냈다. Headers가 너무 많아져서 pickle로 저장 기존의 Crawling을 Scraping + Parser 두가지로 나누어서 기능을 나누기 멀티 프로세싱을 이용해서 사이트 별로 requests를 나눠 데이터 가져오는 속도 증가 nltk로 단어 단위로 나누어서 Google_search_api 사용시 말도 안되는 검색 결과를 거름 Verifier라는 클래스를 만들어 크롤링해서 얻은 데이터와 실제 기업의 관련 홈페이지가 맞는지 검사 크롤링 횟수를 조절해서 1주일에 한번 크롤링하는 홈페이지, 하루에 한번 격일에 한번 이런식으로 데이터에 따라 빈도를 다르게 크롤링하는 방법을 고안 랜덤한 구글 리뷰를 크롤링(주에 한번) 뉴스 크롤링 기능 구현 아마 ..

도깨비 비서 2022.02.09