전체 싸이클을 데이터 500개 단위로 하는게 무난할듯
그래야 도중에 에러잡고 해야 데이터 퀄리티가 올라가
1천개로 올리기만 해도 크롤링 차단당할 lisk도 있고 그럼
웹 크롤링
파이썬 로직에서 예외처리 잘해줘야함
html의 골격이 변하는경우를 제어할수 있는 방법은 없음, 반복작업 하더라도 뒤로 가면서 확인할수 밖에 없어
데이터 전처리
파이썬에서 csv로 만들기 전에 json처리 해줘야, 자바 스프링에서 json문자열 파징하는데 에러 안뜸
파이썬, 자바 각각 할수 있음
날짜 데이터 못가져오는경우 '약 2일전', '5시간 전' 이런식으로 데이터 전처리 필요
조회수 1.3k
데이터 확인, 검수
스프링에서 몇개 찍어보는거로 하고( java타입으로 잡혀야함 !! 이게 맞아 )
이상있으면 csv파일에서 수정 가능한게 있고, 다시 크롤링을 해야하는 경우가 있고
( 이상있을경우 크롤링 코드 수정은 불가피, 꼭 해야함 )
파이썬 데이터로 가지고 있는게 좋음 ?
500개 단위로 하는게 무난할듯
DB저장
성능이슈 문제? > 이미 짜여진 코드 > X
| RDB | ElasticSearch |
| 자주 바뀌는 메타 데이터 ? 좋아요, 조회수 등등 | 내용 |
일단 확정
| RDB | ElasticSearch |
| Post 엔티티 | PostEs 엔티티 |
| 글자수 500자 제한 | 글자수 제한x |
| 일반, HTML상관 x | 일반, HTML상관 x |
| 기존 ERD와 별개로 post, comment | 게시글만? |
데이터 관리
csv파일 - 게시글( url ) 어디부터 어디까지 했는지 , 총 row개수
db데이터들 - 총 row개수 , ??
db에 데이터들이 잘 들어갔는지 확인 해야지
1. row수 찍어봐서 늘어났는지 확인
2. 실제 내용들 확인? 이걸 어떻게 하냐? 몇개 데이터 랜덤으로 브라우저 화면에 뿌려보기?
'Web Development > 웹' 카테고리의 다른 글
| 웹 브라우저에서 HTTP통신 (0) | 2025.03.25 |
|---|---|
| 도커로 RabbitMQ 설치부터 관리페이지 접속까지 (0) | 2025.01.10 |
| 파이썬 웹 크롤링 ~ RDB 저장 (2) | 2024.12.27 |
| 브라우저의 저장소들 02 Cookie (0) | 2024.11.10 |
| 브라우저의 저장소들 01 Storage (3) | 2024.11.09 |