Data의 여행

1. 파이썬 Selenium으로 웹 크롤링

1-1. HTML을 볼수 있어야함, copy xpath 가 개꿀 도구임
( 크롬 개발자도구 - Elements - 해당요소 우클릭 - copy - copy xpath )
1-2. 파이썬에서 for문, try-except 예외처리 등으로
알고리즘 적절히 구현해야함


2. 파이썬 Pandas로 데이터를 csv파일로 변환

크롤링한 데이터들 DataFrame으로 만들고, DataFrame을 csv파일로 만든다.
DataFrame에서 데이터 전처리 가능
3. csv파일 Spring에서 읽어서 각 String형태의 값들을 Entity의 타입에 맞게 변환
commons-csv로 csv파일을 파징 + jackson-databind로 json문자열을 java타입으로 파징
csv의 각row의 값들을 자바String타입으로 받아서 JPA Entity에 맞는 타입으로 변환
4. JPA로 MySQL에 insert
파이썬 pandas + csv 파일
자바에선 다른타입들 저장 하려면 클래스써야함
윈도우, 맥 혼용 가능
csv는 이미 여러 언어( 파이썬, js, 자바 등 )에 인터페이스 있음
csv, json 업계 표준이라는 말
R 의 dataFrame을 파이썬에서 pandas로 흉내냄
'Web Development > 웹' 카테고리의 다른 글
| 도커로 RabbitMQ 설치부터 관리페이지 접속까지 (0) | 2025.01.10 |
|---|---|
| 데이터, 웹 크롤링 ~ 데이터 전처리 ~ DB저장 (1) | 2025.01.03 |
| 브라우저의 저장소들 02 Cookie (0) | 2024.11.10 |
| 브라우저의 저장소들 01 Storage (3) | 2024.11.09 |
| 8.22 (1) | 2024.08.22 |