본문 바로가기
Web Development/웹

파이썬 웹 크롤링 ~ RDB 저장

by doriver 2024. 12. 27.

Data의 여행


1. 파이썬 Selenium으로 웹 크롤링


1-1. HTML을 볼수 있어야함, copy xpath 가 개꿀 도구임

( 크롬 개발자도구 - Elements - 해당요소 우클릭 - copy - copy xpath )

 

1-2. 파이썬에서 for문, try-except 예외처리 등으로

알고리즘 적절히 구현해야함

 

 



 

 

2. 파이썬 Pandas로 데이터를 csv파일로 변환

크롤링한 데이터들 DataFrame으로 만들고, DataFrame을 csv파일로 만든다.

 

DataFrame에서 데이터 전처리 가능

 





 

3. csv파일 Spring에서 읽어서 각 String형태의 값들을 Entity의 타입에 맞게 변환

commons-csv로 csv파일을 파징  +  jackson-databind로 json문자열을 java타입으로 파징

csv의 각row의 값들을 자바String타입으로 받아서 JPA Entity에 맞는 타입으로 변환 

 

 

4. JPA로 MySQL에 insert

 

 

 

 

파이썬 pandas + csv 파일

자바에선 다른타입들 저장 하려면 클래스써야함 
윈도우, 맥 혼용 가능
csv는 이미 여러 언어( 파이썬, js, 자바 등 )에 인터페이스 있음
csv, json 업계 표준이라는 말
R 의 dataFrame을 파이썬에서 pandas로 흉내냄