Kong돌이의 코딩이야기

JAVA(자바) 크롤링 접속 차단되었을 때 (User-Agent) 본문

코딩이야기/자바

JAVA(자바) 크롤링 접속 차단되었을 때 (User-Agent)

Kong돌이 2023. 2. 6. 11:41
728x90

크롤링을 진행하다가 계속해서 비정상적인 접근 시 접속이 차단되는 경우가 있다.

필자는 아직 이러한 경험이 없지만 미리 대응을 해놨는데 나중에 확인해봐야겠다.. 

 

// 1. 수집 대상 URL
String url = "크롤링할 페이지URL";
// 2. Connection 생성 및 userAgent 추가
Connection conn = Jsoup.connect(url)
                    .userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64)
                    AppleWebKit/537.36 (KHTML, like Gecko)
                    Chrome/109.0.0.0 Safari/537.36");
// HTML 파싱
html = conn.get(); // conn.post();
fileblocks = html.getElementsByClass("className").select("cssQuery");

userAgent를 추가 해준다고 한다.

userAgent를 넣어주지 않으면 비정상적인 움직임이 발견될 시 봇이라고 판단하고 크롤링이 제한이 당한다고 한다.

이럴 때에 아래 링크 사이트에 들어가 userAgent를 복사 후 넣어주면 된다.

https://www.useragentstring.com/

 

포털 사이트에 userAgent를 검색해 보면 다양한 자료들이 있다 궁금하면 더 검색해 보자

 

잘못된 설명이 있으면 댓글로 지적해주세요!

 

 

추가 +

 

크롤링할 사이트에 robots.txt를 확인 후 크롤링을 하도록 하자  강제성은 없지만 서로 지키자는 규약이다.

728x90
반응형
LIST
Comments