분명 프록시를 썼음에도 불구하고 어찌저찌 타겟 서버에서 알아내서 막아버린다.
- aws 에서 크롤링을 몇번 떠가면 aws IP 풀을 전부 다 막아버리는 것으로 보임
- 이를 우회하기 위해 프록시를 사용하더라도 초반 몇번만 되고 중반부터는 크롤링이 막힘
- 그런데 신기하게도 2 에서 requests 라이브러리를 썼다 가정하고, httpx 를 통해 똑같은 헤더, 똑같은 프록시 포트로 요청을 하면 성공함
- 3의 반대경우로 httpx 를 쓰다가 requests를 쓰거나, curl을 사용하면 또 갑자기 잘 됨
- 물론 이것도 잠깐만이고 잠시 후에 전부 다 막혀버린다. 30분 정도 기다려야 풀림
왜 이런문제가 발생하는가?
→ TLS 핑커프린트, JA3을 통해 요청을 수행하는 “라이브러리” 를 추적하는 것도 가능하다고 한다. 기본적으로 akamai 나 cloudflare 쯤 되는 회사들은 TLS 핑거프린트와 JA3 을 통한 크롤링 방어를 쉽게 해낸다고 함
그럼 어케함?
curl_cffi 를 사용하자. impersonate 에 브라우저를 지정하면 실제 브라우저가 요청을 하는듯한 핑거프린트와 JA3 을 남길 수 있어서 최대한 더 우회할 수 있다고 한다. 물론 창이 있으면 방패도 있기 마련이기에 언제 막힐지는 또 모름
