개발
악성 봇 차단 리스트 및 robots.txt 가이드
95 views as of October 31, 2024.
슬슬 웹사이트를 여러 사이트로 전파시키다보니까 여러가지 크롤링 봇에의한 트래픽이 늘고 있다.
이럴때 1차적으로 처리할 수 있는 방안은 robots.txt 를 작성해서 게시해놓는 방법이다.
해당 파일에 대한 작성예시는 온라인에 널리고 널렸지만 실제로 어떤 봇들을 차단해야하는지는 찾아보기가 힘들다.
그래서 관련 기록을 살펴보니 여러가지 봇들을 자세히 설명해놓은 글을 발견하게되었다.
[U-Information] 02. 봇의 목적과 종류[robots.txt] - 좋은 봇, 나쁜 봇 (Bots Overview, Types-Good Bots, Bad Bots)
봇의 목적 봇(Bot)이란? 인터넷 봇(Internet bot), 웹 로봇(web robot), WWW 로봇(WWW robot), 단순히 봇(bot)은 인터넷 상에서 자동화된 작업(스크립트)을 실행하는 응용 소프트웨어입니다. 봇은 인간이 하는 행동을 흉내 내도록 만들어지며, 검색엔진의 웹 크롤러는 웹 사이트 정보를 자동으로 읽어들여 저장하는 프로그램입니다. 이외에도 인터넷 채팅에서 자동 응답을 하도록 만든 채터 봇 프로그램 등이 있으며, 각 서버는 봇이 따를 서버 규칙이 포함된 robots.txt라는 이름의 파일을 소유하고 있습니다. 일부 봇들은 악의적인 목적으로도 이용되기 하며, 자기 복제 기능을 가지기도 합니다. 봇의 종류 1Noonbot 1 Noonbot이란? 첫눈(http://www.1noon.c..
https://pitsec.tistory.com/49
20년도 자료라 AI가 크롤링하는 현재 봇들까지는 리스트업하진 못했지만 SEO, 검색엔진의 봇 리스트를 한눈에 보기좋게 정리해주셨다.
해당 데이터를 기반으로 robots.txt를 만들어보았다. (리스트업만 해주셨음, 파일은 직접 보고 만듦)
# Block Unknown Crawler
User-agent: AhrefsBot
Disallow: /
User-agent: BaiDuSpider
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: IDBot
Disallow: /
User-agent: linkdexbot
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: mfibot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: Plukkie
Disallow: /
User-agent: rogerbot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: SMTBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: XoviBot
Disallow: /
# Default Setting
User-agent: *
Allow: /
Disallow: /login
Disallow: /logout
Sitemap: https://erulabo.com/sitemap.xml
Copy
이런 방식은 블랙리스트 방식이라고 모든 봇 접근을 허용하면서 내가 지정한 몇몇개의 접근은 막는 방식이다.
반대로 모든 봇 접근을 차단하고 내가 지정한 화이트리스트 방식도 있긴하다만, 이러는 경우는 어지간히 몇몇 검색엔진 대상으로 전파시킬때만 사용하는걸로 알고있다.
중요한건 위의 리스트에는 앞서 언급했듯이 AI가 수집하는 봇에 대한 차단은 안되어있기때문에 필요하면 추가로 차단을 진행해야 할것이다.
대표적인 AI 봇은
- 바이트댄스의
Bytespider
- 아마존의
Amazonbot
- 앤트로픽의
ClaudeBot
- 오픈AI의
GPTBot
등이 제일 트래픽이 많다고한다.
#개발 #봇 #robots.txt #악성 #차단
0
개의 댓글