(최종 업데이트) 클라우드플레어 서버 오류로 HTTP 500 에러가 발생했습니다.
안녕하세요. 관리자입니다. 전세계적으로 클라우드 플레어 서버가 먹통 사태가 발생하고 있습니다. HTTP 500 에러가 뜨다가 정상화 되다가를 반복하고 있습니다.

1. 언제, 무슨 일이 있었나
-
발생 시각
2025년 11월 18일(화) UTC 11:20쯤, 클라우드플레어(Cloudflare) 네트워크에서 핵심 트래픽 처리 부분이 제대로 동작하지 않으면서 전 세계적으로 장애가 시작되었습니다.
한국 시간(KST, UTC+9)으로는 11월 18일 저녁 8시 20분쯤부터 영향을 느끼기 시작한 셈입니다. -
장애는 몇 시간 동안 이어졌고, 클라우드플레어 기준으로 17:06 UTC(한국 시간 19일 새벽 2시 6분쯤)에 모든 서비스가 정상으로 돌아왔다고 발표했습니다.
이 시간 동안 가온 위키/위키 커뮤니티를 포함한 많은 사이트·앱에서 “500 Internal Server Error” 같은 에러 화면이 떴습니다.

2. Cloudflare는 무엇을 하는 회사인가?
아주 단순하게 말하면, 클라우드플레어는:
-
전 세계 웹사이트의 신호등·톨게이트 같은 역할을 하는 회사입니다.
-
웹사이트와 사용자의 컴퓨터(또는 스마트폰) 사이에 서서
-
웹페이지를 더 빠르게 전달하고(캐시, CDN)
-
공격(DDos 등)을 막아 주고
-
이상한 봇(자동 프로그램) 트래픽을 걸러 줍니다.
-
전 세계 웹사이트의 약 20%가 클라우드플레어를 사용한다고 알려져 있습니다. 물론 가온 위키도 마찬가지로 사용중이죠.
그래서 클라우드플레어가 멈추면, 그 회사들 서버가 멀쩡해도 중간에 있는 관문이 막혀서 사용자는 접속을 못 하게 됩니다.
3. 왜 장애가 났나?
(1) 기본 원인 한 줄 요약
봇(로봇 트래픽)을 막기 위한 설정 파일이 비정상적으로 커졌고,
그 파일을 읽는 핵심 프로그램이 “내가 처리할 수 있는 한도”를 넘어서며 멈춰 버려서,
그 프로그램을 거치는 인터넷 요청이 줄줄이 실패했다.
(2) 자세히 설명
클라우드플레어는 봇 관리(Bot Management)라는 기능으로, 사람이 사용하는 트래픽과 봇 트래픽을 구분해 막거나 허용합니다.
이를 위해 “특징(feature)” 정보가 잔뜩 들어 있는 설정 파일(일종의 엑셀/CSV 같은 것)을 사용합니다. 이 파일은 몇 분마다 새로 만들어져 전 세계 서버로 배포됩니다.
장애의 흐름을 아주 단순하게 정리하면 다음과 같습니다.
-
내부 데이터베이스 권한/설정 변경
-
내부 데이터베이스(ClickHouse)의 접근 권한을 더 안전하게 관리하기 위해 설정을 바꾸었습니다.
-
-
그 결과, 봇 관리용 설정 파일을 만드는 쿼리(질의)가 이상한 데이터를 포함하게 되었습니다.
-
쉽게 말해, 원래는 한 줄씩만 들어가야 하는 정보가 중복으로 들어가서
-
설정 파일의 크기가 거의 두 배로 커져 버렸습니다.
-
-
이 커진 설정 파일이 전 세계 클라우드플레어 서버로 배포되었습니다.
-
각 서버에는 이 파일을 읽는 프로그램이 있었는데,
-
이 프로그램은 “최대 200개 항목 정도만 올 것”이라고 가정하고 만들어져 있었습니다.
-
실제로는 그동안 약 60개 정도만 사용하고 있었습니다.
-
-
그런데 이번에 잘못된 설정 파일에는 200개를 넘는 항목이 들어왔고,
-
프로그램이 “내 한도(200개)를 넘었다”는 상황을 제대로 처리하지 못하고 그대로 비정상 종료(패닉) 했습니다.
-
-
이 프로그램은 클라우드플레어에서 사용자 요청을 실제 웹사이트로 보내기 전에 반드시 거치는 핵심 관문(프록시)였습니다.
-
관문이 멈추면서 그 관문을 통과하는 요청들이 500 에러를 내며 줄줄이 실패하게 된 것입니다.
-
클라우드플레어는 처음에는 이 현상을 보고 대형 디도스 공격(DDoS)일 수도 있다고 의심했으나, 나중에야 내부 설정 파일 및 쿼리 변경에서 비롯된 내부 오류임을 확인했습니다.
그리고 이 문제는 사이버 공격이나 해킹이 아닌, 내부 설정 및 코드 설계 문제였다고 공식적으로 밝혔습니다.
4. 어떤 서비스들이 영향을 받았나?
클라우드플레어는 수많은 웹사이트·서비스의 중간 관문 역할을 하기 때문에, 이번 장애로 다양한 분야의 서비스들이 동시다발적으로 영향을 받았습니다.
언론과 외부 모니터링 사이트에 언급된 대표적인 서비스들을 예로 들면
-
SNS·커뮤니케이션
-
X(옛 트위터)
-
일부 메신저·커뮤니티 서비스
-
-
AI·챗봇 서비스
-
ChatGPT (OpenAI)
-
Claude (Anthropic)
-
Perplexity
-
기타 여러 AI 기반 서비스들
-
-
게임·엔터테인먼트
-
League of Legends(리그 오브 레전드)
-
일부 게임 서비스
-
스트리밍·음악 서비스(예: Spotify 등)
-
-
일반 웹·브랜드 사이트
-
맥도날드(McDonald’s)
-
IKEA 등 여러 대형 브랜드 사이트
-
수많은 중소 규모 웹사이트
-
-
공공·교통 관련 사이트
-
미국 뉴저지 NJ Transit(대중교통 관련 사이트) 등 일부 공공 서비스 사이트
-
-
장애 상황을 보여주는 사이트조차 영향
-
원래 장애 현황을 보여 주는 Downdetector 같은 사이트도 클라우드플레어를 사용하고 있어서, 장애 정보 사이트마저 접속이 잘 안 되는 상황이 벌어졌습니다.
-
또, 클라우드플레어 자체 서비스들도 영향을 받았습니다.
-
코어 CDN·보안 서비스 → 대량의 HTTP 5xx 에러
-
Turnstile(클라우드플레어의 보안·인증용 챌린지) → 로딩 실패
-
Workers KV, Access, 대시보드(관리 화면) → 로그인 실패, 설정 변경 실패 등
즉, 외부 고객 서비스 + 클라우드플레어 내부 관리 시스템이 동시에 흔들린 장애였습니다. 가온 위키/위키 커뮤니티도 클라우드플레어를 사용하기에 영향을 받았습니다.
5. 사용자 입장에서는 무엇이 보였나?
사용자들은 다음과 같은 현상을 많이 경험했습니다.
-
사이트에 접속하면
-
“500 Internal Server Error”
-
“Cloudflare Error 5xx”
-
“please unblock challenges.cloudflare.com to proceed”
같은 메시지가 뜨며 페이지가 열리지 않음
-
-
앱(게임, 택시 호출, AI 챗봇 앱 등)이 갑자기 작동하지 않거나, 로그인에 실패
-
잠시 후에는 접속이 되다가, 또 안 되다가 하는 불안정한 상태가 반복
이 모든 것이 각 사이트 문제가 아니라, 중간에 있는 클라우드플레어 쪽 관문이 제대로 작동하지 않아서 생긴 현상이었습니다.
6. 장애는 지금 어떤 상태인가? 그리고 이후 계획
-
클라우드플레어는 11월 18일 오후(미국 동부 기준) “장애가 해결되었고, 서비스는 정상 동작 중”이라고 발표했습니다.
-
현재(질문 시점 기준) 서비스는 정상으로 보고되고 있습니다.
-
클라우드플레어는 재발 방지를 위해, 대략 다음과 같은 조치를 약속했습니다.
-
내부에서 자동으로 생성되는 설정 파일도, 사용자 입력처럼 엄격하게 검증
-
문제가 생겼을 때 바로 기능을 끌 수 있는 글로벌 “킬 스위치” 강화
-
에러 보고·코어 덤프 등이 시스템 자원을 과도하게 쓰지 않도록 개선
-
핵심 프록시 모듈들의 오동작 시 실패 방식(failure mode)를 전면 재점검
-
클라우드플레어는 이번 장애를 2019년 이후 가장 심각한 장애라고 표현하며, 공식 블로그에서 사과와 함께 상세한 원인을 공개했습니다.
7. 한 줄로 다시 정리하면
2025년 11월 18일, 전 세계 웹 인프라의 중요한 중간 관문 역할을 하는 클라우드플레어에서
봇 트래픽을 막기 위한 설정 파일이 비정상적으로 커지는 내부 오류가 발생했고,
이로 인해 핵심 트래픽 처리 프로그램이 멈추면서
X, ChatGPT, 각종 게임·쇼핑·공공 사이트 등 수많은 서비스에서 일시적인 접속 장애와 500 에러가 발생했다.
해킹이 아니라 클라우드플레어 내부 설정·소프트웨어 설계 문제였고,
몇 시간 후 복구되었으며, 재발 방지를 위한 개선 작업이 진행 중이다.
가온 위키의 오류가 아닙니다.
서버를 터뜨리는 전적이 있던 관리자이긴 하지만, 이번 사태는 클라우드플레어의 오류입니다.




