Search

신기술 트렌드_삼성계정은 DR에진심, 글로벌 리전 장애 조치 아키텍처 사례

세션명: 신기술 트렌드_삼성계정은 DR에진심, 글로벌 리전 장애 조치 아키텍처 사례
일시: 2024.05.16 13:10 ~ 13:50
장소: 1층 그랜드블룸, 102,103,104호
작성자 : [CTC/김예진]
해당 세션을 신청한 이유는, 글로벌 리전 장애 시 삼성의 DR(재해 복구) 아키텍처 사례를 통해 실무에 적용 가능한 인사이트를 얻고자 하며 다중 리전 환경에서의 최적화된 장애 대응 전략,   대규모 엔터프라이즈 환경에서의 실전 경험과 모범 사례를 통해 더욱 견고한 시스템을 구축할 수 있는 방법을 탐구하고자 함
세션에 대한 개략적인 소개
삼성 계정의 AWS 기반 글로벌 리전 장애조치 아키텍처 사례
AWS의 복원력은 예상치 못한 장애에서 빠르게 복구하는 능력을 강조한다. 고가용성과 재해 복구는 이러한 능력의 핵심 요소이며, 전자는 일반적인 장애에 대비한 것이고 후자는 자연재해나 전체 장애와 같은 심각한 상황에서 시스템을 복구하는 것을 의미한다. 이러한 요소들은 모니터링, 멀티 사이트 배포, 자동 조치와 같은 다양한 방법을 통해 보장된다.
고가용성은 서비스 중단을 방지하는 데 집중하고, 재해 복구는 복구를 목표로 한다.
3 nines는  99.9%의 가용성을 가지며, 연간 9시간의 다운타임이 허용된다. 5 nines는 99.999%의 가용성으로, 연간 다운타임은 약 5분이다. 숫자가 갯수가 높을수록 가용성이 높고 다운타임이 적다는 것을 의미한다. 가용성이 높은 시스템을 설계하기 위해서는 장애 가능성이 있는 구성 요소를 식별하고, 장애의 영향을 평가하여 피해를 완화할 수 있는 매커니즘을 고려해야 한다.
복구 시점 목표는 재해 발생 시 허용되는 최대 데이터 손실량을 나타내며, 이를 1시간으로 설정하면 재해 발생 직전 1시간까지의 모든 데이터를 복구 가능해야 한다.
복구 시점 목표는 데이터 손실을 최소화하는 목표이고, 복구 시간 목표는 중단된 서비스를 빠르게 복구하는 목표이다.
AWS는 고객의 요구 사항과 예산을 고려하여 클라우드 기반의 재해 복구를 4가지 전략으로 제공한다.
첫 번째 전략은 백업의 리스토어 전략이다. 이는 정기적으로 백업된 데이터를 활용하여 워크로드를 복구하는 방식으로, 백업 주기에 따라 달성 가능한 복구 시점이 결정된다.
두 번째 전략은 파일럿 라이트 전략이다. 이는 데이터베이스, 객체 스토리지 등 데이터 복제 환경에 필요한 리소스를 복구 사이트에 항상 유지하고, 애플리케이션 코드 구성 정보도 함께 로드한다.
애플리케이션 서버와 같은 기능적 요소는 꺼진 상태로 유지하다가 재해 발생 시 애플리케이션 서버를 켜고 확장하여 신속하게 프로덕션 환경을 프로비저닝하는 전략이다. 데이터 저장소와 데이터베이스는 최신 상태를 유지하므로 데이터 손실이 적어서 수분 수준의 복구 시점을 설정할 수 있으며, 나머지 인프라를 프로비저닝하는 데는 수십분이 소요된다. 이는 백업 리스토어 전략에 비해 복구 목표가 단축되지만, 라이브 상태의 데이터 복제 환경을 유지하기 위한 비용이 추가로 발생한다.
세 번째 전략은 웜 스탠바이 전략이다. 이는 파일럿 라이트 전략을 확장하여 작동하는 프로덕션 환경 복사본을 복구 사이트에 구축하는 것으로, 복구 시점 목표는 파일럿 라이트와 동일하지만 복구 시간 목표는 수분 단위로 단축될 수 있다. 장애 발생 시 복구 사이트의 인프라를 프로덕션 수준으로 확장하여 서비스를 정상화한다.
네 번째 전략은 멀티 사이트 액티브 액티브 전략이다. 이는 복구 사이트에 기존 운영 시스템과 동일한 애플리케이션을 구성하여 워크로드 트래픽을 두 사이트로 분산하는 전략이다. 재해 발생 시에는 장애 조치가 정상 사이트로 요청을 라우팅하는 방식으로 진행되며, 이는 비용이 많이 들지만 대부분의 재해에 대한 복구 시간과 시점을 거의 제로에 가깝게 줄일 수 있다. 그러나 두 환경을 유지하는 데 많은 비용이 발생하며 데이터 계층의 일관성을 유지하기 위해 시스템 복잡도가 높아질 수 있다.
삼성 계정 서비스 개요
삼성 계정 서비스는 17억 이상의 사용자 계정을 기반으로 250여 개국에서 60개 이상의 서비스와 앱을 연결하는 핵심 계정 서비스이다.
주요 서비스: 삼성페이, 스마트, 삼성 헬스 등.
사용 기기: 모바일, 웨어러블, TV, PC 등.
계정 서비스는 삼성닷컴과 오프라인 매장 커스터머 서비스에서도 활용됨.
목적: 안전하고 안정적인 고객 경험 제공.
글로벌 인프라 구축
삼성 계정 서비스는 글로벌 서비스로서 유럽, 미주, 아시아 3개 AWS 리전을 기반으로 구축됨.
초당 270만 건의 대용량 트래픽을 안정적으로 처리.
MSA 아키텍처와 고가용성
70여 개 이상의 마이크로서비스로 구성된 MSA 아키텍처를 채택하여 운영 복잡성을 최소화.
모든 마이크로서비스는 AWS EKS를 기반으로 운영.
데이터베이스
Aurora DB: 주요 데이터베이스로 사용, 초당 20만 트랜잭션 처리.
글로벌 리전별로 데이터베이스 클러스터 운영, 자체 솔루션을 통해 동기화.
추가 데이터 지원: DynamoDB와 ElastiCache 사용.
성능 향상 및 CDN
웹 기반 서비스의 성능 향상을 위해 CDN 사용.
최근 AWS CloudFront로 CDN을 마이그레이션하고 아키텍처 개선도 함께 진행.
지속적인 개선
삼성 계정 서비스는 다양한 AWS 인프라 서비스를 활용하여 웹 서비스, 기기 서버 요청, API 등을 지원하며, 지속적인 개선을 이어가고 있음.
삼성 계정 서비스는 대규모 글로벌 사용자 기반을 지원하기 위해 AWS의 다양한 서비스와 리소스를 활용하여 고가용성, 안정성, 성능을 최적화한 인프라를 구축하고 있으며 이를 통해 다양한 기기와 서비스에서 일관되고 안전한 사용자 경험을 제공하고 있다.

삼성 계정 서비스의 글로벌 장애 복구 아키텍처 구축 과정 요약

비즈니스 크리티컬 시스템으로서의 삼성 계정
삼성 계정은 삼성의 모든 기기와 60여 개 이상의 서비스를 연결하는 비즈니스 크리티컬 시스템임.
대용량 트래픽 처리와 높은 수준의 RTO를 목표로 함.
글로벌 서비스와 리전 내 백업 복구
세계 여러 리전에서 서비스를 제공하며, 리전 단위의 장애에도 대응 가능한 아키텍처가 필요했음.
이를 위해 글로벌 장애 복구 아키텍처를 구축함.
AP 리전 구축
기존의 EU, US 리전에 더해 AP 리전을 새로이 구축함.
리전 간 트래픽 분산을 통해 대용량 트래픽 처리 및 장애 확산 방지 목표를 달성함.
마이크로 서비스의 일관성 확보
70여 개 이상의 마이크로 서비스가 리전에 따라 분산 배포되어 일관성이 부족했음.
AP 리전 구축 시 각 리전의 마이크로 서비스를 통합하고 이를 다른 리전으로 확산해 모든 리전에서 동일한 서비스 제공이 가능하게 함.
데이터 동기화 아키텍처
포스트그레SQL과 다이나모DB를 기반으로 글로벌 데이터 동기화 아키텍처를 구축함.
MSK 기반의 동기화 아키텍처를 도입해 데이터 동기화를 강화함.
액티브-액티브 아키텍처로의 개선
단일 리전 장애 시 다른 리전에서 즉시 트래픽을 수용할 수 있는 구조로 개선함.
장애 트래픽 전환을 위해 DNS 기반의 트래픽 전환 제어 방식을 선택함.
DNS 기반 트래픽 전환 제어 방식
AWS Route 53을 활용해 리전 장애 시 DNS 레코드를 다른 리전으로 변경해 트래픽을 전환함.
글로벌 로드 밸런서를 사용하는 방식에 비해 비용이 적게 들고 운영 복잡도가 낮음.
클라이언트 ISP의 DNS 캐시로 인해 DNS 레코드 변경에 시간이 소요될 수 있는 단점이 있음.
AWS Route 53 Application Recovery Controller (Route 53 ARC)
AWS Route 53의 제어 계층이 US 리전에 집중돼 있어 US 리전 장애 시 DNS 레코드 변경이 불가능한 문제를 해결하기 위해 Route 53 ARC를 도입함.
Route 53 ARC는 제어 계층 장애 시에도 데이터 플레인에서 프라이머리 스탠바이 라우팅 제어 세트를 통해 장애 트래픽 전환을 가능하게 함.
독립적인 서비스 셀 구성
리전 단위 장애 복구 목표에 맞춰 각 리전을 독립적인 서비스 셀로 구성함.
각 리전은 액티브-액티브 형태로 독립적인 서비스를 제공할 수 있음.
슬라이드별 이미지 삽입 (8개 이상의 슬라이드 이미지 삽입 필요. 최소 7개 슬라이드 이상의 내용 정리 필요)
해당 이미지의 세션 내용 3-5문장으로 정리 (슬라이드의 이미지 내용 그대로 번역하여 기재하는 것은 NG)
결론
이번 세션을 통해 액티브-액티브 아키텍처와 DNS 기반 트래픽 전환 방식이 대용량 트래픽 처리와 고가용성 확보에 얼마나 중요한지 실감하였으며. 이를 바탕으로 고객사에도 유사한 솔루션을 제안하고, 장애 대응 능력을 향상시키기 위한 맞춤형 인프라를 구축하는 데 적용하고자 합니다.