Search

데이터로 미래를 설계하다: 현대카드의 빅데이터 플랫폼 구축 사례

데이터에서 가치를 창출하는 데이터 비즈니스가 시장에서 이전부터 계속 주목받고 있고, 또한 내부에서 타 금융사의 통합 데이터 플랫폼 구축 사례도 확인할 수 있었습니다. 이에 또 다른 금융 기업인 현대카드에서는 빅데이터 플랫폼을 어떻게 구성하였는지 지식을 얻고자 참석하였습니다.

세션 소개

현대카드 IDC에 구성되어 있던 약 3PB 달하는 “빅데이터 시스템"을 AWS로 마이그레이션한 프로젝트입니다. 클라우드로 마이그레이션하기까지의 고려했던 점과 마이그레이션 이후 어떻게 비즈니스 혁신을 달성했는 지에 대하여 소개하는 세션이었습니다.
현대카드는 On-premise에 약 3PB Data, 2만개 이상의 테이블, Hadoop과 GPU를 통해 빅데이터 플랫폼이 구성되어 있었습니다. (일평균 60명의 사용자)
다만, 서버 노후화로 인한 대규모 인프라 재투자 시점이 도래했고, 기존 플랫폼에서의 분석 수요에 따른 리소스 경합, 디지털 트렌드에 대한 민첩한 대응의 한계라는 문제점을 가지고 있었던 현대카드는 이 시점에 클라우드 전환을 고려하게 되었습니다.
클라우드로의 전환은 EOS, 장비 노후화 등의 문제점을 “관리형 인프라”라는 장기적인 해소 방안을 가지고 있었습니다.
이에 클라우드 인프라 전환과 더불어 새로운 기술에 대한 내재화, 업무 방식 혁신을 목표로 클라우드 전환을 결정하였습니다.
개선점 및 구성
AWS SDK & API를 활용, 커스터마이징된 통합 BDP(빅데이터 플랫폼) 구축
업무 자동화 및 환경 향상
BDP 아키텍처 & 핵심 기능
WorkFlow 요약
EMR을 통한 원천 데이터 정기/비정기 수집 → S3로의 적재
ML을 위한 Sagemaker 구성
Sagemaker에서 생성한 DataPipeLine을 활용, 배치 추론을 위한 MWAA 구성
사용자는 EKS의 Ingress로 Web 접근
BDP는 단계별 (최초수집 → 가공 → 결과) bucket을 분리하고, Iceberg를 이용해 스토리지 레이어를 분리하였습니다.
또한 데이터 수집 시, 거버넌스 정책을 자동으로 적용하고, 사용자가 직접 원본 테이블에 접근하지 않으며, 사용자별 Role을 통해 동작할 수 있게 구성하였습니다.
SageMaker Studio와 EMR를 통해 전용 분석 환경을 구성하고, 과제별로 EMR을 구분하여 구성하였습니다.
이를 통해 Data Scientist는 각 단계마다 맞춤 인프라로 작업이 가능해지고, 예산 이내에서 자유로운 사용이 가능해져 보다 효율적인 인프라 사용이 가능해졌습니다.
데이터 수집 시, 최대 비용 예측이 가능한 EMR을 활용하였으며,
비교적 절감된 비용으로 안정적인 성능을 위해 Generative CPU를 사용하였습니다.
또한 Stream 데이터 수집을 위해 MSK 적용하였으며, 자체 Producer API를 구성하였습니다.
업무 자동화를 위해 CICD PipeLine을 구성하였습니다.
Build 시, 소스 커버리지가 체크되게끔 자동화를 구성하였으며, 특정 기준을 충족하지 못할 경우 빌드되지 않게끔하였습니다.
IDC와의 통신 여부에 따라 망분리로 Node Group, Subnet, Sg를 분리 구성하였으며, 최소한의 권한만 부여하여 구성하였습니다.

마치며

먼저 빅데이터 플랫폼의 전반적인 Workflow와 각 Role별로 주로 활용할 수 있는 서비스를 확인할 수 있었고, 업무 환경 향상을 위한 여러 자동화 로직 예시를 들을 수 있어 유익했습니다. 특히 48시간이라는 Delay가 있는 Cost Explorer외에 CloudWatch를 통해 당일 비용 확인이 가능하게끔 구성했다는 것이 흥미로웠습니다.