데이터에서 가치를 창출하는 데이터 비즈니스가 시장에서 이전부터 계속 주목받고 있고, 또한 내부에서 타 금융사의 통합 데이터 플랫폼 구축 사례도 확인할 수 있었습니다. 이에 또 다른 금융 기업인 현대카드에서는 빅데이터 플랫폼을 어떻게 구성하였는지 지식을 얻고자 참석하였습니다.
세션 소개
현대카드 IDC에 구성되어 있던 약 3PB 달하는 “빅데이터 시스템"을 AWS로 마이그레이션한 프로젝트입니다.
클라우드로 마이그레이션하기까지의 고려했던 점과 마이그레이션 이후 어떻게 비즈니스 혁신을 달성했는 지에 대하여 소개하는 세션이었습니다.
•
현대카드는 On-premise에 약 3PB Data, 2만개 이상의 테이블, Hadoop과 GPU를 통해 빅데이터 플랫폼이 구성되어 있었습니다. (일평균 60명의 사용자)
•
다만, 서버 노후화로 인한 대규모 인프라 재투자 시점이 도래했고, 기존 플랫폼에서의 분석 수요에 따른 리소스 경합, 디지털 트렌드에 대한 민첩한 대응의 한계라는 문제점을 가지고 있었던 현대카드는 이 시점에 클라우드 전환을 고려하게 되었습니다.
•
클라우드로의 전환은 EOS, 장비 노후화 등의 문제점을 “관리형 인프라”라는 장기적인 해소 방안을 가지고 있었습니다.
•
이에 클라우드 인프라 전환과 더불어 새로운 기술에 대한 내재화, 업무 방식 혁신을 목표로 클라우드 전환을 결정하였습니다.
•
개선점 및 구성
◦
AWS SDK & API를 활용, 커스터마이징된 통합 BDP(빅데이터 플랫폼) 구축
◦
업무 자동화 및 환경 향상
•
BDP 아키텍처 & 핵심 기능
•
WorkFlow 요약
◦
EMR을 통한 원천 데이터 정기/비정기 수집 → S3로의 적재
◦
ML을 위한 Sagemaker 구성
◦
Sagemaker에서 생성한 DataPipeLine을 활용, 배치 추론을 위한 MWAA 구성
◦
사용자는 EKS의 Ingress로 Web 접근
•
BDP는 단계별 (최초수집 → 가공 → 결과) bucket을 분리하고, Iceberg를 이용해 스토리지 레이어를 분리하였습니다.
•
또한 데이터 수집 시, 거버넌스 정책을 자동으로 적용하고, 사용자가 직접 원본 테이블에 접근하지 않으며, 사용자별 Role을 통해 동작할 수 있게 구성하였습니다.
•
SageMaker Studio와 EMR를 통해 전용 분석 환경을 구성하고, 과제별로 EMR을 구분하여 구성하였습니다.
•
이를 통해 Data Scientist는 각 단계마다 맞춤 인프라로 작업이 가능해지고, 예산 이내에서 자유로운 사용이 가능해져 보다 효율적인 인프라 사용이 가능해졌습니다.
•
데이터 수집 시, 최대 비용 예측이 가능한 EMR을 활용하였으며,
•
비교적 절감된 비용으로 안정적인 성능을 위해 Generative CPU를 사용하였습니다.
•
또한 Stream 데이터 수집을 위해 MSK 적용하였으며, 자체 Producer API를 구성하였습니다.
•
업무 자동화를 위해 CICD PipeLine을 구성하였습니다.
•
Build 시, 소스 커버리지가 체크되게끔 자동화를 구성하였으며, 특정 기준을 충족하지 못할 경우 빌드되지 않게끔하였습니다.
•
IDC와의 통신 여부에 따라 망분리로 Node Group, Subnet, Sg를 분리 구성하였으며, 최소한의 권한만 부여하여 구성하였습니다.
마치며
먼저 빅데이터 플랫폼의 전반적인 Workflow와 각 Role별로 주로 활용할 수 있는 서비스를 확인할 수 있었고, 업무 환경 향상을 위한 여러 자동화 로직 예시를 들을 수 있어 유익했습니다. 특히 48시간이라는 Delay가 있는 Cost Explorer외에 CloudWatch를 통해 당일 비용 확인이 가능하게끔 구성했다는 것이 흥미로웠습니다.