
10월 30, 2025 — arload
K-Devcon 2025 : 거대한 데이터 추정하기 (sketching massive datasets)
오랜만에 벤더에 종속되지 않은 기술 중심 세미나의 스피커로 참여하게 되었습니다.
이 자리를 마련해주신 K-Devcon 2025 커뮤니티 여러분께 진심으로 감사드립니다.
이번 발표는 조금 더 먼저 경험한 선배가 후배들을 위해 나누는 이야기라고 생각해 주시면 좋겠습니다. 부담 없이 편하게 들어주시면 감사 하겠습니다.
발표 주제는 대규모 데이터를 직접 계산하지 않고도 효과적으로 추정(Sketches)하는 기법에 관한 것입니다.
본 내용은 대기업(삼성전자 MX, 삼성 SDS 아키텍트 과정, 현대자동차, KT, 주요 금융권 등)에서 실제로 3시간 과정으로 진행되는 강의 내용 핵심을 압축해 소개드릴 예정입니다.

[Session7] 👋 손영수 | 어니컴
– 발표 테마 : 딥다이브
– 발표 주제 : 거대한 데이터 추정하기 (sketching massive datasets)
– 거대 데이터의 빠른 추정을 위한 다양한 핵심 알고리즘 개념을 소개합니다.

맴버십 알고리즘
- Bloom Filter – 존재 여부를 파악
- Counting Bloom Filter– 맴버 삭제를 지원하는 맴버십 (존재여부) 알고리즘
- Cuckoo Filter (뻐꾸기 or 추방 필터) – CBF보다는 적은 메모리로 맴버 삭제 지원
빈도수 스케치
- Count-Min Sketch(CMS)
- Heavy Hitter with CMS
- Range Query + Dyadic Range
분위수 및 분포 스케치
- HDRHistogrm,
- DynaHist
- DDSketch
카디널리티 스케치
- LogLog
- SuperLogLog
- HyperLogLog (HLL).
스트리밍 샘플링
- 베르누이
- 저수지 / 편향된 저수지
- 체인 샘플링
- 우선순위 샘플링
시간상 다 다룰수 없을수도 있습니다.. 최대한 핵심만 잘 전달해 볼수 있도록 노력하겠습니다.