(웹이코노미) 개인정보보호위원회는 최근 주목받는 개인정보 보호 강화 기술(Privacy Enhancing Technology)인 합성데이터(Synthetic data)의 안전한 생성과 활용을 지원하기 위해 「합성데이터 생성·활용 안내서」(이하 ‘안내서’)를 발간하였다.
합성데이터(Synthetic data)란 컴퓨터 시뮬레이션 또는 알고리즘에 의해 특정 목적을 위해 원본데이터의 형식과 구조 및 통계적 분포 특성과 패턴을 학습하여 생성한 모의(simulated) 또는 가상(artificial) 데이터를 말한다. 가상의 데이터이기 때문에 원본데이터에 있는 개인 식별정보나 민감정보를 노출하지 않고 데이터를 자유롭게 공유, 활용할 수 있다는 이점이 있다.
데이터의 안전한 활용을 위해 합성데이터를 생성하고 활용하는 사례가 늘어나고 있지만, 그간 현장에서 적용 가능한 기준이나 참고할 만한 선례가 부족하였다. 이에 따라 개인정보위는 지난 5월 관련 실증사례를 담은 「합성데이터 생성 참조모델」을 발표한 데 이어, 이번에는 해당 사례를 바탕으로 합성데이터 생성절차와 관련 법령 준수사항을 수록한 안내서를 발간하였다.
안내서는 각계 전문가가 참여한 연구반에서 안을 만들고, 이후 외부 전문가의 추가 의견수렴을 거쳐 완성되었다. 안내서에서는 개인정보 식별가능성에 실질적으로 대응할 수 있도록 합성데이터 생성·활용 단계를 ①사전준비→②합성데이터 생성→③안전성 및 유용성 검증→④심의위원회 평가→⑤활용 및 안전한 관리로 제시하였다. 아울러, 합성데이터 생성·활용 주체와 관련된 적법절차, 원본데이터의 전처리 방식, 안전성·유용성 검증방법과 지표 등 생성·활용 단계별 세부절차를 안내하였다. 또한, 생성과정 전반에 대한 체크리스트와 문서 예시를 함께 제시하여 담당자 등이 쉽게 이해할 수 있도록 하였다.
또한 최근 수요가 증가하는 비정형 합성데이터(이미지)에 대해서도 절차와 유의사항들을 안내하고 있으며, 특히 불특정 다수 등 일반대중 공개를 위한 합성데이터는 안전성에 중점을 두어 생성·검증하고 심의위원회 평가 등을 거쳐 익명정보로 활용할 수 있다는 점도 밝혔다.
따라서 앞으로 산업현장, 연구소 등에서는 합성데이터 관련 절차나 서식, 방법론, 법령 준수사항 등을 참고하고자 할 때 안내서를 활용할 수 있다. 구체적으로, 정형·비정형 합성데이터별 세부 사례는 「합성데이터 생성 참조모델(’24.5, 개인정보위)」에서 확인할 수 있으며, 참조모델의 합성데이터는 ‘가명정보 지원 플랫폼(dataprivacy.go.kr)’에서 다운로드할 수 있다.
양청삼 개인정보위 개인정보정책국장은 “선례가 부족한 상황에서도 산학연, 법률 전문가들이 적극 참여하여 안내서를 마련하였다는 점에서 그 의의가 크다.”라며, “프라이버시 강화 기술로서 합성데이터의 잠재력에도 불구하고, 활용 기준, 방법, 절차 관련 내용이 체계화되어 있지 않아 산업·연구현장에서 느껴왔던 애로사항들이 이번 안내서를 통해 해소되기를 기대한다.”라고 밝혔다.