CHAPTER 1 합성 데이터 생성 소개
1.1 합성 데이터 정의
1.2 합성 데이터의 이점
1.3 합성 데이터의 활용 사례
1.4 요약
CHAPTER 2 데이터 합성
2.1 합성 시기
2.2 식별화 가능성 스펙트럼
2.3 데이터 접근 활성화를 위한 PET 선택의 절충
2.4 데이터 합성 프로젝트
2.5 데이터 합성 파이프라인
2.6 합성 프로그램 관리
2.7 요약
CHAPTER 3 시작: 분포 적합
3.1 데이터 프레임
3.2 데이터 분포 유형
3.3 실제 데이터에 분포 적합시키기
3.4 분포로부터 합성 데이터 생성
3.5 요약
CHAPTER 4 합성 데이터의 효용성 평가
4.1 합성 데이터 효용성 프레임워크: 분석 복제
4.2 합성 데이터의 효용성 프레임워크: 효용성 메트릭
4.3 요약
CHAPTER 5 데이터 합성 방법
5.1 합성 데이터 생성 이론
5.2 실제 합성 데이터 생성
5.3 하이브리드 합성 데이터
5.4 머신러닝 방법
5.5 딥러닝 방법
5.6 시퀀스 합성
5.7 요약
CHAPTER 6 합성 데이터의 신원 식별
6.1 노출 유형
6.2 개인 정보 보호법이 합성 데이터의 생성과 사용에 미치는 영향
6.3 요약
CHAPTER 7 실제 데이터 합성
7.1 데이터 복잡성 관리
7.2 데이터 합성 구성
7.3 결론
합성 데이터는 지난 몇 년간 주목을 받으며 사회적 관심이 급속도로 증가했는데, 이러한 현상은 다음과 같은 두 가지에 관심이 쏠리면서 촉발됐다. 첫째는 인공지능과 머신러닝(AIML 모델을 양성하고 구축하는 데 따른 대량의 데이터 수요다. 둘째는 고품질의 합성 데이터를 생성하는 효과적인 방법을 입증한 최근의 작업이다. 이로 인해 합성 데이터가 특히 AIML 커뮤니티 내에서 어려운 문제를 일부 상당히 효과적으로 해결할 수 있음을 인식하게 됐다. 따라서 NVIDIA, IBM, 알파벳과 같은 회사들만이 아니라 미국 인구조사국 같은 정부 기관도 모델 구축, 애플리케이션 개발, 데이터 배포를 지원하기 위해 다양한 유형의 데이터 합성 방법론을 채택하기에 이르렀다.
1장: 합성 데이터와 그 이점이 무엇인지 설명한다. 인공지능과 머신러닝(AIML 프로젝트는 다양한 산업에서 사용되고 있으며, 광범위한 활용 사례 중 맛보기로 몇 가지를 발췌해 수록했다.
2장: 데이터 합성의 목표를 설정하고 다른 방법들에 비해 비즈니스 우선순위에 적합한 시기를 결정하는 데 도움되는 의사결정 프레임워크를 제시한다.
3장: 데이터 합성 프로세스의 첫 번째 단계인 분포 모델링을 다룬다. 비정형 데이터 분포를 머신러닝 모델에 적합하는 방법을 개략적으로 설명한다.
4장: 합성 데이터에 사용할 수 있는 데이터 효용성 프레임워크를 설명한다. 데이터 합성기 최적화, 데이터 합성 접근법, 합성 데이터의 결과 파악 등을 살펴본다.
5장: 기본 개념을 이용해 합성 데이터를 생성해본다. 몇 가지 기본적인 접근법으로 시작해서 뒤로 갈수록 복잡한 접근법으로 발전하며 입문자용 기술부터 고급 기술까지 다룬다.
6장: 먼저 데이터 합성이 보호하려는 노출 유형을 정의한다. 미국과 유럽연합의 주요 프라이버시 규정이 합성 데이터를 어떻게 다루는지 검토하고, 프라이버시 보장 분석을 시작할 방법을 제시한다.
7장: 합성 데이터셋과 합성 데이터 생성 기술을 전수해온 경험을 바탕으로 실제 데이터를 처리할