정보통신 정보관리기술사/논문

문. 데이터 가공절차 표준화

가카리 2022. 8. 22. 07:11
반응형
토픽 데이터 가공절차 표준화
도메인 디지털 서비스 중요도
참고문헌 박천웅 외 1, “데이터 가공절차 표준화”, TTA저널, 2022.05, pp37-42.

 

. 데이터 가공절차 표준화(2022.05.)

.

1. 개요

  - 데이터 처리는 정보를 받아 특정 결과를 만드는 과정

  - 순수 자료를 다시 사용 가능하도록 적당한 형태로 나열하건 정리하는 것

  - 자료나 정보의 기본 요소를 포함하는 주 매체를 다루거나 그러한 자료를 분류, 연산, 요약, 기록과 같은 동작을 하기 위한 과정의 정확한 규칙에 따라 다루는 것으로 정의

 

2. 데이터 가공절차 표준 설명

<그림. 데이터 가공 분야별 가공 절차 개념도>

. 요건 정의 가공 직무

구 분 설 명
업무 분석 - 수요처가 추진하려고 하는 서비스에 대한 이해와 데이터 가공 필요성 등을 파악하는 과정
- 핵심 관계자를 대상으로 인터뷰, 내부 업무 매뉴얼 등을 통해 업무 분석
기획/설계 - 업무 분석을 통해 파악된 내용을 기준으로 데이터 가공을 위한 추진방향, 일정, 사업수행 계획 등 수립
데이터 식별 - 수요처에서 서비스 분석 및 활용 목적에 필요한 데이터 식별을 위해 자체 보유 중인 데이터 및 추가 수집이 필요한 데이터를 식별하는 과정

 

. 데이터 수집/설계 가공 직무

구 분 설 명
데이터 수집 - 서비스 실현을 위해 필요데이터를 수집하는 과정
- 데이터 수집은 데이터 유형(정형, 비정형)에 따라 수집 방식이 다양함
데이터 저장 - 수집된 데이터를 활용 목적에 맞게 특정 저장 공간에 저장하는 과정
- 데이터 저장은 모델설계 과정과 연관성이 높으며, 동시에 수행됨
모니터링 - 데이터 수집 및 저장이 원활하게 진행되는지 모니터링 하는 과정
- 일정한 주기에 따라 수집되는 데이터인 경우 모니터링이 필수적임
모델 설계 - 수집된 데이터가 분석 및 활용 목적에 맞게 특정 저장 공간에 구조화된 형태로 저장될 수 있도록 저장 구조를 설계하는 과정

 

. 데이터 태깅/라벨링 가공 직무

구 분 설 명
데이터 추출 - 이미지, 동영상, 텍스트 등 비정형데이터를 대상으로 객체를 정의하고 해당 객체에 레이블을 지정하여 필요한 데이터를 추출하는 과정
데이터 분류 - 반복학습을 통해 동일 속성의 객체를 인식하고, 해당 객체의 특징에 따라 데이터가 분류될 수 있도록 처리하는 과정임
코딩/개발 - 데이터 추출 및 분류 등의 과정에서 필요한 목적에 맞게 가공하기 위해 개발(코딩)
-데이터가 디지털화로 자동 변환될 수 있도록 하는 과정
메타데이터 추출/ 정의 - 디지털화로 변환된 데이터를 대상으로 정보를 효율적으로 관리하고 활용할 수 있도록 해당 데이터의 의미를 부여하고 정의
데이터 비식별화 - 누군가의 정체성이 공개되지 않도록 예방하기 위해 사용되는 데이터 가공 과정으로, 데이터 내 개인을 식별할 수 있는 정보를 익명화/가명화

 

. 데이터 학습 가공 직무

구 분 설 명
데이터 학습 - 머신러닝, 딥러닝 등을 통해 데이터 학습을 수행하는 과정
- 데이터 학습 과정은 매우 복잡하며, 알고리즘에 따라 수행됨
데이터 모델링 - 데이터 학습의 정확도를 높이기 위해 데이터 모델링을 반복적으로 수행됨
- 데이터 모델링은 데이터 성능, 튜닝 과정과 연관성이 높음

 

. 성능 및 결과 분석 가공 직무

구 분 설 명
데이터 성능 - 데이터모델에 대한 성능을 측정하는 과정
- 문제 발생 시 측정결과에 따라 반복적으로 성능을 체크해야됨
데이터 튜닝 - 데이터 모델의 정확도가 낮거나, 모델로써 활용하기 어려운 경우 모델에 대한 튜닝 과정을 수행함
데이터 검증/평가 - 데이터 처리과정을 통해 가공된 데이터를 검증하고 평가하는 과정
- 검증 및 평가 과정에서 가장 중요한 부분은 분석 및 활용 목적에 따라 데이터 세트가 구성되었는지 확인하는 것

 

. 데이터 분류 가공 직무

구 분 설 명
데이터 추출 - RDBMS, 스프레드시트, 로그 등 정형데이터를 대상으로 수집 및 저장된 데이터를 목적에 맞게 추출하는 과정
데이터 분류 - 추출된 데이터를 대상으로 데이터 성격 및 유형, 유사성 등을 기준으로 데이터를 분류하는 과정임
코딩/개발 - 데이터 추출 및 분류 등의 과정에서 필요한 데이터를 목적에 맞게 가공하기 위해 코딩 또는 개발 과정은 필수임
- 데이터가 디지털화로 자동 변환될 수 있도록 하는 과정임

 

. 데이터 클렌징 가공 직무

구 분 설 명
데이터
정제
- 데이터 처리과정에서 발견된 불필요한 데이터 또는 활용 범위에서 벗어난 데이터를 정제하는 과정
데이터
비식별화
- 누군가의 정체성을 공개되지 않도록 예방하기 위해 사용되는 데이터 가공 과정
- 데이터 내 개인을 식별할 수 있는 정보를 익명화하거나 가명화하는 과정

 

. 데이터 결과 분석 가공 직무

구 분 설 명
데이터 검증/평가 - 데이터 처리과정을 통해 가공된 데이터를 검증하고 평가하는 과정
- 검증 및 평가 과정에서 가장 중요한 부분은 분석 및 활용 목적에 따라 데이터 세트가 구성되었는지 확인하는 것

 

. 데이터 품질 가공 직무

구 분 설 명
데이터
품질진단
/개선
- 정해진 기준에 따라 데이터의 품질을 진단하고 진단결과, 발견된 오류데이터를 개선하는 과정임
데이터 표준화 - 데이터 표준관리 요소인 단어, 용어, 도메인을 업무 및 비즈니스 영역에서 활용될 수 있도록 표준사전을 구축하는 과정

 

. 가공 데이터 세트 가공 직무

구 분 설 명
데이터 세트
정의
- 가공절차에 따라 구축된 데이터를 정의하는 과정
- 수요처의 서비스 목적에 맞게 활용할 수 있는 형태로 데이터 세트를 제공하는 것이 중요함

 

. 분석/시각화 가공 직무

구 분 설 명
데이터 분석 - 목적에 따라 구축된 데이터 세트를 활용하여 데이터 분석을 수행하는 과정
- 데이터 분석은 다양한 분석 기법이 존재하며, 분석 기획 및 시나리오에 따라 수행됨
데이터
시각화
- 분석된 결과를 시각화하는 과정
- 데이터 분석 결과를 쉽게 이해할 수 있도록 도표라는 시각적 수단을 통해 정보를 효율적으로 전달하는 과정

 

3. 데이터 가공 절차별 투입물 및 산출물

구 분 투입물 산출물
요건 정의 사업수행계획서
인터뷰 및 요구사항
업무 분석서
요구사항 정의서
데이터 수집/설계 수집 원본 데이터 분석/제공 데이터 모델 설계서
환경 구축서
데이터 태깅/라벨링 분석 데이터 세트 메타 데이터 정의서
데이터 비식별 정의서
데이터 학습 분석 데이터 세트
데이터 알고리즘
학습 데이터 알고리즘
성능 및 결과 분석 분석 데이터 세트 성능 및 결과 분석서
데이터 분류 분석 데이터 세트 데이터 분류 결과서
데이터 클렌징 분석 데이터 세트 분석 데이터 클렌징 결과서
(비식별 포함)
데이터 결과 분석 분석 데이터 세트 데이터 검증 결과서
데이터 품질 분석 데이터 세트 데이터 품질 진단/개선 보고서
가공 데이터 세트 분석 데이터 세트 제공 데이터 세트
분석/시각화 분석 데이터 세트 분석 결과서
시각화 결과물(대시보드, 그래프 등)