반응형
토픽 | 데이터 가공절차 표준화 | ||
도메인 | 디지털 서비스 | 중요도 | 중 |
참고문헌 | 박천웅 외 1명, “데이터 가공절차 표준화”, TTA저널, 2022.05, pp37-42. |
문. 데이터 가공절차 표준화(2022.05.)
답.
1. 개요
- 데이터 처리는 정보를 받아 특정 결과를 만드는 과정
- 순수 자료를 다시 사용 가능하도록 적당한 형태로 나열하건 정리하는 것
- 자료나 정보의 기본 요소를 포함하는 주 매체를 다루거나 그러한 자료를 분류, 연산, 요약, 기록과 같은 동작을 하기 위한 과정의 정확한 규칙에 따라 다루는 것으로 정의
2. 데이터 가공절차 표준 설명
<그림. 데이터 가공 분야별 가공 절차 개념도>
가. 요건 정의 가공 직무
구 분 | 설 명 |
업무 분석 | - 수요처가 추진하려고 하는 서비스에 대한 이해와 데이터 가공 필요성 등을 파악하는 과정 - 핵심 관계자를 대상으로 인터뷰, 내부 업무 매뉴얼 등을 통해 업무 분석 |
기획/설계 | - 업무 분석을 통해 파악된 내용을 기준으로 데이터 가공을 위한 추진방향, 일정, 사업수행 계획 등 수립 |
데이터 식별 | - 수요처에서 서비스 분석 및 활용 목적에 필요한 데이터 식별을 위해 자체 보유 중인 데이터 및 추가 수집이 필요한 데이터를 식별하는 과정 |
나. 데이터 수집/설계 가공 직무
구 분 | 설 명 |
데이터 수집 | - 서비스 실현을 위해 필요데이터를 수집하는 과정 - 데이터 수집은 데이터 유형(정형, 비정형)에 따라 수집 방식이 다양함 |
데이터 저장 | - 수집된 데이터를 활용 목적에 맞게 특정 저장 공간에 저장하는 과정 - 데이터 저장은 모델설계 과정과 연관성이 높으며, 동시에 수행됨 |
모니터링 | - 데이터 수집 및 저장이 원활하게 진행되는지 모니터링 하는 과정 - 일정한 주기에 따라 수집되는 데이터인 경우 모니터링이 필수적임 |
모델 설계 | - 수집된 데이터가 분석 및 활용 목적에 맞게 특정 저장 공간에 구조화된 형태로 저장될 수 있도록 저장 구조를 설계하는 과정 |
다. 데이터 태깅/라벨링 가공 직무
구 분 | 설 명 |
데이터 추출 | - 이미지, 동영상, 텍스트 등 비정형데이터를 대상으로 객체를 정의하고 해당 객체에 레이블을 지정하여 필요한 데이터를 추출하는 과정 |
데이터 분류 | - 반복학습을 통해 동일 속성의 객체를 인식하고, 해당 객체의 특징에 따라 데이터가 분류될 수 있도록 처리하는 과정임 |
코딩/개발 | - 데이터 추출 및 분류 등의 과정에서 필요한 목적에 맞게 가공하기 위해 개발(코딩) -데이터가 디지털화로 자동 변환될 수 있도록 하는 과정 |
메타데이터 추출/ 정의 | - 디지털화로 변환된 데이터를 대상으로 정보를 효율적으로 관리하고 활용할 수 있도록 해당 데이터의 의미를 부여하고 정의 |
데이터 비식별화 | - 누군가의 정체성이 공개되지 않도록 예방하기 위해 사용되는 데이터 가공 과정으로, 데이터 내 개인을 식별할 수 있는 정보를 익명화/가명화 |
라. 데이터 학습 가공 직무
구 분 | 설 명 |
데이터 학습 | - 머신러닝, 딥러닝 등을 통해 데이터 학습을 수행하는 과정 - 데이터 학습 과정은 매우 복잡하며, 알고리즘에 따라 수행됨 |
데이터 모델링 | - 데이터 학습의 정확도를 높이기 위해 데이터 모델링을 반복적으로 수행됨 - 데이터 모델링은 데이터 성능, 튜닝 과정과 연관성이 높음 |
마. 성능 및 결과 분석 가공 직무
구 분 | 설 명 |
데이터 성능 | - 데이터모델에 대한 성능을 측정하는 과정 - 문제 발생 시 측정결과에 따라 반복적으로 성능을 체크해야됨 |
데이터 튜닝 | - 데이터 모델의 정확도가 낮거나, 모델로써 활용하기 어려운 경우 모델에 대한 튜닝 과정을 수행함 |
데이터 검증/평가 | - 데이터 처리과정을 통해 가공된 데이터를 검증하고 평가하는 과정 - 검증 및 평가 과정에서 가장 중요한 부분은 분석 및 활용 목적에 따라 데이터 세트가 구성되었는지 확인하는 것 |
바. 데이터 분류 가공 직무
구 분 | 설 명 |
데이터 추출 | - RDBMS, 스프레드시트, 로그 등 정형데이터를 대상으로 수집 및 저장된 데이터를 목적에 맞게 추출하는 과정 |
데이터 분류 | - 추출된 데이터를 대상으로 데이터 성격 및 유형, 유사성 등을 기준으로 데이터를 분류하는 과정임 |
코딩/개발 | - 데이터 추출 및 분류 등의 과정에서 필요한 데이터를 목적에 맞게 가공하기 위해 코딩 또는 개발 과정은 필수임 - 데이터가 디지털화로 자동 변환될 수 있도록 하는 과정임 |
사. 데이터 클렌징 가공 직무
구 분 | 설 명 |
데이터 정제 |
- 데이터 처리과정에서 발견된 불필요한 데이터 또는 활용 범위에서 벗어난 데이터를 정제하는 과정 |
데이터 비식별화 |
- 누군가의 정체성을 공개되지 않도록 예방하기 위해 사용되는 데이터 가공 과정 - 데이터 내 개인을 식별할 수 있는 정보를 익명화하거나 가명화하는 과정 |
아. 데이터 결과 분석 가공 직무
구 분 | 설 명 |
데이터 검증/평가 | - 데이터 처리과정을 통해 가공된 데이터를 검증하고 평가하는 과정 - 검증 및 평가 과정에서 가장 중요한 부분은 분석 및 활용 목적에 따라 데이터 세트가 구성되었는지 확인하는 것 |
자. 데이터 품질 가공 직무
구 분 | 설 명 |
데이터 품질진단/개선 |
- 정해진 기준에 따라 데이터의 품질을 진단하고 진단결과, 발견된 오류데이터를 개선하는 과정임 |
데이터 표준화 | - 데이터 표준관리 요소인 단어, 용어, 도메인을 업무 및 비즈니스 영역에서 활용될 수 있도록 표준사전을 구축하는 과정 |
차. 가공 데이터 세트 가공 직무
구 분 | 설 명 |
데이터 세트 정의 |
- 가공절차에 따라 구축된 데이터를 정의하는 과정 - 수요처의 서비스 목적에 맞게 활용할 수 있는 형태로 데이터 세트를 제공하는 것이 중요함 |
카. 분석/시각화 가공 직무
구 분 | 설 명 |
데이터 분석 | - 목적에 따라 구축된 데이터 세트를 활용하여 데이터 분석을 수행하는 과정 - 데이터 분석은 다양한 분석 기법이 존재하며, 분석 기획 및 시나리오에 따라 수행됨 |
데이터 시각화 |
- 분석된 결과를 시각화하는 과정 - 데이터 분석 결과를 쉽게 이해할 수 있도록 도표라는 시각적 수단을 통해 정보를 효율적으로 전달하는 과정 |
3. 데이터 가공 절차별 투입물 및 산출물
구 분 | 투입물 | 산출물 |
요건 정의 | 사업수행계획서 인터뷰 및 요구사항 |
업무 분석서 요구사항 정의서 |
데이터 수집/설계 | 수집 원본 데이터 | 분석/제공 데이터 모델 설계서 환경 구축서 |
데이터 태깅/라벨링 | 분석 데이터 세트 | 메타 데이터 정의서 데이터 비식별 정의서 |
데이터 학습 | 분석 데이터 세트 데이터 알고리즘 |
학습 데이터 알고리즘 |
성능 및 결과 분석 | 분석 데이터 세트 | 성능 및 결과 분석서 |
데이터 분류 | 분석 데이터 세트 | 데이터 분류 결과서 |
데이터 클렌징 | 분석 데이터 세트 | 분석 데이터 클렌징 결과서 (비식별 포함) |
데이터 결과 분석 | 분석 데이터 세트 | 데이터 검증 결과서 |
데이터 품질 | 분석 데이터 세트 | 데이터 품질 진단/개선 보고서 |
가공 데이터 세트 | 분석 데이터 세트 | 제공 데이터 세트 |
분석/시각화 | 분석 데이터 세트 | 분석 결과서 시각화 결과물(대시보드, 그래프 등) |
'정보통신 정보관리기술사 > 논문' 카테고리의 다른 글
문. 국방 환경에 적합한 빅데이터 및 인공지능 기술의 적용 방안 (0) | 2022.08.30 |
---|---|
문. 인공지능 편향성 이슈와 신뢰성 확보방안 (0) | 2022.08.27 |
문. 보안 서비스 엣지 비대면 시대의 네트워크 보안 기술 (2) | 2022.08.24 |
문. 지능형 자율자동차 통신 보안 표준화 동향 (0) | 2022.08.23 |
문. 탈중앙화 신원관리 서비스 모델 (0) | 2022.08.21 |
문. 개방형 스마트홈 연동 표준 매터의 주요 특징과 시장 전망 (0) | 2022.08.20 |
문. 불법 드론 대응을 위한 저고도 드론 탐지 기술 동향 (0) | 2022.08.19 |
문. 6G 이동통신 기술 동향 (0) | 2022.08.17 |