티스토리 뷰


데이터 어노테이션(data annotation)이란 데이터를 라벨링하고 분류하는 것으로, 쉽게 말해 데이터에 그 데이터를 설명하기 위한 또다른 데이터, 즉 메타 데이터를 달아주는 것이다. (즉 흔히 데이터 라벨링 작업을 한다고 말할 때의 '라벨링'도 데이터 어노테이션의 일종이다.) annotate는 '주석을 달다'는 뜻이므로, 논문이나 에세이를 쓸 때 각주나 미주를 넣어 본문에 쓴 문장의 출처나 부연 설명 등을 달아본 경험이 있다면 data annotation이 무엇을 위한 어떤 행위인지 바로 연상할 수 있을 것이다.

데이터 어노테이션의 예시
물체를 보고 자동으로 분리수거를 해주는 모델을 만들 때, 데이터 객체에 bounding box 처리를 해주는 것
환자의 종양이 양성인지 악성인지를 판별하는 모델을 만들 때, 전자를 0, 후자를 1로 표현하는 것


그렇다면 비지도학습 모델을 구축하기 위한 데이터에도 데이터 어노테이션 작업을 해주어야 할까?(Does unsupervised machine learning needs the assistance of data annotation?)
비지도학습에서는 데이터 어노테이션이 필요하지 않다. 정확히 말해 불가능하다.
왜냐면 인간이 정오 유무를 알려 주는 지도학습과 다르게, 비지도학습 모델에는 정오답 판별의 개념이 존재하지 않고 오로지 모델의 판단에 따라 데이터들이 분류되기 때문이다.

오늘은 내가 이해한 대로 데이터 어노테이션의 개념을 정리해 보았다.
Appen사의 홈페이지에 작성된 내용을 참고했다: https://appen.com/blog/data-annotation/)

Data Annotation: What Is It? Annotated Datasets, Tools, Services Defined

To build a solution that thinks and acts like a human requires large volumes of training data. Appen has the expertise and resources to help you quickly scale data annotation for a variety of data types.

appen.com


혹시 틀린 부분이 있다면 지적 부탁드립니다.