티스토리 뷰
데이터 어노테이션(data annotation)이란 데이터를 라벨링하고 분류하는 것으로, 쉽게 말해 데이터에 그 데이터를 설명하기 위한 또다른 데이터, 즉 메타 데이터를 달아주는 것이다. (즉 흔히 데이터 라벨링 작업을 한다고 말할 때의 '라벨링'도 데이터 어노테이션의 일종이다.) annotate는 '주석을 달다'는 뜻이므로, 논문이나 에세이를 쓸 때 각주나 미주를 넣어 본문에 쓴 문장의 출처나 부연 설명 등을 달아본 경험이 있다면 data annotation이 무엇을 위한 어떤 행위인지 바로 연상할 수 있을 것이다.
데이터 어노테이션의 예시
물체를 보고 자동으로 분리수거를 해주는 모델을 만들 때, 데이터 객체에 bounding box 처리를 해주는 것
환자의 종양이 양성인지 악성인지를 판별하는 모델을 만들 때, 전자를 0, 후자를 1로 표현하는 것
그렇다면 비지도학습 모델을 구축하기 위한 데이터에도 데이터 어노테이션 작업을 해주어야 할까?(Does unsupervised machine learning needs the assistance of data annotation?)
비지도학습에서는 데이터 어노테이션이 필요하지 않다. 정확히 말해 불가능하다.
왜냐면 인간이 정오 유무를 알려 주는 지도학습과 다르게, 비지도학습 모델에는 정오답 판별의 개념이 존재하지 않고 오로지 모델의 판단에 따라 데이터들이 분류되기 때문이다.
오늘은 내가 이해한 대로 데이터 어노테이션의 개념을 정리해 보았다.
Appen사의 홈페이지에 작성된 내용을 참고했다: https://appen.com/blog/data-annotation/)
Data Annotation: What Is It? Annotated Datasets, Tools, Services Defined
To build a solution that thinks and acts like a human requires large volumes of training data. Appen has the expertise and resources to help you quickly scale data annotation for a variety of data types.
appen.com
혹시 틀린 부분이 있다면 지적 부탁드립니다.
'공부 > Data Science' 카테고리의 다른 글
부스트코스 코칭스터디 ’인공지능 기초 다지기(AI Basic) 2023’ 지원 (0) | 2022.12.14 |
---|---|
<데싸노트의 실전에서 통하는 머신러닝> 북 스포일러 (0) | 2022.08.23 |
데이터 사이언티스트/데이터 분석가 커리어를 위해서 무엇부터 준비해야 할까? & 필수 기술! (0) | 2022.06.10 |
구글 코랩에서 셀레니움을 사용하려는데 잘 되지 않아요 (1) | 2022.06.06 |
DBeaver로 PostgreSQL 연결하고 .csv 데이터 업로드하기(feat.ElephantSQL, python) (0) | 2022.06.03 |
- Total
- Today
- Yesterday
- github
- 빅데이터
- Notion2Tistory
- 데이터과학
- 취업준비
- 데이터준전문가
- 빅분기
- 자버
- 깃허브
- todayIlearned
- data annotation
- 커리어코칭
- 인공지능
- 빅분기후기
- 코드스테이츠
- 이력서
- 빅분기합격
- 자격증
- ADsP합격후기
- 데이터준전문가합격후기
- ai부트캠프
- googlecolab
- ADsP
- 코테공부
- 데이터분석
- Kaggle
- Til
- 이자포스터디
- 빅데이터분석기사
- 개발자포트폴리오
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |