티스토리 뷰
데이터 어노테이션(data annotation)이란 데이터를 라벨링하고 분류하는 것으로, 쉽게 말해 데이터에 그 데이터를 설명하기 위한 또다른 데이터, 즉 메타 데이터를 달아주는 것이다. (즉 흔히 데이터 라벨링 작업을 한다고 말할 때의 '라벨링'도 데이터 어노테이션의 일종이다.) annotate는 '주석을 달다'는 뜻이므로, 논문이나 에세이를 쓸 때 각주나 미주를 넣어 본문에 쓴 문장의 출처나 부연 설명 등을 달아본 경험이 있다면 data annotation이 무엇을 위한 어떤 행위인지 바로 연상할 수 있을 것이다.
데이터 어노테이션의 예시
물체를 보고 자동으로 분리수거를 해주는 모델을 만들 때, 데이터 객체에 bounding box 처리를 해주는 것
환자의 종양이 양성인지 악성인지를 판별하는 모델을 만들 때, 전자를 0, 후자를 1로 표현하는 것
그렇다면 비지도학습 모델을 구축하기 위한 데이터에도 데이터 어노테이션 작업을 해주어야 할까?(Does unsupervised machine learning needs the assistance of data annotation?)
비지도학습에서는 데이터 어노테이션이 필요하지 않다. 정확히 말해 불가능하다.
왜냐면 인간이 정오 유무를 알려 주는 지도학습과 다르게, 비지도학습 모델에는 정오답 판별의 개념이 존재하지 않고 오로지 모델의 판단에 따라 데이터들이 분류되기 때문이다.
오늘은 내가 이해한 대로 데이터 어노테이션의 개념을 정리해 보았다.
Appen사의 홈페이지에 작성된 내용을 참고했다: https://appen.com/blog/data-annotation/)
혹시 틀린 부분이 있다면 지적 부탁드립니다.
'공부 > Data Science' 카테고리의 다른 글
부스트코스 코칭스터디 ’인공지능 기초 다지기(AI Basic) 2023’ 지원 (0) | 2022.12.14 |
---|---|
<데싸노트의 실전에서 통하는 머신러닝> 북 스포일러 (0) | 2022.08.23 |
데이터 사이언티스트/데이터 분석가 커리어를 위해서 무엇부터 준비해야 할까? & 필수 기술! (0) | 2022.06.10 |
구글 코랩에서 셀레니움을 사용하려는데 잘 되지 않아요 (0) | 2022.06.06 |
DBeaver로 PostgreSQL 연결하고 .csv 데이터 업로드하기(feat.ElephantSQL, python) (0) | 2022.06.03 |
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Notion2Tistory
- 데이터준전문가합격후기
- 깃허브
- 빅분기후기
- 이력서
- 커리어코칭
- 이자포스터디
- 인공지능
- ai부트캠프
- 코드스테이츠
- 빅분기합격
- 자격증
- Til
- 개발자포트폴리오
- 데이터준전문가
- github
- 빅분기
- ADsP합격후기
- 코테공부
- 빅데이터분석기사
- todayIlearned
- 취업준비
- 자버
- ADsP
- data annotation
- Kaggle
- googlecolab
- 데이터과학
- 빅데이터
- 데이터분석
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함