Oracle Cloud Infrastructure(OCI) Data Labeling은 보다 정확도 높은 AI 및 머신러닝 모델 훈련을 위한 레이블 지정된 데이터세트 구축 서비스입니다. OCI Data Labeling을 사용하면 개발자 및 데이터 과학자들은 사용자 인터페이스 및 공용 API를 통해 데이터를 수집하고, 데이터세트를 생성 및 탐색하고, 레이블을 데이터 레코드에 적용할 수 있습니다. 매끄러운 모델 구축 경험을 위해 레이블 지정된 데이터세트를 Oracle의 AI 및 데이터 과학 서비스로 내보내 모델 개발에 사용할 수 있습니다.
PDF 및 TIFF 포맷을 포함한 문서를 업로드하고 레이블을 추가할 수 있습니다. 이 레이블은 지원 티켓을 분류하고, 고객의 설명을 기반으로 환불 절차를 자동으로 처리하는 커스텀 문서 분류 모델 훈련 등의 시나리오에 도움이 됩니다.
개발자들은 원시 이미지를 업로드하고, 레이블을 추가하고, 이미지 영역을 강조할 수 있습니다. 이 레이블을 이미지에 추가해 결과 데이터세트를 커스텀 이미지 분류 및 객체 감지 모델 훈련에 사용할 수 있습니다.
텍스트 분류 레이블을 업로드한 뒤, OCI Data Labeling을 사용해 텍스트 내 핵심 정보를 자동으로 식별할 수 있습니다. 레이블 지정된 텍스트는 정보 추출, 의도 분류, 감성 분석 등을 위한 고객의 자연어 처리 모델 훈련에 사용될 수 있습니다.
OCI Data Labeling은 커스텀 템플릿 및 다양한 주석 양식을 제공합니다. 머신러닝 모델의 니즈에 따라 데이터 레이블을 지정할 수 있습니다. 세 단계만 거치면 이미지, 텍스트, 문서에 주석을 달 수 있죠. 데이터 로딩, 주석 달기, 내보내기를 통해 데이터세트를 생성해 보세요.
JSON 형식의 주석이 달린 데이터 기록 스냅샷을 객체 스토리지로 내보낼 수 있습니다. Oracle의 AI 및 데이터 과학 서비스 전반에서 내보낸 레이블 지정 데이터세트에 액세스하고, 이를 별도의 변경 없이 커스텀 모델 구축 프로세스에 통합할 수 있습니다.
OCI Data Labeling을 자체적으로 사용하거나 OCI Vision, OCI Language 등 기타 서비스 내에서 OCI Data Labeling에 액세스할 수 있습니다. 개발자 및 데이터 엔지니어는 데이터세트를 조립 및 레이블 지정한 뒤 커스텀 모델 훈련 워크로드의 일환으로 OCI AI Services를 통해 이를 손쉽게 참조할 수 있습니다. 직접 딥러닝 또는 자연어 처리 모델을 구축 및 훈련하는 걸 선호하는 데이터 과학자들은 OCI Data Science를 통해 레이블 지정된 데이터세트를 사용할 수 있습니다.
로고, 인기 의류 착장 핏 및 색상, 제품 종류, 의료용 이미지 등으로 구성된 데이터세트에 레이블을 지정할 수 있습니다. 레이블 지정된 데이터세트를 재고 계획 수립, 제품 분류, 선반 관리, 의료 진단에 사용할 수 있죠.
불규칙한 이미지에 레이블을 지정해 제품 품질 검수, 결함 감지, 안전 감시, 재고 관리 요소 등의 자동화 모델을 생성할 수 있습니다.
환자 요구 처리, 의료 보고서 진단 및 셀룰러 연구 등을 위한 가치 있는 정보를 보다 손쉽게 추출하기 위해 문서에 레이블을 지정할 수 있습니다.
영수증, 송장, 고객 지원 챗봇 및 자동화된 비용 제출용 PO 등으로 데이터세트를 분류할 수 있습니다.
단어 그룹에 태그를 지정하고 레이블을 할당할 수 있습니다. 레이블 지정된 텍스트 데이터세트는 고객 설문조사 분석, 주제 모델링, 고객 지원 등에 사용될 수 있습니다.
Principal Data Scientist, Praveen Patil
OCI Data Labeling 서비스는 데이터를 세트로 조립하고, 데이터세트를 생성 및 탐색하고, 기록을 확인할 수 있게 해줍니다(이미지 및 텍스트 등). 이 서비스는 레이블 적용, 편집, 저장은 물론 레이블 지정된 데이터 분석까지 지원하는 풍부한 사용자 인터페이스를 갖추고 있어서, Oracle AI 및 데이터 과학 서비스를 통해 커스텀 모델을 훈련 및 구축할 수 있습니다. 콘솔 및 직접 데이터 레이블 지정 워크플로를 구축할 수 있게 해주는 API를 통해 이 기능들에 액세스할 수 있습니다.
전체 게시글 읽어보기데이터 레이블 지정을 시작하면 머신러닝 모델에서 고품질 데이터를 더욱 손쉽게 사용할 수 있습니다.