비지도 학습이란 무엇인가요?

Michael Chen | Content Strategest | 2024년 7월 17일

비지도 학습은 레이블이 지정되지 않은 데이터 세트를 훈련에 사용하는 머신러닝 기법입니다. 비지도 학습에서는 모델에게 원하는 출력물 또는 데이터 관계에 대한 지침을 제시하지 않습니다. 대신 모델이 데이터를 탐색하며 그 과정에서 패턴, 트렌드, 관계를 직접 발견하도록 하는 것이 비지도 학습의 목표입니다.

비지도 학습은 레이블이 지정되지 않은 대량의 데이터(또한 많은 경우 다양한 데이터)를 보유 중이고, 데이터의 패턴 및 관계를 모르는 상황에서 수행하는 머신러닝 프로젝트에 가장 적합한 방법입니다 비지도 학습 알고리즘을 통해 다른 방법으로는 발견하지 못했을 인사이트를 발견하는 경우가 많습니다. 예를 들어, 고객 구매 이력 데이터 세트를 조사해 유사한 방식으로 구매하는 고객들의 클러스터를 새롭게 발견할 수 있습니다. 의사 결정권자는 해당 정보를 바탕으로 새로운 판매 프로그램을 개발할 수도 있습니다.

탐색적 특성을 지닌 비지도 학습은 다음과 같은 특정 시나리오에 가장 적합합니다. 그 목록은 다음과 같습니다.

원시 데이터 분석: 비지도 학습 알고리즘은 텍스트와 같은 매우 방대한 양의 비정형 데이터를 탐색해 패턴과 추세를 찾을 수 있습니다. 예를 들어 비지도 학습 알고리즘은 과거의 고객 이메일 문의 데이터로 구성된 비정형 데이터 집합을 탐색할 수 있습니다. 상호 작용의 품질이나 목적을 정의해 주는 레이블링이 없어도 알고리즘은 동일한 기술 문제에 대한 대량의 문의와 같이 개선의 여지가 있는 패턴을 직접 감지할 수 있습니다.

그룹화: 데이터 세분화의 경우, 비지도 학습 방식으로 데이터 포인트의 특성을 조사해 공통점과 패턴을 파악하고 그룹을 만들 수 있습니다. 고객 입력에 응답하기 위한 대규모 언어 모델(LLM) 훈련 프로젝트를 예로 들 수 있습니다. 이 알고리즘은 챗봇 및 메시지의 비정형 고객 피드백을 사용해 청구 관련 질문, 긍정 또는 부정적 피드백, 기술적 질문, 채용 문의 등 텍스트를 기반으로 카테고리를 식별하는 방법을 학습할 수 있습니다. 이렇게 분류해 둔 카테고리는 추후 모델이 상황별로 언어와 어조 측면에서 가장 적절한 응답이 무엇인지 파악하는 데 도움을 줍니다.

관계: 그룹화와 유사하게 비지도 학습은 가중치(데이터 포인트가 오버래핑되는 특징 또는 입력의 중요도), 거리(데이터 포인트 간의 전반적인 유사성 측정 단위), 관계의 품질 등을 분석해 데이터 포인트의 연결 방식을 파악할 수 있습니다. 서로 관련이 있는 다양한 데이터 요소를 조사해 의심스러운 기록의 이진 플래그 지정 뿐만 아니라 보다 고차원적인 사기 탐지 능력을 갖출 수 있는 알고리즘이 그 좋은 예입니다. 그러한 알고리즘은 이미 플래그가 지정된 계정의 유사한 구매, 해당 계정의 다른 구매 등의 행위도 함께 파악하고 분석할 수 있습니다. 관계 분석은 기업이 플래그가 지정된 기록이 일회성 사례인지, 더 큰 행동 패턴의 일부인지, 아니면 사기 행위인지 판단할 수 있는 컨텍스트를 제공합니다.

비지도 학습을 통해 이상의 각 사례별 데이터 패턴 및 특성을 식별할 수 있습니다. 해당 프로세스를 통해 알고리즘이 의사 결정을 지원하기 위해서는 무엇을 학습해야 하는지 더 잘 이해할 수 있습니다.

비지도 학습이란 무엇인가요?

비지도 학습은 레이블이 지정되지 않은 데이터로 알고리즘을 학습시키는 머신러닝의 한 유형입니다. 비지도 학습 프로젝트는 해결해야 하는 문제가 무엇인지 지정하거나, 특정한 목표를 설정하는 것부터 시작됩니다. 프로젝트의 리더들은 해당 정보를 바탕으로 프로젝트에 사용할 알고리즘의 유형을 선택할 수 있습니다 선택은 일반적으로 군집화, 관계 탐색, 차원 축소(데이터 세트 내에서 특징이나 변수를 식별하고 정의하는 프로세스) 등 원하는 결과를 기반으로 이루어집니다. 프로젝트의 목표와 알고리즘 유형에 따라 필요한 데이터 유형이 결정되므로, 목표를 수립하면 그에 부합하는 적절한 학습 데이터 세트를 함께 찾게 됩니다.

이상의 요소들이 설정 완료되면 알고리즘은 허용 가능한 성능 표준을 충족할 때까지 기존에 확립된 입력/출력 관계를 시행착오를 통해 모방하는 훈련 과정을 거칩니다. 데이터 전문가는 모델의 결과물을 분석해 목표로 하는 인사이트를 포착했는지 여부를 확인하고, 모델을 개선하고 매개변수를 조정해 성능을 향상시키는 작업을 반복합니다.

비지도 학습을 사용하기로 결정할 때는 주의해야 할 점이 있습니다. 비지도 학습은 결과 검증에 도움이 되는 레이블이 지정된 데이터가 없는, 지도 학습 또는 준지도 학습에 비해 더 복잡한 훈련 방법이므로 모델의 성능을 검증할 수 있는 전문가의 감독을 거치는 것이 일반적입니다. 즉, 비지도 학습은 데이터 레이블링 및 준비 관점에서는 손이 많이 가지 않는 프로세스이지만, 제대로 진행하기 위해서는 면밀한 감독이 필요합니다. 예를 들어 사실적인 일러스트를 생성하는 생성형 AI 모델의 경우, 해당 분야의 전문가는 조명, 해부학, 구조적 타당성 등의 영역에서 이미지 생성의 기반이 되는 패턴과 관계가 정확한지 확인하기 위해 결과물을 면밀히 검토해야 합니다. 검토를 생략할 경우 여분의 손가락이나 발가락이 생성될 수도 있습니다.

비지도 학습의 가장 일반적인 유형은 다음과 같습니다.

클러스터링: 알고리즘이 유사한 데이터 그룹을 검색하며 그룹 간의 공통점을 찾는 방법입니다. 실제 사용 사례로는 고객 세분화, 자동 분류 이메일 필터링 등이 있습니다.

연관 규칙: 알고리즘이 표면에 있는, 또는 여러 계층 아래 깊이 숨겨진 데이터 포인트 간의 관계를 조사하는 방법입니다. 실제 사용 사례로는 고객 구매 패턴, 의료 진단을 위한 증상 간의 관계 분석 등이 있습니다.

차원 축소: 모델이 데이터 세트를 검사해 사용되는 것과 관련 없는 특징(차원)의 수를 줄이는 방법입니다. 실제 사용 사례로는 이미지 인식, 데이터 압축 알고리즘 등이 있습니다.

기업은 비지도 머신러닝을 통해 인적 개입 없이도 사전 정의된 범주 또는 레이블이 없는 크고 다양한 비정형 데이터 세트로부터 패턴과 인사이트를 발견할 수 있습니다. 이는 수천 개의 모래알을 뒤져 사금을 찾아내는 것과 비슷한, 성장과 혁신을 위한 새로운 기회로 이어질 잠재력이 있는 작업입니다.

비지도 학습에 가장 적합한 AI 사용 사례는 무엇일까요? e-book을 통해 정답을 확인하고, 더 많은 정보를 함께 살펴보세요

비지도 학습 FAQ

비지도 학습의 두 가지 유형은 무엇인가요?

비지도 학습 기법은 일반적으로 다음과 같은 두 가지 유형 중 하나로 분류됩니다. 군집화는 특성에 따라 데이터를 그룹화하는 과정으로서, 계층적 군집화(우편번호를 기반으로 고객의 구매력을 파악하는 작업과 같이 계층적 트리 형태로 클러스터를 생성) 및 확률적 군집화(대출 분석에서 고객의 위험 특성과 같이 소속 가능성을 계산하는 확률 점수를 사용하는 분석 방법) 등의 분석법을 사용하는 알고리즘에 기반합니다. 연관 규칙 학습은 데이터 포인트 간의 관계를 파악해 패턴과 추세를 파악하는 과정으로서, 정량적 연관(연령별 구매 동향과 같이 데이터 포인트 간의 수치 또는 양적 속성을 기반으로 연관된 관계) 및 다중 관계 연관(프로 선수의 나이, 팀 동료의 질, 연봉, 대학 프로그램과 같이 데이터 포인트 간의 여러 가능한 변수 간의 연관 관계) 등의 분석 방법을 사용하는 알고리즘에 기반합니다.

비지도 학습의 좋은 예시는 무엇인가요?

비지도 학습의 좋은 예시로는 의료 산업용 인공지능 LLM이 있습니다. 의료 산업용 LLM은 의학 교과서, 환자 기록, 연구 데이터 등의 비정형 데이터 세트를 학습합니다. 해당 LLM은 반복 훈련을 통해 관계와 패턴을 학습합니다. 훈련의 최종 목표는 적절한 의학 언어를 사용해 높은 수준의 정확도로 의학 관련 쿼리에 답변하는 것입니다.

지도 학습과 비지도 학습의 차이점은 무엇인가요?

지도 학습은 레이블이 지정된 데이터 세트를 사용해 알고리즘을 훈련시킵니다. 지도 학습은 명확한 입력 및 출력 레이블을 사용해 확립된 개념의 토대를 구축합니다. 예를 들어, 고양이를 식별하는 알고리즘은 고양이가 있는 것, 또는 고양이가 없는 것으로 명확하게 레이블이 지정된 사진들을 학습합니다. 반면 비지도 학습은 레이블이 지정되지 않은 데이터 세트를 사용합니다. 알고리즘은 레이블이 없는 데이터 세트를 탐색해 패턴과 추세를 직접 파악합니다. 고양이를 식별하는 동일한 사례를 예로 들자면 시스템은 일반적인 백과사전 스타일의 텍스트와 이미지로 구성된, 레이블이 없는 대규모 데이터 세트를 사용해 고양이와 관련된 시각적 패턴과 개념을 사전 학습한 뒤 고양이의 얼굴, 발, 꼬리 등의 특정 항목별로 세분화된 소규모 이미지 데이터 세트들을 추가적으로 학습할 수 있습니다.

비지도 특징 학습의 예시로는 어떤 것이 있나요?

머신러닝에서 특징(features)이란 데이터 세트에서 발견된 변수를 의미하는 표현입니다. 예를 들어, 날씨 알고리즘과 관련된 특징의 예로는 날짜를 들 수 있습니다. 비지도 학습이라는 구체적인 사례에서, 특징은 알고리즘의 데이터 탐색 과정에서 식별됩니다. 날씨 알고리즘의 예시로 돌아가 보면, 모델은 탐색을 통해 날짜가 예측에 중요한 요소라는 사실을 파악하고 필요한 입력 특징으로 선정할 수 있습니다.