Michael Chen | Content Strategist | 2024년 9월 23일
PwC에 의하면 빅 데이터는 인간과 기계가 매일 생성하는, 페타바이트에 달하는 엄청난 용량의 정형 및 비정형 정보를 의미하는 표현입니다. 고객 정서를 파악하기 위해 수집하는 소셜 미디어 게시물, 기계의 상태를 나타내는 센서 데이터, 대량의 금액을 초고속으로 이동시키는 금융 거래 등이 이에 해당합니다. 빅 데이터는 너무 방대하고 다양하며, 구식 데이터 처리 도구 및 방식으로는 감당할 수 없을 정도로 빠르게 생성됩니다.
또한 빅 데이터에는 분석하지 않고 방치해 두기에는 너무 높은 가치가 내포되어 있습니다. 기업은 방대한 빅 데이터에서 인사이트를 추출해 효율성을 향상시키고, 혁신을 가속화하고, 더 많은 수익을 창출하는 등 다방면에서의 경쟁력을 강화할 수 있습니다.
다행히도 데이터 분석과 머신러닝 기술 및 도구가 발전함에 따라 모든 기업이 빅 데이터 분석을 활용할 수 있게 되었습니다.
빅 데이터는 기존의 데이터 처리 도구, 특히 스프레드시트와 같은 도구로는 쉽게 관리하거나 분석할 수 없는 매우 크고 복잡한 데이터 세트입니다. 빅 데이터의 종류로는 재고 데이터베이스나 금융 거래 목록과 같은 정형 데이터, 소셜 게시물이나 동영상과 같은 비정형 데이터, AI용 대규모 언어 모델을 훈련시키는 데 사용되는 혼합 데이터 세트 등이 있습니다. 데이터 세트에는 셰익스피어의 작품부터 지난 10년간의 회사 예산 스프레드시트까지 모든 종류의 데이터가 포함될 수 있습니다.
최근의 기술 혁신으로 스토리지 및 컴퓨팅 비용이 크게 절감되어 이전보다 더 많은 데이터를 더 쉽고 저렴하게 저장할 수 있게 됨에 따라 빅 데이터의 규모는 더욱 커지고 있습니다. 결과적으로 기업은 더 많은 데이터로 더욱 정확하고 정밀한 비즈니스 의사 결정을 수행할 수 있게 되었습니다. 그러나 빅 데이터로부터 최대한의 가치를 창출하기 위해서는 단순한 데이터 분석 그 이상이 필요합니다. 통찰력을 갖춘 분석가, 비즈니스 사용자, 경영진이 올바른 질문을 던지고, 패턴을 인식하고, 정보에 입각한 가정을 세우고, 행동을 예측하는 포괄적인 가치 발견 프로세스를 구축해야 합니다.
지금까지 빅 데이터는 다양성, 용량, 속도라는 세 가지 특성, 즉 '3V'로 정의되어 왔습니다. 그러나 지난 몇 년 동안 가치와 진실성이라는 2가지 V가 추가로 등장했습니다.
이는 일종의 자본으로 취급되는 오늘날의 데이터의 특징이 반영된 것입니다. 세계에서 가장 큰 기술 기업들이 그 좋은 예입니다. 기술 기업들의 여러 제품은 데이터에 기반하고 있으며, 해당 기업들은 제품의 효율성을 향상시키고 새로운 이니셔티브를 개발하기 위해 끊임없이 데이터를 분석하고 있습니다. 빅 데이터의 성공적인 활용은 5개의 V가 좌우합니다.
빅 데이터라는 개념은 비교적 최근에 등장했지만 대규모 데이터 세트 관리라는 개념은 최초의 데이터 센터와 관계형 데이터베이스가 개발되었던 1960~70년대까지 거슬러 올라갑니다.
과거. 2005년, Facebook, YouTube와 같은 온라인 서비스 사용자들이 생성하는 대량의 데이터가 주목받기 시작했습니다. 같은 해에 빅 데이터 세트를 저장하고 분석하기 위해 특별히 개발된 오픈 소스 프레임워크인 Apache Hadoop이 개발되었습니다. NoSQL도 같은 기간에 각광받기 시작했습니다.
현재. Apache Hadoop 및 그 이후 등장한 Apache Spark과 같은 오픈 소스 프레임워크는 빅 데이터를 보다 간단히 처리하고, 더 저렴하게 저장할 수 있게 만들어준 빅 데이터 성장의 필수 요소였습니다. 2005년부터 지금까지 빅 데이터의 용량은 계속해서 급증해 왔습니다. 사용자들도 여전히 방대한 양의 데이터를 생성하고 있지만 이제 데이터를 생성하는 주체는 사람만이 아닙니다.
사물인터넷(IoT)의 등장과 함께 더 많은 사물 및 장치가 인터넷에 연결되어 고객의 사용 패턴과 제품 성능에 대한 데이터를 수집하고 있습니다. 또한 머신러닝의 등장으로 인해 더 많은 데이터가 생성되고 있습니다.
미래. 빅 데이터는 지금까지 이미 많은 발전을 이루었지만 기업용 생성형 AI 및 클라우드 컴퓨팅의 사용이 확대됨에 따라 그 가치는 한층 더 커지고 있습니다. 클라우드는 개발자가 데이터의 하위 집합을 테스트하기 위한 애드혹 클러스터를 간단히 가동할 수 있는 진정한 탄력적 확장성을 제공합니다. 또한 방대한 양의 데이터를 빠르고 포괄적으로 분석할 수 있는 방식으로 표시하는 기능인 그래프 데이터베이스의 중요성도 갈수록 커지고 있습니다.
빅 데이터 서비스는 다양한 데이터 세트를 통합해 전체적인 그림을 형성함으로써 트렌드 및 패턴을 보다 포괄적으로 이해할 수 있게 해줍니다. 이같은 데이터 통합은 회고적 분석을 용이하게 만들어 줄 뿐만 아니라 예측 기능을 강화해 보다 정확한 예측 및 전략적 의사결정을 지원합니다. 또한 AI와 결합된 빅 데이터는 기존의 데이터 분석을 뛰어넘어 혁신적인 기업용 솔루션을 개발하고 탁월한 성과를 도출할 수 있는 도구로 사용될 수도 있습니다.
답이 완벽하다는 것은 데이터의 신뢰성이 높아진다는 의미입니다. 따라서 문제 해결에 대한 완전히 다른 접근 방식이 가능합니다.
빅 데이터는 고객 경험 및 분석을 비롯한 다양한 비즈니스 활동을 최적화하는 데 활용할 수 있습니다. 다음은 그와 관련된 몇 가지 예시입니다.
1. 리테일 및 전자상거래. Netflix, Procter & Gamble 등의 기업은 빅 데이터를 활용해 고객 수요를 예측합니다. 그리고 과거 및 현재의 제품/서비스의 주요 속성을 분류하고 이러한 속성과 옵션의 상업적 성공 간의 관계를 모델링하여 새로운 제품 및 서비스에 대한 예측 모델을 구축하고 있습니다. 또한 P&G는 포커스 그룹, 소셜 미디어, 테스트 시장, 초기 매장 출시의 데이터 및 분석자료를 사용하여 신규 제품을 계획, 생산, 출시합니다.
2. 헬스케어. 의료 기관은 전자 건강 기록, 환자의 웨어러블 기기, 직원 배치 데이터 등의 내부 데이터 소스와 보험 기록 및 질병 연구 등의 외부 데이터 소스를 결합해 의료진 및 환자 경험을 모두 최적화할 수 있습니다. 내부적으로는 운영팀이 제공하는 인사이트를 바탕으로 직원 일정 관리, 공급망 관리, 시설 관리 등을 최적화할 수 있습니다. 환자의 경우 개인화된 제안 및 예측 스캔 등의 기반이 되는 데이터를 활용해 즉각적 또는 장기적인 치료 방식을 변경할 수 있습니다.
3. 금융 서비스. 금융 기관의 보안 시스템은 단순히 소수의 악질 해커가 아닌, 전문 해커들로 이루어진 집단에 맞서야 합니다. 보안 환경 및 규제 준수 요구사항은 계속해서 진화하고 있습니다. 빅 데이터를 사용하면 데이터에서 사기를 나타내는 패턴을 식별하고 대량의 정보를 집계하여 규제 보고를 훨씬 빠르게 할 수 있습니다.
4. 제조업. 장비 고장을 예측할 수 있는 근거는 장비 생산연도, 제조사, 장비 모델과 같은 정형 데이터는 물론 수백만 개의 로그 항목, 센서 데이터, 오류 메시지, 엔진 온도 등의 비정형 데이터 안에도 깊숙이 숨겨져 있을 수 있습니다. 기업은 문제가 발생하기에 앞서 잠재적인 문제 징후를 분석함으로써 보다 비용 효율적인 유지 보수를 수행하고 부품 및 장비 가동 시간을 극대화할 수 있습니다.
5. 정부 및 공공 서비스. 정부 기관은 DMV 기록, 교통 데이터, 경찰/소방관 데이터, 공립학교 기록 등의 다양한 소스로부터 데이터를 수집할 수 있습니다. 이를 통해 운전자 행동 추세를 파악해 교차로 관리를 최적화하고, 학교의 자원 배분을 개선하는 등의 다양한 방식으로 공공 서비스의 효율성을 강화할 수 있습니다. 또한 정부는 수집한 데이터를 공개적으로 게시해 데이터 투명성을 강화함으로써 정부에 대한 시민들의 신뢰도를 향상시킬 수 있습니다.
빅 데이터는 많은 이점을 제공하지만 몇 가지 도전 과제를 내포하고 있기도 합니다.
먼저, 빅 데이터의 방대한 용량 자체부터가 문제입니다. 분석가들에 따르면 데이터 저장을 지원하는 신기술들이 계속해서 개발되고 있음에도 빅 데이터의 용량은 약 2년마다 2배씩 증가하며 저장 및 관리에 어려움을 더하고 있습니다. 데이터의 증가량을 따라잡고 효과적으로 저장하는 방법을 찾는 데 어려움을 겪고 있는 기업에게 단순히 데이터 용량을 줄이는 것은 해결책이 되기 어렵습니다.
또한 데이터를 경제적이고 접근이 용이하도록 저장하는 것만으로는 충분하지 않습니다. 데이터를 반드시 가치있게 활용해야만 하고, 그 성공 여부는 데이터의 큐레이션이 좌우합니다. 큐레이션된 데이터, 즉 고객과의 관련성이 높고 의미있는 분석을 지원하는 방식으로 정리된 데이터는 거저 주어지는 것이 아닙니다. 큐레이션에는 많은 작업이 필요합니다. 많은 기업의 데이터 과학자들은 데이터를 효과적으로 사용할 수 있도록 데이터를 큐레이션하고 준비하는 데 업무 시간의 50~80%를 할애합니다.
기업의 저장소에 모든 데이터가 저장된 후에도 여전히 2가지 중요한 과제가 남아 있습니다. 첫째, 데이터 보안 및 개인정보 보호 관련 요구 사항은 IT팀의 데이터 관리 방식에 영향을 미칩니다. 지역/산업별 규제 준수, 암호화, 민감한 데이터에 대한 역할 기반 액세스 등이 이에 포함됩니다. 둘째, 데이터의 유용성을 이끌어내기 위해서는 직접 사용해야만 합니다. 기업 내부적으로 데이터 중심 문화를 조성하는 것은 어려울 수 있습니다. 특히 오래된 정책과 태도가 사내 문화에 내재되어 있는 기업인 경우에는 더욱 그렇습니다. 셀프 서비스 분석과 같은 새로운 동적 애플리케이션은 거의 모든 부서의 업무 방식을 효율화할 수 있지만, IT팀은 그와 관련된 교육, 숙지, 훈련을 위한 시간과 노력을 투자해야 합니다. 이는 인사이트 확보 및 최적화를 통해 큰 조직적 변화를 불러올 수 있는 장기적 투자입니다.
마지막으로, 빅 데이터 기술은 빠른 속도로 변화하고 있습니다. 몇 년 전만 해도 빅 데이터 처리에 널리 사용되는 기술은 Apache Hadoop이었습니다. Apache Spark는 2014년에 도입되었습니다. 오늘날에는 여러 기술이 결합되어 빅 데이터 시장을 재편하고 있습니다. 이러한 변화를 따라잡는 것은 지속적인 도전 과제입니다.
빅 데이터는 새로운 기회 및 비즈니스 모델을 위한 인사이트를 제공합니다. 빅 데이터의 수집이 완료되면 다음과 같은 3가지 주요 작업을 수행해야 합니다.
빅 데이터는 서로 다른 여러 소스 및 애플리케이션의 데이터를 통합합니다. 추출, 변환 및 로드(ETL)와 같은 기존의 데이터 통합 메커니즘은 일반적으로 이러한 작업에 적합하지 않습니다. 테라바이트 또는 페타바이트 규모의 빅 데이터 세트를 분석하기 위해서는 새로운 전략 및 기술이 필요합니다.
통합하는 동안 데이터를 가져와서 처리하고, 비즈니스 분석가가 분석을 시작할 수 있는 형식으로 포맷팅되었는지 확인해야 합니다.
빅 데이터에는 스토리지가 필요합니다. 스토리지 솔루션은 클라우드 또는 온프레미스 환경에, 또는 양쪽 모두에 존재할 수 있습니다. 데이터를 원하는 형식으로 저장하고, 원하는 처리 요구사항과 필요한 프로세스 엔진을 온디맨드 모델을 기반으로 해당 데이터 세트에 적용할 수 있습니다. 많은 사람들이 현재 데이터가 상주하는 위치에 따라 스토리지 솔루션을 선택하고 있습니다. 데이터 레이크는 일단 현 시점의 컴퓨팅 요구 사항을 지원하고, 추후 필요한 만큼의 리소스를 추가할 수도 있다는 점에서 갈수록 인기를 얻고 있습니다.
빅 데이터에 대한 투자는 데이터를 분석 및 처리할 때 그 가치가 발휘됩니다. 다양한 데이터 집합을 시각적으로 분석하면 새로운 사실을 명확하게 파악할 수 있습니다. 새로운 발견을 위해 데이터를 추가로 탐색할 수 있습니다. 또한 발견한 내용을 다른 사람들과 공유할 수 있습니다. 머신러닝 및 인공 지능으로 데이터 모델을 구축할 수 있습니다. 이 모두가 기업이 보유 중인 데이터를 업무에 실용적으로 활용할 수 있는 방법입니다.
귀사의 빅 데이터 여정에 도움이 될 수 있는 몇 가지 주요 모범 사례를 정리해 보았습니다. 성공적인 빅 데이터 기반을 구축하기 위한 가이드라인은 다음과 같습니다.
보다 광범위한 데이터 세트를 사용하면 새로운 발견을 할 수 있습니다. 이를 위해서는 지속적인 프로젝트 투자 및 자금 조달을 보장하는 강력한 비즈니스 중심의 맥락을 고려하여 기술, 조직 또는 인프라에 대한 새로운 투자를 결정하는 것이 중요합니다. 올바른 방향으로 가고 있는지 확인하려면 빅 데이터가 우선 순위가 가장 높은 비즈니스 및 IT를 어떻게 지원하고 활성화하는지 알아야 합니다. 전자상거래 기능을 이해하기 위해 웹 로그 필터링 방법을 파악하고 소셜 미디어 및 고객 지원 상호작용에서 감정을 도출하며 통계적 상관 관계를 분석하여 고객, 제품, 제조, 엔지니어링 데이터와의 관련성을 이해하는 것 등을 그 예로 들 수 있습니다.
기업의 빅 데이터 투자 효용을 저하시키는 가장 큰 장애물 중 하나는 데이터 분석에 필요한 기술을 갖춘 직원이 충분하지 않은 경우입니다. 빅 데이터 관련 기술, 고려 사항, 결정을 IT 거버넌스 프로그램에 추가해 이같은 위험을 완화할 수 있습니다. 접근 방식을 표준화하면 비용을 관리하고 리소스를 활용할 수 있습니다. 빅데이터 솔루션 및 전략을 구현 중인 조직은 기술 요구사항을 조기에 자주 평가하고 잠재적인 기술 격차를 사전에 식별해야 합니다. 기존 리소스를 교육/교차 교육하고, 새로운 인력을 고용하고, 컨설팅 회사를 활용하여 이러한 문제를 해결할 수 있습니다.
CoE 접근 방식을 사용하여 지식을 공유하고 감독을 제어하며 프로젝트 커뮤니케이션을 관리할 수 있습니다. 빅 데이터가 신규 투자이든 확장 투자이든 관계 없이 소프트 및 하드 비용을 기업 전체에서 공유할 수 있습니다. 이 접근 방식을 활용하면 보다 정형화되고 체계적인 방식으로 빅데이터 기능과 전체적인 정보 아키텍처의 성숙도를 높일 수 있습니다.
수집한 빅 데이터를 그대로 분석하는 것도 분명 가치있는 작업입니다. 그러나 저밀도 빅 데이터를 이미 사용 중인 정형 데이터와 연결하고 통합하면 더 많은 비즈니스 인사이트를 확보할 수 있습니다.
고객, 제품, 장비, 환경 빅데이터 중 어떤 것을 캡처하든 관계없이 목표는 핵심 마스터 및 분석 요약에 더 많은 관련 데이터 포인트를 추가하여 더 나은 결론을 이끌어내는 것입니다. 예를 들어, 모든 고객의 감정을 최고 고객의 감정과 구별하는 데 차이가 있습니다. 많은 사람들이 빅 데이터를 기존 비즈니스 인텔리전스 기능, 데이터웨어 하우징 플랫폼 및 정보 아키텍처의 완전한 확장으로 보는 이유가 여기에 있습니다.
빅데이터 분석 프로세스 및 모델은 인간 기반과 머신 기반이 모두 가능하다는 점을 기억하십시오. 빅데이터 분석 기능에는 통계, 공간 분석, 의미론, 대화형 검색 및 시각화가 포함되어 있습니다. 분석 모델을 사용하면 유형과 소스가 다양한 데이터의 상관 관계를 분석하여 연관성을 밝히고 의미 있는 발견을 할 수 있습니다.
데이터에서 의미를 발견하는 것이 항상 간단한 것은 아닙니다. 때로는 무엇을 찾아야 하는지조차 모를 때도 있습니다. 예상 가능한 상황입니다. 경영진 및 IT 부서는 이러한 방향성 부족 또는 명확한 요구 사항의 부재를 방지해야 합니다.
이와 동시에 분석가와 데이터 과학자는 주요 비즈니스 지식 격차 및 요구사항을 이해하기 위해 기업과 긴밀하게 협력해야 합니다. 데이터의 대화형 탐색 및 통계 알고리즘 관련 실험을 진행하기 위해서는 고성능 작업 환경을 구축해야 합니다. 연구용 샌드박스 환경에 필요한 지원이 제공되고 적절하게 관리되는지 확인해야 합니다.
빅 데이터 프로세스 및 사용자는 반복적인 실험과 실행 중인 프로덕션 작업 모두에 있어 광범위한 리소스에 액세스해야 합니다. 빅데이터 솔루션에는 트랜잭션, 마스터 데이터, 참조 데이터 및 요약 데이터를 비롯한 모든 데이터 영역이 포함됩니다. 필요한 경우 분석 샌드박스를 생성할 수 있어야 합니다. 사전 및 사후 처리, 통합, 데이터베이스 내 요약, 분석 모델링 같은 전체 데이터 흐름을 제어하는 데 있어 리소스 관리가 중요합니다. 잘 계획된 프라이빗 및 퍼블릭 클라우드 프로비저닝 및 보안 전략은 이렇게 변화하는 요구사항을 지원하는 데 핵심적인 역할을 합니다.
Oracle Cloud Infrastructure(OCI) Big Data 플랫폼은 효율적이고 포괄적인 빅 데이터 관리 솔루션을 필요로 하는 기업을 위한 탁월한 가성비 및 다양한 기능을 제공합니다. 빅 데이터 도구가 사전 통합되어 있는 OCI는 종량제 모델로 제공되는 완전 관리형, 자동 확장형, 탄력적인 빅 데이터 플랫폼으로서 기업이 보유 중인 모든 데이터를 통합할 수 있습니다.
빅 데이터의 용량, 속도, 다양성은 기업이 의미 있는 인사이트 및 실행 가능한 인텔리전스를 도출하기 어렵게 만드는 요인들입니다. 그럼에도 데이터로부터 가치있는 정보를 추출하는 데 필요한 도구 및 전문 지식에 투자하는 기업은 의사 결정권자가 추측이 아닌 사실에 기반해 전략을 수립할 수 있도록 지원하는 풍부한 인사이트를 확보할 수 있습니다.
데이터가 없는 AI는 존재할 수 없고, 데이터는 많을수록 좋습니다. Oracle의 보고서를 통해 AI 도입을 촉진하고, 검색 증강 생성(RAG) 및 벡터 검색 기능을 사용해 AI 결과물을 보강할 수 있는 간단한 방법을 확인해 보세요.
빅 데이터의 정의는 무엇인가요?
빅 데이터는 기존의 데이터 처리 방법 및 도구로는 관리하기 어려운 매우 크고 다양한 데이터 집합을 의미하는 표현입니다.
빅 데이터의 사용 사례로는 어떤 것들이 있나요?
빅 데이터의 특징은 5가지 V로 정리해 볼 수 있습니다. 큰 용량(volume)의 정보가 포함되어 있고, 데이터 생성 속도(velocity)가 빠르고, 데이터 유형이 다양(variety)하고, 진실성(veracity)과 가치(value)가 중요시되는 데이터입니다. 빅 데이터 소스의 예시로는 이메일 및 문자, 동영상, 데이터베이스, IoT 센서 데이터, 소셜 게시물, 웹 페이지 등이 있습니다.
데이터 기반 의사 결정이 중요시되는 대표적인 산업으로는 보건의료, 리테일, 금융, 마케팅 등이 있습니다. 보건의료 분야에서는 빅 데이터를 사용해 대규모 데이터 세트를 분석하여 환자가 조기 개입을 통해 제2형 당뇨병과 같은 질병이 발병하기 전에 방지할 수 있는 시기를 예측할 수 있습니다. 리테일 업계의 경우 빅 데이터를 통해 재고를 최적화하고 제안 및 추천을 개인화할 수 있습니다. 금융 분야에서는 사기 탐지 및 트렌드 파악에 빅 데이터를 사용할 수 있고, 마케팅 업계에서는 방대한 양의 비정형 소셜 미디어 데이터를 추적해 잠재 고객의 정서를 분석하고 광고 캠페인을 최적화할 수 있습니다.