-
[IT 트렌드] 빅데이터 작동원리IT/IT 트렌드 2023. 9. 26. 23:18
이전 시간에 빅데이터의 정의에 대해 살펴보았다. 빅데이터의 정의가 궁금하다면 아래의 페이지를 통해 확인바란다.
빅데이터 작동원리
이번 포스팅에서는 빅데이터가 어떤 방식으로 처리되고 작동하는지 알아보자.
빅데이터가 빅데이터로서의 가치를 가지기 위해서는 날 것 그대로의 대규모 데이터셋을 전처리 가공하여 저장, 이를 이용해 분석, 시각화하는 과정이 필요하다
1. 빅데이터 수집
먼저, 빅데이터의 수집 과정이다. 빅데이터는 내/외부의 다양한 곳에서 데이터를 수집한다.
예시 ) 시스템 로그, DB 데이터, 동영상, 오디오 정보, 웹 크롤링 데이터, SNS 데이터 등
수집 방식은 기존의 HTTP 통신, FTP, 텍스트 기반의 수집 방식에서 나아가 전화 음성, IoT 디바이스 센서, GPS 수신 등 더욱 다양해졌다.
수집하는 데이터의 종류에는 정형/비정형/반정형 데이터 모두 다양하게 가지게 된다.
2. 빅데이터 정제
정제 단계는 데이터를 분석 가능한 형태로 변경하는 작업을 진행한다. 여러 경로에서 수집된 데이터들의 형식이 다양하기 때문에 분석 단계에 사용할 도구에 맞는 형태로 변환이 요구된다. 데이터 변환 시, 오류 데이터, 불필요한 데이터를 삭제하고 유효성이 검증된 데이터는 압축하여 데이터 사이즈를 줄인다. 정제 과정을 모두 마친 데이터는 적절한 공간에 저장된다.
3. 빅데이터 적재
적재 단계는 말 그대로 정제된 데이터를 DB에 적재(저장)하는 것이다. 방대한 양의 데이터를 보관하기 위해서는 자사에서 구축한 서버 스토리지로 관리하기에 한계가 있다. 빅데이터가 용량의 제한을 받게 된다면 유용한 데이터 분석에 어려움을 겪을 수 있기 때문에 최근에는 클라우드 기반 스토리지를 이용하여 유연한 저장공간을 활용하는 경우가 많다.
분석 도구에 따라 NoSQL, RDB, 클라우드 스토리지, HDFS 등 다양한 환경으로 데이터를 적재한다.
4. 빅데이터 분석
분석 단계는 빅데이터를 활용하여 의사 결정을 위한 데이터를 제공하기 위해 분석하는 과정이다.
분석 속도가 느리다면 적재적소에 업무에 필요한 데이터 분석을 진행할 수 없다. 대규모의 데이터를 분석하는 속도를 높이기 위해 AI 기술과 최신 데이터베이스 기술이 도입되었다. 이를 통해 다양한 빅데이터 처리 엔진이 등장하였고, 효율적인 분석을 위해 파티셔닝, 인덱싱 등의 기술을 활용하고 있다.
5. 빅데이터 시각화
분석된 데이터는 사람이 직관적으로 이해할 수 있도록 시각화하는 과정을 필요로 한다. 예를 들면, 공간지리정보(GIS)의 경우에는 분석된 데이터가 사람의 눈으로 이해하기에는 다소 기하학적이고 대량의 데이터다. 이를 한 눈에 알아볼 수 있도록 차트, 지도, 그래프, 피처 등의 다양한 도구를 이용하여 시각화한다.
출처
https://www.sap.com/korea/products/technology-platform/what-is-big-data.html
'IT > IT 트렌드' 카테고리의 다른 글
[IT 트렌드] 메타버스란? : 메타버스의 이해와 종류 (0) 2023.10.06 [IT 트렌드] 빅데이터란? - 빅데이터의 정의 (0) 2023.09.25