-
[IT 트렌드] 빅데이터란? - 빅데이터의 정의IT/IT 트렌드 2023. 9. 25. 22:42
빅데이터란?
현대사회에서 우리가 흔하게 접하는 '빅데이터'라는 키워드는 빅(Big) + 데이터(Data) 두가지 언어의 합성어로, 우리가 매일 사용하는 컴퓨터, 모바일 기기, 기계 센서에서 흐르는 방대한 제타바이트급 규모의 데이터를 의미한다.
다만, 현대에 와서 빅데이터의 의미는 더욱 구체화되어, 그저 거대한 규모의 데이터를 의미하지 않는다. 빅데이터가 빅데이터로서 의미를 가지기 위해서는 아래의 특징들을 만족해야 한다.
기본적으로 빅데이터가 갖춰야 할 항목은 큰 용량(Volume), 빠른 처리속도(Velocity), 다양한 데이터 형식(Variety)이다. 위의 정의들을 한데 묶어 V3로 부르곤 한다.
첫 번째, 이름에서 유추되듯이 제타바이타급 정도 되는 큰 규모의 데이터이어야만 한다. 현대사회에서는 IoT 센서 등을 통해 현실의 관측되는 모든 것들을 수치화할 수 있다고 해도 과언이 아니다. 또한, 데이터 분석을 통해 또 다른 데이터를 생산해내는 기술이 빠르게 발전하고 있음에 따라 현실에 존재하는 유용한 데이터의 양은 기하급수적으로 증가중이다.
두 번째, 빅데이터 분석을 통해 새로운 인사이트를 발견하기 위해서는 분석 속도가 빨라야 한다. 속도가 너무 느리다면 비즈니스적으로 데이터를 활용하기에 제약이 걸리고 만다. 최근에는 AI, 머신러닝 등의 빅데이터 분석 기술이 발달함에 따라 위의 문제를 해결하고 신속하게 비즈니스에 필요한 새로운 사실을 발견하여 대응할 수 있게 되었다.
세 번째, 다양한 데이터 형식을 가진다. 데이터 형식은 크게 정형, 비정형, 반정형 데이터의 3분류로 나누어진다.
정형 데이터는 조직화와 검색이 가장 간편한 구조화된 데이터이다. 흔히, 행과 열로 표현할 수 있는 데이터들을 정형 데이터라고 일컫는다. 일상생활에서 자주 사용하는 엑셀, 구글 시트, 관계형 데이터베이스(RDB)등이 이를 대표하는 데이터이다. 이들 데이터는 범주화하기 용이하여 검색 및 분석 알고리즘을 만들 때 간단하게 정의할 수 있다.
비정형 데이터는 소셜 미디어 게시글, 오디오 파일, 이미지, 주관식 의견 등 구조화가 어려운 데이터 종류를 일컫는다. 이들은 기존에 많이 이용하던 관계형 데이터베이스에 저장하기 어려운 포맷을 가지고 있어, 데이터 레이크, 데이터 웨어하우스, No-SQL 데이터베이스에 저장된다.
반정형 데이터는 정형, 비정형 데이터의 하이브리드 버전이다. 전자메일은 메세지 본문에는 비정형 데이터가, 그 밖의 발신자, 수신자, 제목, 날짜 등의 정형 데이터가 함께 존재한다. 데이터 전달 포맷인 CSV, XML, JSON에서도 좋은 예시이다.
빅데이터는 정형 데이터만으로 이루어지지 않는다. 정형, 비정형, 반정형의 다양한 데이터가 조합되어 구조화할 수 없는 데이터셋 뭉텅이라고 할 수 있다. 따라서 이를 유용한 정보로 가공하기 위한 별도의 전처리 과정이 필요하다.
최근에 와서는 데이터의 연관성 및 정확성(Veracity)과 데이터에 내포된 가치(Value)까지 중요한 정의로 간주하여 V5로 불리기도 한다.
빅데이터는 정확성, 적시성, 관련성을 가진 경우에만 데이터로서의 가치가 있다. 어떤 새로운 사실이나 인사이트를 발견할 수 없을 뿐만 아니라 데이터를 왜곡하여 잘못된 결론에 도달할 수 있기 때문에 항상 데이터가 정확하고 적시에 발견될 수 있어야 빅데이터로서 의미가 있다.
무엇보다도 빅데이터는 데이터로서 가치가 있어야 한다. 분석하는 가치가 존재하지 않는다면 그 데이터는 그저 단순한 데이터셋 덩어리에 불과하다. 빅데이터 분석을 통해 새로운 인사이트를 발굴한다거나, 실시간 감시를 통해 비즈니스의 위기 상황에 긴급히 대처할 수 있도록 도움을 주는 식으로 빅데이터 분석을 통하여 인간에게 새로운 가치를 주어야 한다.
지금까지 빅데이터란 무엇인지 알아보았다.
빅데이터의 작동방식에 대해 알고 싶다면 아래의 포스팅을 참고하기 바란다.
출처
https://www.sap.com/korea/products/technology-platform/what-is-big-data.html
https://www.oracle.com/kr/big-data/what-is-big-data/
https://modulabs.co.kr/blog/big-data
https://www.redhat.com/ko/topics/big-data
'IT > IT 트렌드' 카테고리의 다른 글
[IT 트렌드] 메타버스란? : 메타버스의 이해와 종류 (0) 2023.10.06 [IT 트렌드] 빅데이터 작동원리 (0) 2023.09.26