소망

새로운 세상을 여는 빅 데이터 _ 김려성 (소프트꼬레아 저자)

김려성 2015. 1. 18. 22:27


새로운 세상을 여는 빅 데이터


김려성 소프트꼬레아 저자


램버트(Rickie Lambert) 씨는 대단히 화가 났다. 백화점으로부터 오는 광고 전단으로 우편함이 넘쳐나고 있었다. 뉴욕 34번가에 있는 메이시(Macy's) 백화점으로부터 온 팸플릿은 임산부와 신생아를 위한 광고가 대부분이었다. 화가 난 램버트 씨는 백화점 고객 상담실로 전화해 강력하게 항의하였다. “우리 집에는 결혼하지 않은 딸과 내 처가 함께 살고 있는데 임산부와 신생아 광고를 왜 보냈느냐?”며 나무랐다. 임산부와 신생아 홍보물에 관해 고객담당 매니저는 램버트 씨에게 정중하게 사과했다. 그 일이 있고나서 정확하게 8개월 후에 램버트 씨는 난생처음 외할아버지가 되었다. 그의 딸이 임신한 사실을 백화점은 어떻게 알았을까? 이번 달에는 인간의 행동 패턴을 예측할 수 있다는 빅 데이터에 대해 알아보자.



빅 데이터란?

빅 데이터란 기존 데이터베이스 관리도구로 자료를 수집, 저장, 관리, 분석할 수 있는 용량을 넘어서는 대량의 정형 또는 비정형 데이터 집합을 가리키는 용어로서 이러한 자료로부터 가치를 추출하고 결과를 분석하는 기술을 의미하기도 한다. 다양한 종류의 대규모 자료를 생성, 수집, 분석, 표현하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하거나 효율적으로 작동케 한다. 그리고 개인화된 현대 사회 구성원에게 맞춤형 정보를 제공하고 있으며, 과거에는 불가능했던 분석을 실현하기도 한다. 이같이 빅 데이터는 정치, 경제, 사회, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치 있는 정보를 제공함으로써 그 중요성이 드러나고 있다고 미국의 유력지인 워싱턴 포스트가 밝히고 있다.



분석 기법

램버트 씨의 딸이 임신한 사실을 백화점은 어떻게 알았을까? 사실을 알고 보면 내용은 간단하다. 램버트 씨의 딸이 백화점을 돌면서 임신한 여성들이 취하는 행동패턴을 보였다. 각 코너를 돌아다니며 출산 관련 상품을 일부 구매하고 관련 정보를 질문한 명세를 서버에 저장, 수집하여 분석, 판별하는 기술은 결코 어려운 예측이라고 볼 수 없다. 당연한 결론에 도달한 서버는 그녀의 집으로 임산부와 신생아에 관한 정보를 고객서비스 차원에서 친절하게 발송한 것이다. 이를 혼자만 까맣게 모르고 있던 램버트 씨가 백화점 매니저에 항의하여 사과까지 받았다. 사실에 기초하지 않은 촌극이 있었을 뿐이다.



분석 기술

대부분의 빅 데이터 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등에 해당한다. 측정수준으로는 명의척도, 순서척도, 구간척도, 비율척도 등이 있으며, 측정수준에 따라 통계에 이용하게 될 요약 통계량이나 통계 검정법은 각기 다르다. 특히 최근 소셜 미디어 등 비정형 데이터가 증가함으로써 분석기법 중에서 텍스트 마이닝, 견해(평판) 마이닝, 소셜 네트워크 분석, 군집(클러스터)분석 등이 주목받고 있다.



텍스트 마이닝은 비정형 또는 반정형 텍스트 데이터에서 자연 언어 처리 기술로 유용한 정보를 추출하여 가공한다. 텍스트에서 의미 있는 정보를 텍스트 마이닝 기술로 추출하고, 다른 정보와의 연관성을 파악하며, 텍스트가 가진 카테고리를 찾아낸다. 인간이 사용하는 자연언어를 서버가 분석하고 그 안에 내재한 규칙을 얻어내기 위해 대용량 언어자원과 통계적이며 규칙적인 알고리즘이 사용된다.



○견해 마이닝은 오피니언 마이닝 또는 평판분석이라고 불리는 기술이다. 소셜 미디어 등의 정형 또는 비정형 텍스트의 긍정, 부정, 중립 따위의 선호도를 판별하는 기술이다. 견해 마이닝은 특정서비스 및 상품에 대한 시장 규모 예측, 소비자의 반응, 풍문 분석 등에 활용된다. 램버트 씨 딸이 임신한 사실도 소비자의 구매반응을 서버가 판별한 사례다.



소셜 네트워크 분석은 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정한다. 풍문 중심이나 허브 역할을 하는 사용자를 찾는 데 주로 활용된다. 소셜 네트워크에서 영향력을 행사하는 사람을 모니터링하여 유명 블로거나 영향력 있는 여론 주도자를 마케팅 관점에서 분석하고 관리한다.



군집 분석은 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴하는 데 사용된다. 예를 들어, 사진 동호인, 자동차광 모임, 골프나 낚시 동호인, 등산이나 자전거 동호인 등의 그룹이 있다. 이러한 관심사나 동호인의 사용자 그룹을 군집분석을 통해 특성을 분류한다.



표현 기술

빅 데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술로 대표적인 것이 프로그래밍 언어 R 이다. 1976년 벨연구소에서 개발된 S 언어로 시작하여 1988년 S_PLUS로 1993년 프로그래밍 언어인 R로 변경되었다. 통계학자들이 디자인하고 통계학들을 위한 개발 플랫폼으로 수천 명의 공헌자와 2백만 명이 넘는 사용자가 있다. 그리고 각 업무 도메인에 관련된 자원과 도움말을 제공하고 있다. 통계분석 도구 프로그래밍언어 R의 특징은 ①처리속도가 빠르고 ②데이터와 함수를 객체로 프로그래밍할 수 있고 ③최신의 알고리즘 및 방법론을 적용하고 있으며 ④분석할 때 결과를 한눈에 알아볼 수 있도록 그래픽의 가시성(Visualization)을 높였다.



정보 유출이 문제

다른 한편, 빅 데이터의 문제점은 램버트 씨가 항의했던 것처럼 바로 사생활 침해와 보안상 문제라고 할 수 있다. 빅 데이터는 다양한 개인들의 수많은 정보의 집합이다. 따라서 빅 데이터를 수집하거나 분석할 때에 개인의 사적인 정보까지 수집하여 관리하므로 개인정보 취급이 남용될 개연성이 크다. 그리고 그렇게 모은 정보가 유출된다면 많은 사람의 정보가 유출되는 것이기에 개인의 프라이버시가 침해될 수도 있다.



통계분석 소프트웨어

기업체에서 주로 쓰는 대표적 프로그램은 SAS(Statistical Analysis System)이다. 큰 규모의 자료를 편리하게 다룰 수 있으나 각종 통계 분석 결과를 왜곡해서 보여준다는 비판을 받기도 한다. 프로그래밍 언어 R은 무료 공개 통계 프로그래밍 환경이다. S 언어에 바탕을 두고 개발되었으며, 학술적 목적으로 널리 사용된다. 새로 개발된 분석 방법들이 확장 패키지를 통해 공개되고 있다. SPSS(Statistical Package for the Social Sciences)는 1995년 윈도 버전이 출시되었다. 다양한 통계분석을 할 수 있고 사회과학, 의학 등 전 분야에서 다양하게 쓰이는 프로그램이나 계산 속도가 느려 큰 규모의 자료를 다루기에는 다소 불편하다. 학교와 기업에서 품질관리와 통계학 교육용으로 많이 사용되는 프로그램으로는 MINITAB 이 있다.



통계학의 변화

현대에 들어와 데이터 과학자들로 구성된 통계 조직은 기관과 단체 그리고 기업의 수익에 영향을 미치는 다양한 자료를 입체적으로 분석하고 결론을 얻어낸다. 미래를 예측해 더 나은 결과물을 처방한다. 수많은 자료 가운데 의미 있는 자료를 찾아냄으로써 더 나은 의사결정을 돕는 작업을 시행하는 데 이를 데이터 클리닝, 데이터 마이닝이라고 한다. 기업과 기관마다 부르는 이름은 다르지만, 생산, 판매와 서비스 등 핵심 직무에서 영업력 개선과 사원 복지 등 전 영역에 걸쳐 이 같은 자료 분석 조직의 역할은 전방위로 확대되고 있다. 업계에서는 주요 자료에 대한 분석과 통계가 이뤄지는 비즈니스인텔리전스(BI) 조직이라 부른다. 자료 분석 조직을 운영하는 IT 조직은 시스템에서 나오는 각종 자료를 분석해 기업의 핵심 영역에 가치를 더하는 조직으로 변모를 시도하고 있다.



통계처리자의 역할

다양한 분야에서 주어진 문제에 대하여 적절한 정보를 수집하고 분석하여 해답을 구하는 과정은 아주 중요하다. 이런 방법을 연구하는 과학의 한 분야가 통계학이다. 통계학이 필요한 연구 분야는 교육, 여론조사, 농업, 품종개발, 생명과학, 환경과학, 산업연구, 품질보증, 시장조사 등 매우 다양하다. 대통령 선거에서 투표를 시행한 출구 조사에서 당락을 예측하는 방법도 통계적 기법을 이용하고 있다. 또한, 이러한 연구방식은 기업체와 정부의 의사결정과정에서 현저하게 나타난다. 주어진 문제에 대하여 필요한 자료의 형태, 자료를 수집하는 방법, 문제에 대한 최선의 답을 구하려는 분석방법을 결정하는 것이 통계처리자의 역할이다.



데이터 마이닝

전사자원관리(ERP), 고객 관계관리(CRM), 생산관리시스템(MRP), 경영 정보 시스템(MIS), 전략적 기업 경영(SIS) 의사결정지원시스템(DSS) 데이터웨어하우스(Data Warehouse) 등 각종 시스템에서 쏟아지는 수많은 자료에 대한 분석능력이 미래를 예측하는 핵심 경쟁력인 시대, 이른바 `데이터 경영` 시대의 개막이 시작되었다. 이러한 시대를 ‘빅 데이터’ 기술의 시대라고 하는데 미국의 유명 경제 출판 및 미디어 기업인 포브스도 미래의 유망직업 중에 하나로 정보수집분석가(데이터 마이너)를 선정하기도 했다.



빅 데이터 마이닝

포브스에 의하면 빅 데이터(Big Data) 마이닝이란 기존 데이터베이스 관리도구의 자료 수집·저장·관리·분석의 역량을 넘어서는 대량의 정형 또는 비정형 자료 세트로부터 가치를 추출하고, 결과를 분석하는 기술로 수집되는 ‘빅 데이터’를 보완하고, 마케팅, 시청률 조사, 경영 등으로부터 체계화해 분류, 예측, 연관분석 등의 데이터 마이닝을 거쳐 통계학적으로 결과를 도출하는 것이라고 했다.



우리나라 빅 데이터 연구

정보통신부의 산하단체로 사단법인 한국 BI 데이터마이닝학회가 2000년부터 설립되어 데이터 마이닝에 관한 학술과 기술을 보급 및 응용하고 있다. 또한, 국내ㆍ외 통계분야에서 서서히 빅 데이터 활용에 대한 관심과 필요성이 커지는 가운데 국가통계 업무를 계획하고 많은 통계자료를 처리하는 국가기관인 통계청이 빅 데이터를 연구하고 활용방안을 모색하기 위한 '빅 데이터 연구회'를 발족하였다. 한편, 정보사회진흥원에서는 2013년 2월 새로운 ‘미래를 여는 빅 데이터 시대(증보판)’을 발간하였다. 이 보고서에 제시된 빅 데이터와 국가발전전략이 미래사회의 국가현안을 빅 데이터로 슬기롭게 해결할 수 있을 것이라는 공감대를 형성하고 아울러 우리나라가 IT 강국에서 진일보하여 데이터 분석기반의 스마트 강국으로 재도약하는 데 도움이 되기를 바라고 있다. (한국정보화진흥원, 빅 데이터 전략연구센터, 새로운 미래를 여는 빅 데이터 시대 머리말에서 발췌)



빅 데이터 적용을 적극적으로 추진해야

국내에서도 데이터를 관리하고 분석할 줄 아는 인재에 대한 관심이 높다. S 대학교를 비롯해 C 대학교, K 대학교 등은 데이터를 관리하고 분석할 수 있는 인재를 체계적으로 육성하는 데이터마이닝, 비즈니스 데이터 융합학과를 개설했다. 빅 데이터와 결합한 클라우드 기술이 교육과 건강관리 시스템을 앞으로 혁명적으로 바꿀 것이다. 앞으로 빅 데이터와 클라우드 컴퓨팅 체제의 운영 유지를 위한 빅 데이터 활용 기술 개발에 많은 노력을 기울여야 하겠다. 아울러 개인정보보호와 보안에 관련한 문제에 관심을 가져야 하며, 기업의 정보보안대책과 함께 법적 유연성(컴플라이언스)인 요구사항도 만족해야 할 것이다.



통계적 추론과 비선형 식별

메타 그룹의 분석가 더그 레이니(Doug Laney)는 2001년 그의 연구 보고서와 관련 강의에서 자료의 급성장에 따른 이슈와 기회를 자료의 양(volume), 자료 입출력의 속도(velocity), 자료 종류의 다양성(variety)이라는 세 개의 차원으로 정의하였다. 가트너의 3V 정의가 여전히 널리 사용되고 있는 가운데, 자료와 그것의 사용 방법에서 빅 데이터와 경영정보학의 차이가 점차 더 뚜렷하게 구분되고 있다. 경영정보학은 대상을 측정하고 경향을 예측하는 등의 일을 하기 위해 고밀도의 자료로 구성된 기술적 통계를 활용한다. 빅 데이터는 큰 자료의 집합으로부터 일정한 법칙을 추론하여 결과 및 행동을 예측하기 위해 통계적 추론과 비선형 시스템 식별(nonlinear system identification) 등의 일부 개념을 활용한다.



빅 데이터 분석을 위한 인프라

대규모의 정형이나 비정형 데이터를 처리하는 데 있어서 가장 기본적인 분석 인프라로는 하둡(Hadoop)이 사용되고 있으며 데이터를 유연하고 더욱 빠르게 처리하기 위해 NoSQL 기술이 활용되기도 한다. 최근에 아파치 소프트웨어 재단은 빅 데이터 처리를 분산 클러스터에서 고속으로 실행할 수 있는 처리 기반의 스파크(Spark) 1.0을 정식 공개하였다. HDFS( Hadoop Distributed File System)를 통해 스토리지를 거치기 때문에 상호작용이 많아지는 하둡(Hadoop)보다 스파크는 처리 속도가 대단히 빨라서 차세데 빅 데이터 구조라고 기대를 모으고 있다.



2008년 미국 대통령 선거 (빅 데이터 사례 1)

2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석, 활용한 '유권자 맞춤형 선거 전략'을 전개했다. 당시 오바마 캠프는 인종, 종교, 나이, 가구 형태, 소비수준과 같은 인적 사항으로 유권자를 분류하면서 과거 투표 여부, 구독하는 잡지, 마시는 음료 등 유권자 성향까지 전화나 개별 방문하거나 소셜 미디어를 통해 유권자 정보를 수집하였다. 수집된 데이터는 오바마 캠프 본부로 전송되어 유권자 데이터베이스를 온라인으로 통합 관리하는 ‘보트빌더(VoteBuilder.com)’시스템의 도움으로 유권자 성향 분석, 미결정 유권자 선별, 유권자에 대해 예측을 실행했다. 이를 바탕으로 ‘유권자 지도’를 작성한 뒤 ‘유권자 맞춤형 선거 전략’을 전개하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었다.



제19대 총선 (빅 데이터 사례 2)

중앙선거관리위원회는 제19대 총선부터 소셜 네트워크 등 인터넷상의 선거 운동을 상시 허용하였다. 이에 소셜 미디어상에서 선거 관련 데이터는 폭증되었으며, 2010년 지방 선거 및 2011년 재보궐선거에서 소셜 네트워크 서비스의 중요성을 확인한 정당들 또한 SNS 역량 지수를 공천 심사에 반영하는 등 소셜 네트워크 활용을 시도했다. 이 가운데 여론 조사 기관들은 기존 여론조사 방식으로 예측한 지방 선거 및 재보궐선거의 여론조사 결과와 실제 투표 결과와의 차이를 보완하고자 빅 데이터 기술을 활용한 SNS 여론 분석을 시행했다. 그러나 SNS 이용자의 대다수가 수도권 20~30대에 쏠려 있기에, 빅 데이터를 이용한 제19대 총선에 대한 SNS 분석은 수도권으로 한정되는 한계를 드러내고 말았다.



아마존닷컴, 구글 및 페이스북 (빅 데이터 사례 3)

아마존닷컴은 모든 고객의 구매 내용을 데이터베이스에 기록하고, 이 기록을 분석해 소비자의 소비 성향과 관심사를 파악한다. 빅 데이터를 활용해 아마존은 고객별로 '추천 상품'을 표시한다. 고객 한 사람 한 사람의 취미나 독서 경향을 찾아 그와 일치한다고 생각되는 상품을 메일, 홈페이지 상에서 고객 한 사람 한 사람에게 자동으로 제시하는 것이다. 아마존닷컴의 추천 상품 표시와 같은 방식으로 구글 및 페이스북도 이용자의 검색 조건, 나아가 사진과 동영상과 같은 비정형 데이터 사용을 즉시 처리하여 이용자에게 맞춤형 광고를 제공하는 등 빅 데이터의 활용을 증대시키고 있다.



머니볼 이론 및 데이터 야구 (빅 데이터 사례 3)

머니볼 이론이란 경기 자료를 철저하게 분석해 오직 자료를 기반으로 적재적소에 선수들을 배치해 승률을 높인다는 게임 이론이다. 이는 미국 메이저 리그 야구 오클랜드 애슬레틱스의 구단장 빌리 빈이 리그 전체 25위에 해당하는 낮은 구단 지원금 속에서도 최소비용으로 최대효과를 거둔 경기에서 유래되었다. 빌리 빈은 하버드대에서 경제학을 전공한 폴 데포데스터를 영입하여 타율, 타점, 홈런 등 흥행 요소만을 중시하던 야구계에서 출루율, 장타율, 사사구 비율이 승부와 관련이 있음을 간파하고 자료를 수집, 분석, 활용하였다. 이를 통해 빈은 좋은 선수를 발굴하고 이들을 적재적소에 배치해 최하위에 그치던 팀을 4년 연속 포스트시즌에 진출시키고 메이저리그 최초로 20연승이라는 신기록을 세웠다. 미국 월스트리트 저널은 미국 경제에 큰 영향을 끼치는 파워 엘리트 30인에 워런 버핏, 앨런 그린스펀과 함께 빌리 빈을 선정하는 등 머니 볼 이론은 경영, 금융 분야에서도 주목하였다. 최근 들어서 과학기술 및 카메라 기술의 발달로 더욱 정교한 자료의 수집이 가능해졌으며 투구의 궤적 및 투수의 그립, 타구 방향, 야수의 움직임까지 잡아낼 수 있게 되었다. 이처럼 기존의 정형 자료뿐만 아닌 비정형 자료의 수집과 분석, 활용을 통해 최근 야구경기에서 빅 데이터의 중요성은 더욱 커지고 있다.



'프로파일링'과 '빅 데이터' 기법을 활용한 프로그램 (빅 데이터 사례 4)

최근 방송에는 강남 3구 초등학교 85곳의 학업성취도를 평가하고 성적과 주변 아파트 매매가의 상관관계를 빅 데이터를 통해 분석해 보았다. 강남의 부자일수록 공부를 잘하느냐는 가설을 검정해 보았다. 통계적 가설은 통계학에서 사용하는 용어로, 하나의 특정 주장을 모수를 이용해 나타낸 형태를 지칭한다. 예를 들어, '미국 성인 여자는 뚱뚱하다'는 가설은 통계적 가설이 될 수 없다. 하지만 '미국 성인 여자의 평균 몸무게는 90kg이다.'는 통계적 가설이 될 수 있다. 즉, 평균 몸무게는 여기서 모집단 특성을 나타내는 모수의 구실을 한다. 통계적 가설은 귀무가설과 이와 반대에 있는 대립가설로 나타낸다. 통계적 가설 검정은 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미한다. 이를 가설 검정(假說檢定)이라고 부른다.



구글 번역 (빅 데이터 사례 5)

구글에서 제공하는 자동 번역 서비스는 빅 데이터를 활용한다. I 회사에서는 지난 40년간 명사, 형용사, 동사 등 단어와 어문의 문법적 구조를 인식하여 번역하는 방식으로 자동 번역 프로그램을 개발했다. 이와 달리 구글은 2006년 수억 건의 문장과 번역문을 데이터베이스화하여 유사한 문장과 어구를 참조해 추론해 나가는 통계적 기법으로 번역 프로그램을 개발했다. 캐나다 의회의 수백만 건의 문서를 활용하여 영어-불어 자동번역을 시도한 I 회사의 자동 번역 프로그램은 개발에 실패했지만, 구글은 수억 건의 자료를 활용하여 전 세계 58개 언어 간의 자동번역 프로그램 개발에 성공하였다. 이러한 사례로 미루어 볼 때, 자료량의 측면에서의 빅 데이터의 차이가 두 기업의 자동 번역 프로그램의 품질과 정확도를 결정했으며, 나아가 프로젝트의 성패를 좌우했다고 볼 수 있다.



보안 관리의 중요성

빅 데이터 환경을 이용해 성장과 기술 발전을 동시에 이루는 분야로서 보안 분야는 점점 중요해지고 있다. 클라우드 및 모바일 환경으로 변화되면서 물리적 및 가상화 등 IT 시스템의 복잡성이 더욱 가중되고 있다. 유무선 네트워크, 개인 및 공공 클라우드 컴퓨팅, 모바일 애플리케이션과 개인소유 기기관리(BOYD: Bring Your Own Device) 등 IT 시스템 전반에서 대대적인 변화가 예상되고 있어 보안관리가 중요한 요소로 등장하고 있다. 인터넷 환경을 통해서 고객 정보가 유통되고 통합되는 과정에서 정보유출, 해킹 또는 바이러스에 노출되는 새로운 취약점들이 위험요소로 증가하고 있다. 더구나 지능형 지속적(APT) 위협, 웜 바이러스, 응용프로그램 취약성 공격, 피싱, 파밍, 분산서비스 거부공격(DDoS

)과 내부 정보 유출 등 보안 위협도 진화되고 있다. 그래서 위협과 취약성을 고려한 위험도의 등급을 올리고, 정보 자산이 손상을 입게 될 잠재적 개연성을 사전에 보호하기 위해서 정보보안 대책이 더욱더 중요해지고 있다.



빅 데이터 활용분야

빅 데이터의 활용분야는 상품분야, 서비스, 공공분야 등 대단히 다양하고 넓게 사용될 것이 예상되고 있다. ①제조업 ②특허정보 ③천연자원 ④컴퓨터와 전자제품 ⑤부동산 ⑥대여 ⑦리스 등의 상품분야와 ⑧은행 ⑨투자금융 ⑩보험 ⑪운송 ⑫창고 보관업 ⑬전문 과학 기술서비스 ⑭기업관리 등 서비스 분야와 ⑮의료 및 사회적 서비스 ⑯교육 훈련 ⑰전력 ⑱가스 ⑲수도 ⑳통신 등의 공공서비스 분야 등에서 활용 가치가 높다고 전망한다. 삼성경제연구소(SERI)의 발표로는 앞으로 빅 데이터가 이바지할 산업별 분야로는 ⓐ제조업 ⓑ금융업 ⓒICT 산업 ⓓ소매/유통업 ⓔ공공부문 ⓕ의료서비스 분야에서 대대적인 경영 변화가 예상되고 있어 새로운 세상을 열리라고 기대하고 있다.



다가오는 데이터 지능화 시대를 준비하자

빅 데이터는 단순히 자료를 수집하거나 축적하는 것만이 중요하지는 않다. 구조화되지 않은 대규모 자료 속에서 내재하고 있는 특징을 찾아내고, 이러한 특징들이 갖는 연관관계를 창의적으로 분석할 수 있는 능력이 중요해 지고 있다. 빅 데이터 처리능력은 수학, 통계학, 컴퓨터 과학, 소셜 네트워크 등 다양한 분석기법을 익혀야 하는 등 수년간의 교육훈련기간이 필요하다. 빅 데이터 전문가를 제도적으로 양성하여야 한다. 개인, 기업 및 정부의 자료를 저장하고, 처리하며, 빅 데이터 분석기술인 통계적 추론 능력을 고양하여야 한다. 빅 데이터는 혁신과 창조의 도구이다. 빅 데이터를 통한 통계적 추론으로 기업이나 국가의 현안을 해결할 수 있다. 데이터 분석을 통한 효율화, 개인화, 지능화는 새로운 비즈니스 모델을 창출한다. 빅 데이터 전문가를 국가적인 차원에서 양성하고, 빅 데이터 산업 생태계 구축, 핵심기술 개발 등을 추진하여 다가오는 데이터 지능화 시대를 준비해야 하겠다.



빅 데이터로 국가의 현안을 해결해야

세계는 이미 빅 데이터의 사회경제적 파급효과에 관해 관심을 집중하고 있다. 이러한 사회경제적 가치창출 외에도 빅 데이터는 사회문제의 본질과 근본적인 문제점을 파악하여 우리 사회에 산적해 있는 수많은 사회현안을 해결하리라 전망한다. 예를 들어 일자리 문제, 자살문제, 사회범죄, 재난재해, 저출산 고령화 등 당면하고 있는 우리 사회의 현안들에 대해서 데이터 분석기반 최적의 솔루션과 새로운 통찰을 이루어 갈 수 있다고 본다. 빅 데이터가 다양한 사회현안을 해결하고 국가발전을 이끌 수 있도록 핵심 이슈를 분석하고, 미래사회로의 국가현안을 빅 데이터로 슬기롭게 해결할 수 있기를 기대해 본다. <끝>



참고자료

김려성, 2020년 IT의 미래, 2011. 3. (사)한국감사협회

김려성, IT융합이 인류의 새로운 미래를 연다, 감사저널 2011.7. (사)한국감사협회

위키백과, 사물통신 http://ko.wikipedia.org.

한국정보화진흥원, 빅데이터전략연구센터, 새로운 미래를 여는 빅 데이터 시대, 증보판 2013.2 한국정보화진흥원장 빅데이터 국가전략포럼 의장 김성태.

양창준, 빅데이터 개요 및 활용 전략 한국정보통신진흥협회 빅데이터포럼사무국 www.kbd.or.kr

우준식, 빅데이터 플랫폼 기술과 분석 ㈜빅스터경영기획실 www.bigster.co.kr

최현대, 클라우드컴퓨팅 Cloud Computing (the 3rd Computing Paradigm) LG CNS

김진상, SPOT 2012-09 IT SPOT ISSUE OECD의 빅데이터 산업 가치측정 동향 NIPA 정보통신산업진흥원 www.nipa.kr

장승재, 한국인터넷진흥원 연구개발팀 주임연구원 손경호, 신화수 한국인터넷진흥원, 美 연방정부 클라우드 서비스보안 인증제도(FedRAMP) 분석, 정보통신산업진흥원 주간기술동향 2013.5.22. www.nipa.kr

배경화, 중소기업진흥공단/산업전략실 행정학박사, IT 중소기업의 투자재원으로서 크라우드 펀딩(Crowd Funding) 활용방안에 대한 소고 포커스 정보통신산업진흥원 주간기술동향 2013.7.31. www.nipa.kr

한국산업은행 경제조사팀, 산업분석1팀, 미래 성장 동력 창출 유망분야 점검 및 정책지원 방향 검토 한국산업은행 국내경제이슈

김희영, 빅 데이터를 위한 데이터 거버넌스와 의료정보서비스 사례, 2013-2014 통권25 정보시스템감사통제, IT 거버넌스 전문가를 위한 저널 p18~p27

Kumar Setty, Rohit Bakhshi, 번역자 김정현, 빅데이터는 무엇이며, IT 감사와는 무슨 관계가 있나? 2013-2014 통권25 정보시스템감사통제, IT 거버넌스 전문가를 위한 저널 p83~p86

NIPA 최신동향, 하둡보다 100배 빠른 빅 데이터 처리 기반, ‘스파크’ 공개 정보통신산업진흥원 주간기술동향 p34~p36, 2014.6.18. www.nipa.kr

안창원 황승구, 빅데이터 기술과 주요 이슈, 한국정보과학회 제30권 제6호 통권 제277호 정보과학회지 p10~p17 www.kiise.or.kr

강만모 김상락 박상무, 빅 데이터의 분석과 활용, 한국정보과학회 제30권 제6호 통권 제277호 정보과학회지 p25~p32 www.kiise.or.kr

류법모 김현진 김현기 박상규, 심층언어분석기반 소셜 미디어 이슈 탐지 및 모니터링 기술, 한국정보과학회 제30권 제6호 통권 제277호 정보과학회지 p47~p58 www.kiise.or.kr

최대수 김용민, 빅 데이터와 통합보안 2.0, 한국정보과학회 제30권 제6호 통권 제277호 정보과학회지 p65~p72 www.kiise.or.kr