차세대도시·농림융합기상사업단
 
작성일 : 15-09-16 16:46
트위터로 이동 페이스북으로 이동
빅데이터, 그다음 ? 패스트 데이터!
 글쓴이 : 김민규
조회 : 7,713  
   http://www.infoworld.com/article/2608040/big-data/fast-data?the-next-s… [3013]
   http://blog.trigem.co.kr/120 [1818]

빅데이터, 그다음? 패스트 데이터!

noname01.png


  이제는 빅데이터 시대라고 할 수 있을 정도로, ‘빅데이터’는 각광을 받고 있다. 그 이유는, 과거에는 빅데이터를 뒷받침할 수 있는 플랫폼이 없었으나 현재는 여러 노드들의 클러스터를 통해 페타바이트급의 데이터를 수집하고 분석할 수 있는 툴들이 개발되고, 이와 관련된 다양한 기술력이 발전함에 따라 분석할 수 없었던 데이터들로부터 가치있는 정보를 추출할 수 있게 되었기 때문이다.

  이러한 배경 하에 최근에는 ‘빅데이터’에서 ‘패스트 데이터’로 관심이 집중되고 있다. 패스트 데이터란, 빠르게 생성되는 데이터로서 금융, 로그, 센서 데이터를 예로 들 수 있다. 다시 말해 빅데이터가 생성되기 이전에 실시간으로 빠르게 흘러들어와 필터링 되지 않은 데이터를 말한다. 즉, 기존의 저장된 빅데이터를 배치처리하여 분석하는 것이 아닌, 데이터 수집과 동시에 분석/처리하여 필요한 정보를 생산해야 한다. 

  패스트 데이터는 초당 수천에서 수백만 개씩 생길 수 있다. 여기서 중요한 것은 빠르게 이벤트가 발생되는 데이터를 즉시 수집 플랫폼으로 전달하고 처리하는 것이다. 여기서의 수집은 데이터마다 1차적으로 수집되는 곳 혹은 곧바로 수집 플랫폼으로 데이터를 전달하는 것이고, 수집 플랫폼으로 전달되면서 필요로 하는 처리를 수행하는 것이다. 예를 들어, 관측 데이터라고 한다면 Quality Control을 위한 처리를 하면서 수집플랫폼으로 저장되어지는 일렬의 과정을 말할 수 있다.


noname02.png

  이처럼 패스트 데이터의 대한 관심이 커짐에 따라, 이러한 데이터에 대응할 수 있는 기술들이 계속해서 개발되고 있다. 인기있는 툴으로 아파치 스톰(Storm), 아파치 스파크(Spark), 그리고 아파치 카프카(Kafka), 아파치 플룸(Flume) 등이 있다. 아파치 스톰과 아파치 스파크는 데이터 스트리밍 시스템으로 초당 수백만의 실시간으로 수집되는 데이터를 안정적으로 처리할 수 있는 툴이다. 아파치 카프카와 아파치 플룸은 처리된 데이터를 전달하고 수집하는 역할을 맡고 있다. 

  WISE 사업단에서는 실시간 도로 관측 기상정보를 즉시 처리하여 도로 이용자에게 효율적으로 전달하는 도로기상 컨텐츠 개발을 통해 도로 안전사고의 위험성을 줄이는 연구를 수행하고 있다. 아직은 연구 초기 단계로 자료의 분석/처리 시간이 소요되지만, 패스트 데이터 기술을 통해 이러한 문제점이 해결되리라 기대한다.