메뉴 건너뛰기


Developer > DW,DM,BI


출처: http://www.hanbit.co.kr/network/view.html?bi_id=1275


제공: 한빛 네트워크
저자: Ben Lorica, 한동훈 역
원문: http://www.oreillynet.com/pub/a/databases/2006/08/24/tableau_review.html

태블로 소프트웨어는 시각적인 분석과 리포팅 도구를 제공하는 업체다. 사용자가 피벗(pivot) 테이블이나 크로스 표작성을 쉽게 작성하게 해주는 도구들은 몇가지가 있지만, 태블로(Tableau)는 이 보다 더 강력한 기능을 제공한다. 실시간으로 크로스 표를 시각적으로 보여준다. 태블로를 사용하면 데이터베이스 테이블을 시각적으로 살펴볼 수 있다.

태블로 제품을 사용하면 비즈니스 사용자가 매우 큰 다차원 데이터베이스를 쉽게 볼 수 있다. 앞으로 살펴보겠지만, 태블로는 매우 큰 데이터베이스 테이블에서도 매우 빠르게 그래피를 생성해낸다. 애널리스트에게 트랜드와 관계를 시각적으로 보여줄 수 있는 능력을 제공하며, 데이터에 숨어있는 정보들도 쉽게 이용할 수 있게 해준다.

태블로의 제품은 스탠포드 대학 교수인 팻 하나한(Pat Hanrahan)의 R&D 프로젝트에서 탄생했다. 하나한은 픽사(Pixar)의 설립 멤버이며, 영화산업에서 널리 사용되는 그래픽 프로토콜인 렌더맨(RenderMan)의 아키텍트였다. 하나한과 크리스 스톨트(Chris Stolte)의 주도로 태블로의 과학자들은 비주얼 쿼리 언어인 VizQLTM을 개발했다. 이 언어는 사용자가 데이터베이스와 상호작용하면서 그래픽/시각적인 결과를 얻을 수 있는 선언 언어이다. 태블로는 사용하기 쉬우며 직관적인 GUI는 VizQL을 숨겨준다. 차기 버전에는 VizQL도 제공할 계획이다.

설치 및 데이터 액세스

태블로는 윈도우 클라이언트 응용프로그램이다. 512MB 윈도우 머신에 설치하는 것은 쉽다. 다른 분석 도구나 리포팅 도구와 달리 설치 및 데이터 소스에 연결하는 것이 간단하다. 분석팀에서 수분안에 설치를 마치고, 실행할 수 있다.

현재 버전에서는 마이크로소프트 데이터 소스(엑셀, 액세스, SQL 서버), MySQL, 오라클, 하이피리언 에스베이스(Hyperion EssBase), IBM OLAP 서버, 구분자로 된 텍스트 파일에 접근할 수 있다.소프트웨어는 엑셀로 된 몇 가지 샘플 데이터를 제공한다. 우리는 설치후에 동일 머신에 설치된 MySQL 서버에 별 문제 없이 액세스 할 수 있었다.

제품 살펴보기

태블로에 익숙해지는 가장 빠른 방법은 몇 분간 Help 메뉴의 "Getting Started Tour(제품 설명 시작하기)"를 살펴보는 것이다.

버전 1.0에서 태블로는 모든 데이터가 하나의 데이터베이스 테이블이나 구분자로 된 텍스트 파일로 되어 있다고 가정한다. 버전 2.0에서는 테이블 결합(Join)의 수에 제한이 사라질 것이다. 테이블 조인은 GUI를 통해서 쉽게 수행할 수 있으며, INNER, OUTER 조인도 이용할 수 있다.

버전 2.0에서는 매우 큰 데이터 셋에서 하위 셋에 대한 분석을 수행할 수 있게 될 것이다. 예를 들어, 매우 큰 대용량 데이터베이스에서 사용자들은 테이블의 서브셋(또는 여러 테이블로부터의 조인 결과)에 대한 초기 분석을 수행한 다음에 전체 데이터에 대한 최종 분석을 수행할 수 있다. 하위셋을 추출하는 세 가지 방법을 제공한다. 필터를 사용하는 방법, 임의의 레코드를 가져오는 것, 제한된 수의 레코드를 가져오는 방법이 제공된다. 보다 작은 랜덤 샘플에 대한 실험적인 분석은 빠르게 수행되며, 추출된 샘플에 대해서는 오프라인 분석도 사용할 수 있다. 이 기능을 이용하면 오프라인 분석을 수행하고, 네트워크에 연결되었을 때 최신의 데이터를 사용해서 분석을 계속할 수 있다.

일단, 데이터 소스에 연결하고 나면, 태블로는 자동으로 데이터 소스의 필드들을 디멘션이나 메저로 분할한다. 우리가 살펴볼 예제는 가짜로 만든 도서 판매 데이터로 구성된 MySQL 테이블이다. 예제는 프로그래밍 언어, DBMS, 운영 체제 같이 제품 계층구조에 있는 책들의 특성들을 포함하고 있으며, ISBN을 사용해서 다른 테이블과 조인한다.(데이터베이스 필드 2개는 계층구조에서 2단계 레벨을 표현한다)

태블로에서 필드들을 "Shelves"에 끌어다 두는 것으로 분석을 수행할 수 있다. 쉘브(Shelves)는 사용할 필드가 표시되는 사용자 인터페이스에 있다. 이는 매우 직관적이며, 분석에 빠르게 적용할 수 있다. 크로스탭과 피벗테이블은 태블로에서 생성하기 쉽다. 두 테이블간에 조인을 사용하는 예제에서 태블로는 다음과 같은 표를 빠르게 생성해낸다.(그림1)

그림1
그림1. 피벗 테이블을 표시한 태블로

대부분의 BI(Business Intelligence) 도구들은 피벗 테이블과 크로스탭을 생성할 수 있는 기능을 제공하지만, 태블로를 사용하면 설치 후 몇분 만에 이런 일을 수행할 수 있다. 단순히 데이터 소스를 가리키는 것으로 기쁜 마음으로 피벗을 생성하고, 탐험할 수 있다. 다른 도구들은 이런 작업을 위해 큐브 생성이나 특별한 자료 구조 생성이 필요하다.

크로스탭과 피벗 테이블은 흥미롭지만, 수치정보로 시작하면 패턴을 찾아내는 것이 어렵다. 매우 큰 정보는 그래픽 형태로 처리하는 것이 보다 쉽다. 태블로를 사용하면 동일한 정보를 시각적으로 분석할 수 있으며, 테이블을 생성하는 것 만큼이나 빠르게 그래프를 생성할 수 있다.(그림2)

그림2
그림2. 비교를 위해 그래프를 보여주는 태블로

작은 디멘션(몇 가지 특징적인 카테고리로 된 디멘션)인 경우 표 형태로 작업하는 것이 쉬우며, 정보는 태블로의 그래프를 사용해서 시각적으로 처리하는 것이 더 쉽다. 큰 디멘션은 태블로로도 도전적인 일이지만, 큰 디멘션을 보다 작은 단위로 작업하거나 필터링할 수 있는 기능을 이용할 수 있다. 버전 2.0의 새로운 기능(이내메이션 또는 데이터 재생)은 큰 디멘션의 분석도 빠르게 처리할 수 있다.

기본적으로 태블로는 그래프 그룹에 대해 동일한 스케일 범위(스케일의 최대값과 최소값)를 사용한다. 잘못된 해석에 대한 혼동과 가능성을 막기 위해 보수적인 접근 방법을 사용한다. 그러나, 많은 카테고리로 된 큰 디멘션의 경우 일관된 스케일을 사용하면 시각적으로 만족스럽지 않은 그래프를 만들어내게 된다. 이에 대한 태블로의 해결책은 사용자가 그룹의 각 개별 차트에 대한 스케일 범위를 설정할 수 있는 가변 스케일 축(Variable Scale Axis) 기능을 제공한다.

버전 2.0의 새로운 기능들은 동적 계산과 애니메이션과 같은 스케일링 문제를 해결한다. 예제에서는 카테고리를 사용해서 그래프 페이지들을 생성했으며, 모든 카테고리를 개별적으로 스캔하는 애니메이션 기능을 사용했다. 애니메이션은 큰 디멘션을 매우 효율적으로 처리할 수 있게 해준다. 애니메이션을 설정하기 위해서는 오직 클릭 두 번만 하면 된다. 또한, 동적 계산(dynamic calculation)으로 불리는 새로운 기능을 사용할 수 있다. 예제에서는 카테고리 별로 년도별 성장율을 표시했으며, 동일한 스케일을 사용해서 카테고리들을 비교할 수 있다. 태블로는 2-3단계로 이런 동적 계산을 수행할 수 있기 때문에 데이터베이스에 대해 미리 복잡한 계산을 수행하지 않아도 된다.(그림3)

그림3
그림3. 태블로에서 애니메이션을 설정한 화면

드릴링 다운은 보다 상세한 내용을 제공한다. 예를 들어, 년도별 판매량으로 시작할 수 있으며, 주를 추가하면서 지역별로 분석할 수 있다. 태블로에서는 적절한 쉘브에 필드들을 추가하는 것으로 이와 같은 작업을 수행할 수 있다. 다른 도구들은 표 형태로 데이터를 조회할 수 있게 하지만, 태블로에서는 시각적으로 살펴볼 수도 있으며, 표 형태로도 살펴볼 수 있다. 데이터를 이렇게 시각적으로 탐색할 수 있는 기능은 패턴이나 트렌드를 빠르게 발견할 수 있게 해준다. 태블로는 멀티디멘션 데이터 소스로 표현되는 계층구조를 인식할 수 있다. 이런 경우 필드 옆에 + 표시를 클릭해서 드릴링 다운할 수 있다. 태블로는 데이터 필드에 대한 계층 구조를 자동으로 생성하며, 회계년도 시작을 쉽게 초기화할 수 있다.

버전 2.0에서 언급할만한 또 다른 기능 두 가지는 동적 데이터 검사(DDI)와 모델링 탐험이 있다. DDI를 사용하면 그래프에서 데이터를 강조함으로써 아웃라이어(outlier)를 분리할 수 있으며, 이후의 분석에서도 제거할 수 있다. 간단히 마우스 클릭만으로 이후 분석에서 제외딘 지점을 다시 포함시킬 수 있다. DDI를 사용하면 그래프의 지역을 강조하거나 조사할 수 있다. 이처럼 사용하기 쉬운 분석 도구를 분석팀에서 사용할 수 있으며, 다른 통계 패키지 사용을 줄일 수 있다. 

데이터 탐색의 경우 분석가는 알고 싶은 부분에 대한 그래프를 만들어낼 수 있다. 태블로에서 이미지를 오피스 응용프로그램으로 쉽게 복사해서 붙여넣을 수 있다. 웹 브라우저처럼 "Back(뒤로 이동)" 버튼을 사용해서 이전 단계의 분석으로 돌아갈 수 있다. 데이터베이스 리포팅 도구처럼 분석가는 워크북에 그래프와 테이블을 저장할 수 있으며, 나중에 동일한 데이터베이스에 대해 다시실행하거나 같은 필드 이름을 사용하는 다른 데이터베이스에 대해서 실행할 수 있다.

요약

태블로는 몇 분만 있으면 설치할 수 있으며, 배우기 쉬우며, 필요한 요구사항들을 만족시켜준다. 우리는 분석가가 약간의 설정만으로 디멘션 데이터를 시각적으로 탐색하게 해주는 다른 도구는 없다고 생각한다. 태블로는 전통적인 표 형태의 탐색도 제공한다. 버전 2.0은 현재 몇가지 분석 도구를 추가했으며, 테이블 조인을 통한 데이터 액세스 기능을 강화했으며, 시각적으로 데이터 제외, 탐색, 애니메이션을 제공한다. 애니메이션 기능은 매우 큰 카테고리를 및 시간에 따른 데이터를 조회하는 데 매우 적합하다.

태블로는 윈도우 클라이언트 응용프로그램이며, 리눅스나 맥 사용자들 처럼, 우리는 우리가 선호하는 운영체제에 포팅되기를 고대하고 있다. 차기 버전에서는 지리정보 매핑(Geographic Mapping)을 제공할 예정이지만, 현재는 이용할 수 없다. 오픈소스 PostgreSQL 데이터베이스는 현재 제공되지 않는다. 몇가지 간단한 모델링과 예측 기능을 제공하고 있지만, 복잡한 예측이나 통계 모델링이 필요하다면 여러분이 선호하는 통계 소프트웨어나 데이터 마이닝 소프트웨어를 사용해야 한다.

태블로는 디멘션 데이터에 사용할 수 있는 분석 도구의 첨병으로서 반가운 도구이다. 말이 필요없다! 2주 체험기간 동안 모든 기능을 제공하는 태블로를 다운로드하고, 얼마나 빨리 설치하고 사용할 수 있는지 놀라기 바란다. 시각적 데이터 탐색을 경험하고 나면, 현재 사용하고 있는 BI나 리포팅 도구들을 바꾸게 될 것이다.

시스템 요구사항

  • 마이크로소프트 윈도우 XP나 윈도우 2000
  • 128M 램 권장사양
  • 설치를 위한 50M의 여유 공간
  • 웹 브라우저(예를 들어, 마이크로소프트 인터넷 익스플로러 또는 넷스케이프 내비게이터)
  • 마이크로소프트 엑셀 또는 MS 액세스(버전 2000 이상)


이용가능한 데이터베이스:

  • 마이크로소프트 엑셀: 엑셀 2000 이상
  • 마이크로소프트 액세스: MS 액세스 2000 이상
  • MS SQL 서버: SQL 서버 2000 이상
  • MS Analysis Services: MSAS 2000 이상
  • MySQL v 3.23 이상
  • 오라클 9i 이상
  • 하이피리언 에스베이스(Hyperion Essbase): 버전 7.1, 7.x 이상
  • IBM DB2 OLAP 서버: 버전 8.1 이상

로저 맥글로스는 오라일리 미디어의 마켓 리서치 부서장이다.