본문 바로가기

전체 글25

[데이터분석]태블로(Tableau) 시작하기와 설치, 데이터연결하기 최근 들어 기업에서 정말 많이 사용하고 있는 데이터분석 툴 중 하나인 태블로에 대해 알아보고 설치부터 데이터연동까지 태블로를 사용하기 위한 기초 지식을 공부해보고자 합니다. 태블로는 스탠포드에서 진행된 컴퓨터공학 프로젝트가 결실을 맺어 2003년 설립된 회사로, 직곽적인 인터페이스를 제공하여 드래그 앤 드롭 방식을 통해 쿼리 없이 데이터 쿼리로 변환함으로써 데이터를 분석할 수 있는 툴입니다. 태블로 장점 태블로 장점 첫번째로 위에서 설명 드린 것과 같이 코딩 없이 간단한 끌어 놓기 방식으로 데이터를 분석할 수 있다는 것입니다. 따라서 쿼리를 직접 작성 할 수 없어도 원하는 데이터 추세 및 이상값 등을 발견하고 자연어를 사용하여 질문하고 즉시 답을 구할 수 있습니다. 두번째로는 스프레드시트, 데이터베이스,.. 2023. 8. 5.
데이터분석 전문가(ADP) 2과목 데이터 처리 기술 이해. 2장 데이터 처리 기술1절. 분산 데이터 저장 기술(GFS/HDFS/LUSTRE) 1절. 분산 데이터 저장 기술 1절에서는 분산 파일 시스템, 공유 스토리지, 데이터베이스와 같은 저장 기술의 종류와 각 기능을 이해하는 과정입니다. 최근에는 네트워크 상에 분산된 서버들을 클러스터링함으로써 대용량 저장 공간과 빠른 처리 성능을 제공하는 대규모 클러스터 시스템 플랫폼을 필요로 하고 있습니다. 분산 데이터 저장 기술은 네트워크상에서 데이터를 저장, 조회, 관리할 수 있으며, 저장 데이터의 정형화 여부와 데이터 모델에 따라 분산 파일 시스템과 클러스터 데이터베이스, Key-Value 저장소 정도로 구분할 수 있습니다. 분산 파일 시스템과 Key-Value 저장소는 구글이나 아마존 같은 업체에서 대용량 데이터를 저장하기 위해 GFS나 BigTable, SimpleDB 등을 개발해 사용하면서 유명.. 2023. 7. 22.
데이터분석 전문가(ADP) 2과목 데이터 처리 기술 이해. 1장 데이터 처리 프로세스, 3절. 데이터 연계 및 통합 기법 요약, 4절 대용량 비정형 데이터 처리 지난번 포스팅에도 언급했지만 데이터 처리 기술 이해의 세부 과목은 아래와 같습니다. 총 객관식 10문제가 출제되며, 과락을 면하기 위해 반드시 4문제 이상 맞춰야 합니다. 4절. 데이터 연계 및 통합 유형(동기화 기준) 데이터 연계 및 통합 시 일괄(Batch) 작업 또는 비동기식 근접 실시간(Near Real Time) 또는 동기식 실시간(Real Time) 방식이 혼용 사용될 수 있습니다. 일괄 작업 시에는 대용량 데이터의 처리가 가능하며, 실시간 통합 시에는 관심 대상 영역 상태에 대한 빠른 파악 및 대응이 가능하다는 장점이 있습니다. 일괄 작업의 사례로는 ETL 기능을 통해 운영 시스템으로부터 정기적, 반복적으로 대량의 데이터를 획득해 ODS를 구성하고, 이후 데이터 웨어하우스나 데이터 마트를 구.. 2023. 7. 17.
데이터분석 전문가(ADP) 2과목 데이터 처리 기술 이해. 1장 데이터 처리 프로세스, 2절. CDC(Change Data Capture)/ 3절. EAI 지난번 포스팅에도 언급했지만 데이터 처리 기술 이해의 세부 과목은 아래와 같습니다. 총 객관식 10문제가 출제되며, 과락을 면하기 위해 반드시 4문제 이상 맞춰야 합니다. 2절. CDC(Change Data Capture) CDC는 데이터베이스 내 데이터에 대한 변경을 식별해 필요한 후속 처리(데이터 전송/공유 등)를 자동화하는 기술 또는 설계 기법이자 구조입니다. CDC는 실시간 또는 근접 실시간 데이터 통합을 기반으로 하는 데이터 웨어하우스 및 기타 데이터 저장소 구축에 폭넓게 활용됩니다. CDC는 스토리지 하드웨어 계층에서부터 애플리케이션 계층에 이르기까지 다양한 계층에서 다양한 기술을 통해 구현될 수 있습니다. 단일 정보 시스템 내 다수의 CDC 메커니즘이 구현돼 동작될 수 있습니다. CDC 구현.. 2023. 7. 14.