본문 바로가기
[KT AIBLE SCHOOL]에이블스쿨

[KT 에이블스쿨] 04.21 매크로, VBA, 데이터 분석

by 오동일지 2025. 4. 21.

매크로(Macro)

- 사용자가 미리 정의한 일련의 명령이나 작업을 자동으로 실행할 수 있게 해주는 스크립트

엑셀에서 반복되는 작업을 매크로로 저장하고, 필요할 때마다 실행하여 자동 반복 수행

 

VBA(Visual Basic for Applications)

- Microsoft Office 응용 프로그램을 위한 프로그래밍 언어

엑셀, 워드, 엑서스 등에서 사용자가 직접 스크립트를 작성하여 복잡한 작업 자동화, 사용자 정의 함수, 사용자 인터페이스 커스터마이징 등 작업 수행

 

매크로는 VBA 기반이며, 매크로의 기록과 실행은 VBA 코드 작성과 실행으로 연결된다.

매크로는 엑셀에서 특정 작업을 자동화하기 위한 도구이며, VBA는 이러한 매크로를 생성, 수정, 확장할 수 있는 프로그래밍 언어 및 환경이다

 

매크로 내부 실행

- 매크로 실행 단추를 누르면, 녹화한 매크로가 다시 재생되는 것이 아니라, 내부적으로 매크로 기능을 VBA 코드로 변환한 다음 실행하는 것

즉, 매크로와 VBA코드는 동일한 것으로 이해해도 무방함


데이터

관심있는 대상을 관찰하고 측정하여 얻은 수치, 문자, 기호의 집합

데이터 자체만으로는 의미를 지니지 않지만, 이를 가공하고 분석함으로써 유용한 정보를 얻을 수 있음

 

구조화된 데이터

데이터베이스에서 쉽게 정리가능한 형태

ex) 표 형태

 

비구조화된 데이터

텍스트, 이미지, 동영상 등 정형화되지 않은 데이터

 

데이터 분석

- 수집된 데이터를 검토하고 해석하여 유용한 정보와 인사이트를 도출하는 과정

- 데이터 속에 숨겨진 패턴, 연관성, 추세를 발견하여 의사결정에 활용하는 것이 데이터분석의 주요 목적

 

데이터 분석의 필요성

  • 데이터 기반 의사결정 지원
  • 업무 및 프로세스 효율성 향상
  • 고객 이해도 증대 및 맞춤형 서비스 제공
  • 시장 변화 예측 및 대응
  • 새로운 기회 및 혁신 창출
  • 경쟁력 강화 및 차별화

기술적 데이터 분석(Descriptive Data Analytics)

- 데이터를 요약하고 정리하여 데이터의 전반적인 특성을 파악하는 것이 주 목적

- 데이터의 대표값과 분산, 표준편차 등의 기초 통계량을 계산하여 데이터의 분포 및 특성을 설명

 

탐색적 데이터 분석 (Exploratory Data Analysis, EDA)

- 데이터를 깊이 탐색하고 숨겨진 패턴, 관계성, 이상값을 발견하거나 데이터 분석 목적을 재발견하는것이 주 목적

- 데이터를 다각도로 분석하여 변수 간 관계를 탐색

- 산점도, 히트맵, 상관 행렬 등의 시각화를 활용하여 데이터 간 관계성 확인

 

확증적 데이터 분석 (Confirmatory Data Analysis, CDA)

- 설정한 가설을 검증하고 데이터가 특정한 관계를 가지는지를 명확히 확인하는게 주 목적

- 가설을 설정하고 통계적 방법을 통해 데이터의 관계 검증

- 모집단의 특성을 표본 데이터로부터 추론하는 통계적 추론기법 활용

 

예측적 데이터 분석 (Predictive Analytics)

- 과거 데이터를 바탕으로 미래의 데이터를 예측하고 미래의 트렌드, 수요, 리스크를 예측하여 의사결정을 지원하는 것이 주 목적

- 회귀 분석, 시계열 분석, 머신러닝, 임베딩, LLM등을 활용하여 예측 모델 구축

 


변수(variables)

- 데이터 중 공통의 측정 방법으로 얻은 같은 성질의 값의 집단

- 변수의 개수에 따라, 단일변수(1개), 다변수(2개 이상)로 나눔

- 통계학에서는 변수의 개수를 '차원'이라고 표현함

 

독립변수(Independent Variable)

- 다른 변수에 영향을 주는 변수(원인)

 

종속변수(Dependent Variable)

- 독립변수의 영향을 받아 변하는 변수(결과)

 

수치형(양적) 변수

- 이산형 변수 : 셀 수 있는 값 또는 개별적으로 분리된 값을 가지는 변수

- 연속형 변수 : 어떤 범위 내에서 연속된 어떤 값을 취할 수 있는 변수

 

범주형(질적) 변수

- 숫자로 측정할 수 없는 속성, 특성, 범주 등을 나타내는 데이터

- 계산이 아닌 분류, 그룹화가 목적


데이터 분석 용어

📊 기술통계량 (Descriptive Statistics)

  • 데이터의 중심분포를 요약하는 통계값
  • 주요 지표(수치형):
    • 평균(mean), 중앙값(median), 최댓값(max), 최솟값(min), 표준편차(std), 분산(var)
  • 주요 지표(범주형):
    • 최빈값(frequency), 최빈범주값(top)

📦 박스플롯 (Boxplot)

  • 데이터 분포를 직관적으로 시각화하는 그래프
  • 다섯 가지 요약 지표:
    • 최소값, 1사분위수(Q1), 중앙값(Q2), 3사분위수(Q3), 최댓값
  • 이상치(outlier) 탐지 및 시각화 가능

🎻 바이올린플롯 (Violin Plot)

  • 박스플롯 + KDE(커널 밀도 추정) 시각화
  • 데이터의 분포 형태를 더욱 직관적으로 표현

🎯 신뢰구간 (Confidence Interval)

  • 모집단 평균을 추정하는 구간
  • 95% 신뢰구간: 95% 확률로 해당 구간에 모집단 평균이 존재
  • 표본 크기가 클수록 신뢰구간은 좁아짐

🧪 통계적 가설검정 (Statistical Hypothesis Testing)

  • 귀무가설(H0) vs 대립가설(H1) 설정 후 검정
  • p-value(유의확률) 기반으로 가설 채택 여부 판단 (일반적으로 기준은 0.05)
  • 주요 검정 방법:
    • t-검정, z-검정, 카이제곱 검정

📐 분산분석 (ANOVA, Analysis of Variance)

  • 세 그룹 이상의 평균 차이를 비교하는 통계 기법
  • 귀무가설: 그룹 간 평균 차이 없음
  • 대립가설: 적어도 하나의 그룹 평균이 다름
  • F-검정을 통해 그룹 간 차이 유무 평가