한줄요약:
보안데이터 기반 시각화 - Matplotlib와 Seaborn은 Python의 핵심 시각화 라이브러리로, Matplotlib의 plt.plot(), plt.bar(), plt.hist() 등을 사용하여 기본 차트 및 분포를 그리며, Seaborn의 sns.boxplot(), sns.scatterplot(), sns.heatmap() 등을 활용하여 이상치 탐지, 변수 간 관계(상관성), 그리고 복합적인 통계 패턴을 직관적으로 분석합니다.
오늘 공부한 내용:
1. 📊 Matplotlib의 기본 구조 및 Line Plot
Matplotlib: 파이썬의 표준 시각화 라이브러리로, 저수준(Low-level) API를 제공하여 세밀한 커스터마이징이 가능합니다.
서브 패키지: 주로 **matplotlib.pyplot**을 **plt**로 임포트하여 사용합니다.
기본 구조 (객체 지향):
Figure (plt.figure()): 전체 종이/캔버스.
Axes (fig.add_subplot() 또는 plt.subplot()): 실제 그래프가 그려지는 영역 (축, 제목 포함).
Line Plot (선 그래프):
plt.plot(x, y): 연속형 데이터의 추세 변화를 시각화하는 데 사용됩니다.
옵션 예시: color, marker, ms (마커 크기), plt.title(), plt.xlabel(), plt.ylabel().
2. 🧱 막대 그래프 (Bar Plot)
특징: 범주형 데이터의 **빈도(Count)**나 **집계된 값(Sum, Mean)**을 비교할 때 사용됩니다.
Matplotlib: plt.bar(x, height)
Quiz 예시: 타이타닉 데이터에서 선실 등급별(pclass) 생존자 수 합계를 시각화.
Multi-Bar Plot (다중 막대):
DataFrame.plot(kind='bar') 또는 Seaborn을 활용하여 여러 범주의 값을 비교합니다.
Quiz 예시: mpgFrm에서 구동 방식별 도시 연비(cty)와 고속도로 연비(hwy) 평균 비교.
3. 📉 데이터 분포 시각화 (Histogram, Countplot, Boxplot)
차트 유형,패키지,목적,특징 및 분석
Histogram,Matplotlib (plt.hist()),연속형 데이터의 분포(Distribution) 확인.,데이터가 특정 구간(bins)에 얼마나 집중되어 있는지 파악.
Countplot,Seaborn (sns.countplot()),범주형 데이터의 빈도 수 확인.,"hue 옵션을 사용하여 두 범주형 변수의 조합 빈도 시각화 (e.g., 사용자별 로그인 상태)."
Box Plot,Seaborn (sns.boxplot()),"데이터의 중심, 퍼짐, 이상치(Outlier) 탐지.","Q1, Q2(중앙값), Q3와 **IQR (Q3-Q1)**을 기반으로 수염(Whisker) 범위를 벗어난 값을 이상치로 표시."
이상치 탐지 공식: Lower Bound = Q1 - 1.5 * IQR, Upper Bound = Q3 + 1.5 * IQR.
4. 🔠 관계 및 패턴 시각화 (Scatter Plot, Heatmap)
차트 유형,패키지,목적,분석 및 활용
Scatter Plot,Seaborn (sns.scatterplot()),두 연속형 변수 간의 관계/상관성 시각화.,"점들의 패턴(선형, 군집)을 확인. size, hue 옵션으로 추가 변수 표현 가능 (e.g., 평균 지연 시간 vs. 실패율)."
Heatmap,Seaborn (sns.heatmap()),행과 열 변수 간의 강도/크기를 색상으로 표현.,"상관 관계 매트릭스 시각화 (Iris 데이터). 피벗 테이블 결과를 활용하여 범주 조합별 집계 평균 시각화 (e.g., 사용자-상태별 평균 지연 시간)."