본문 바로가기
기타

[ADsP] 데이터분석 부분 챗지피티와 공부한 내용 요약

by 소르상 2025. 8. 2.

d-7도아님..

합격할 수 있을까 ??

ㅎㅎㅎㅎㅎ

📌 오늘의 키워드 정리 (실무 예시 포함)

📊 회귀분석

  • 다중선형회귀분석: 독립변수 여러 개로 Y 예측
    • 실무 예시: 광고비, 가격, 경쟁사 수 → 매출 예측
  • 회귀계수 의미: X가 1단위 변할 때 Y가 평균적으로 얼마나 변하는지
  • 회귀계수 검정(t-검정):
    • β = 0 의미: 그 변수는 Y에 유의미한 영향을 주지 않는다는 가설(H₀)
    • p ≥ 0.05 → "데이터만으로는 이 변수가 Y에 영향 있다고 말할 근거 부족"
  • t-검정 vs F-검정:
    • t-검정 → 개별 변수의 영향 확인
    • F-검정 → 모델 전체의 유효성 확인

📈 시계열분석

  • 자기회귀모형(AR): 과거 값(Yt-1, Yt-2)이 현재에 영향
  • 이동평균모형(MA): 과거의 예측 오차(εt-1, εt-2)가 현재에 영향
  • 시즌 요인(Seasonality):
    • 주기적으로 반복되는 패턴 (주/월/연 단위)
    • 실무 예시:
      • 소매업 → 명절/크리스마스 매출 급증
      • 항공 → 성수기/비수기
  • 추세 요인(Trend): 장기적인 상승/하락
  • 순환 요인(Cycle): 경기변동 등 장기적 반복
  • 불규칙 요인(Irregular): 예측 불가능한 단기 충격 (자연재해 등)

🌳 의사결정나무

  • 분류트리/회귀트리: Y가 범주형/수치형일 때 사용
  • 장점/단점:
    • 장점: 직관적, 해석 쉬움, 범주형+수치형 둘 다 가능
    • 단점: 과적합 위험, 데이터 변동에 민감
  • 지니지수/엔트로피: 노드의 불순도 측정 → 조건(if문) 선택 기준
  • if문 비유: 모델이 데이터를 보고 "어떤 조건문이 최적인지" 자동으로 찾아냄

🤝 앙상블

  • 배깅 (Bagging): 여러 모델을 병렬 학습 → 평균/투표, 분산 ↓
    • 실무 예시: 제조업 품질 예측, 안정성 높은 모델 필요할 때
  • 부스팅 (Boosting): 틀린 데이터의 가중치 ↑ → 순차 학습, 편향 ↓
    • 실무 예시: 금융사기 탐지, 정확도 극대화 필요할 때

🧠 머신러닝 vs 딥러닝

  • 머신러닝: 트리, 회귀, SVM, KNN → 특징을 사람이 설계
  • 딥러닝: 신경망 기반, 특징을 모델이 스스로 학습
  • 역전파(Backpropagation): 오차를 거꾸로 전달해 가중치 조정 -> 기울기소실, 과적합이 일어날 수 있음
  • 초기값 중요성: 시작 가중치에 따라 다른 최소값으로 수렴 가능

🔍 군집분석 (Clustering)

  • 비지도학습 : 정답(Y) 없이 데이터의 유사성으로 그룹 생성
  • 계층적 군집분석: 덴드로그램, 군집 수 모를 때 유용(k를 알 수 없을 때), 데이터 개수가 적을 때 
    • 실무 예시:
      • 마케팅: 고객 50명을 구매 패턴으로 유사성 트리 생성 → VIP/저가형/중간 그룹 식별
      • 유전자 분석: 샘플 간 유전자 발현 패턴의 단계적 유사성 파악
  • 연결법:
    • 단일(최단), 완전(최장), 평균, 와드(분산 최소화)

 

1️⃣ 단일 연결법 (Single Linkage, 최단 연결)

  • 정의: 두 그룹 사이 거리 = 가장 가까운 두 점의 거리
  • 특징: 길쭉한 사슬(chain) 형태 군집도 잘 묶음
  • 단점: 노이즈에 민감 → 체인 효과 발생 가능
  • 실무: 데이터가 연속적으로 퍼져 있어도 느슨하게 연결하고 싶을 때

2️⃣ 완전 연결법 (Complete Linkage, 최장 연결)

  • 정의: 두 그룹 사이 거리 = 가장 먼 두 점의 거리
  • 특징: 군집 내 점들이 전반적으로 가깝게 유지 → 컴팩트한 그룹
  • 단점: 뭉치기 전에 넓게 퍼진 군집은 잘 안 묶임
  • 실무: "군집 안은 최대한 비슷하게" 유지하고 싶을 때

3️⃣ 평균 연결법 (Average Linkage)

  • 정의: 두 그룹 간의 모든 점 거리의 평균
  • 특징: 단일/완전 연결의 극단적인 문제 완화 → 균형 잡힌 결과
  • 단점: 계산량 많음 (모든 점 거리 계산)
  • 실무: 다양한 데이터에서 안정적이고 무난한 군집 필요할 때

4️⃣ 와드 연결법 (Ward’s Method)

  • 정의: 거리 대신 군집 합쳤을 때 SSE(오차 제곱합) 증가량 최소화
  • 특징: 군집 내 분산 최소화 → K-means와 유사, 구형(spherical) 클러스터 선호
  • 단점: 이상치에 민감
  • 실무: 수치형 데이터에서 균일하고 컴팩트한 그룹 만들 때 자주 사용

✅ 한눈에 정리

  • 단일 연결: 가장 가까운 점 → 사슬형, 느슨한 군집
  • 완전 연결: 가장 먼 점 → 컴팩트, 타이트한 군집
  • 평균 연결: 평균 거리 → 균형 잡힘
  • 와드 연결: 군집 내 분산 최소 → K-means 비슷, 수치형 데이터에 강함

🛒 연관분석 (Association Analysis)

  • 지지도(Support): 항목이 함께 나타나는 비율(Support(AB)=P(AB))
  • 신뢰도(Confidence): P(B|A), 조건부 확률
  • 향상도(Lift): A와 B가 독립일 때 대비 얼마나 더 같이 나타났는지 -> 1보다 크면 연관성있음
  • 실무 예시:
    • 소매업: {우유} → {빵} → 상품 진열/번들
    • 온라인 서비스: "이 영화를 본 사람은 저 영화도 봤다" → 추천 시스템
    • 의료: 특정 증상 조합과 질병 연관성 찾기

이건 part2 데이터분석기획 중 일부

 

📂 데이터 마이닝 프로세스

  • KDD: 데이터 → 지식 발견 중심, 연구적 접근
  • CRISP-DM: 비즈니스 목표 ↔ 데이터 분석 ↔ 적용, 실무 표준 프로세스

✅ 1️⃣ KDD (Knowledge Discovery in Databases)

  • 목표: 대규모 데이터에서 **지식(패턴)**을 찾아내는 과정 전체를 정의
  • 중심: "데이터에서 패턴을 발견하고 의미를 부여"하는 데 초점

📌 주요 단계

  1. 데이터 선택 (Selection)
  2. 데이터 전처리 (Preprocessing)
  3. 데이터 변환 (Transformation)
  4. 데이터 마이닝 (Data Mining)
  5. 패턴 평가 및 해석 (Interpretation/Evaluation)

➡️ 데이터 자체에서 지식 발견 프로세스를 설명하는 개념적 프레임워크


✅ 2️⃣ CRISP-DM (Cross Industry Standard Process for Data Mining)

  • 목표: 실제 비즈니스 프로젝트에서 데이터 마이닝을 적용하는 산업 표준 프로세스
  • 중심: 비즈니스 문제 → 데이터 분석 → 결과 적용까지 실무 중심

📌 주요 단계

  1. 비즈니스 이해 (Business Understanding)
  2. 데이터 이해 (Data Understanding)
  3. 데이터 준비 (Data Preparation)
  4. 모델링 (Modeling)
  5. 평가 (Evaluation)
  6. 배포 (Deployment)

➡️ 비즈니스 목표를 분석 목표로 연결하고, 결과를 실제 서비스에 적용하는 것까지 포함

반응형