d-7도아님..
합격할 수 있을까 ??
ㅎㅎㅎㅎㅎ
📌 오늘의 키워드 정리 (실무 예시 포함)
📊 회귀분석
- 다중선형회귀분석: 독립변수 여러 개로 Y 예측
- 실무 예시: 광고비, 가격, 경쟁사 수 → 매출 예측
- 회귀계수 의미: X가 1단위 변할 때 Y가 평균적으로 얼마나 변하는지
- 회귀계수 검정(t-검정):
- β = 0 의미: 그 변수는 Y에 유의미한 영향을 주지 않는다는 가설(H₀)
- p ≥ 0.05 → "데이터만으로는 이 변수가 Y에 영향 있다고 말할 근거 부족"
- t-검정 vs F-검정:
- t-검정 → 개별 변수의 영향 확인
- F-검정 → 모델 전체의 유효성 확인
📈 시계열분석
- 자기회귀모형(AR): 과거 값(Yt-1, Yt-2)이 현재에 영향
- 이동평균모형(MA): 과거의 예측 오차(εt-1, εt-2)가 현재에 영향
- 시즌 요인(Seasonality):
- 주기적으로 반복되는 패턴 (주/월/연 단위)
- 실무 예시:
- 소매업 → 명절/크리스마스 매출 급증
- 항공 → 성수기/비수기
- 추세 요인(Trend): 장기적인 상승/하락
- 순환 요인(Cycle): 경기변동 등 장기적 반복
- 불규칙 요인(Irregular): 예측 불가능한 단기 충격 (자연재해 등)
🌳 의사결정나무
- 분류트리/회귀트리: Y가 범주형/수치형일 때 사용
- 장점/단점:
- 장점: 직관적, 해석 쉬움, 범주형+수치형 둘 다 가능
- 단점: 과적합 위험, 데이터 변동에 민감
- 지니지수/엔트로피: 노드의 불순도 측정 → 조건(if문) 선택 기준
- if문 비유: 모델이 데이터를 보고 "어떤 조건문이 최적인지" 자동으로 찾아냄
🤝 앙상블
- 배깅 (Bagging): 여러 모델을 병렬 학습 → 평균/투표, 분산 ↓
- 실무 예시: 제조업 품질 예측, 안정성 높은 모델 필요할 때
- 부스팅 (Boosting): 틀린 데이터의 가중치 ↑ → 순차 학습, 편향 ↓
- 실무 예시: 금융사기 탐지, 정확도 극대화 필요할 때
🧠 머신러닝 vs 딥러닝
- 머신러닝: 트리, 회귀, SVM, KNN → 특징을 사람이 설계
- 딥러닝: 신경망 기반, 특징을 모델이 스스로 학습
- 역전파(Backpropagation): 오차를 거꾸로 전달해 가중치 조정 -> 기울기소실, 과적합이 일어날 수 있음
- 초기값 중요성: 시작 가중치에 따라 다른 최소값으로 수렴 가능
🔍 군집분석 (Clustering)
- 비지도학습 : 정답(Y) 없이 데이터의 유사성으로 그룹 생성
- 계층적 군집분석: 덴드로그램, 군집 수 모를 때 유용(k를 알 수 없을 때), 데이터 개수가 적을 때
- 실무 예시:
- 마케팅: 고객 50명을 구매 패턴으로 유사성 트리 생성 → VIP/저가형/중간 그룹 식별
- 유전자 분석: 샘플 간 유전자 발현 패턴의 단계적 유사성 파악
- 실무 예시:
- 연결법:
- 단일(최단), 완전(최장), 평균, 와드(분산 최소화)
1️⃣ 단일 연결법 (Single Linkage, 최단 연결)
- 정의: 두 그룹 사이 거리 = 가장 가까운 두 점의 거리
- 특징: 길쭉한 사슬(chain) 형태 군집도 잘 묶음
- 단점: 노이즈에 민감 → 체인 효과 발생 가능
- 실무: 데이터가 연속적으로 퍼져 있어도 느슨하게 연결하고 싶을 때
2️⃣ 완전 연결법 (Complete Linkage, 최장 연결)
- 정의: 두 그룹 사이 거리 = 가장 먼 두 점의 거리
- 특징: 군집 내 점들이 전반적으로 가깝게 유지 → 컴팩트한 그룹
- 단점: 뭉치기 전에 넓게 퍼진 군집은 잘 안 묶임
- 실무: "군집 안은 최대한 비슷하게" 유지하고 싶을 때
3️⃣ 평균 연결법 (Average Linkage)
- 정의: 두 그룹 간의 모든 점 거리의 평균
- 특징: 단일/완전 연결의 극단적인 문제 완화 → 균형 잡힌 결과
- 단점: 계산량 많음 (모든 점 거리 계산)
- 실무: 다양한 데이터에서 안정적이고 무난한 군집 필요할 때
4️⃣ 와드 연결법 (Ward’s Method)
- 정의: 거리 대신 군집 합쳤을 때 SSE(오차 제곱합) 증가량 최소화
- 특징: 군집 내 분산 최소화 → K-means와 유사, 구형(spherical) 클러스터 선호
- 단점: 이상치에 민감
- 실무: 수치형 데이터에서 균일하고 컴팩트한 그룹 만들 때 자주 사용
✅ 한눈에 정리
- 단일 연결: 가장 가까운 점 → 사슬형, 느슨한 군집
- 완전 연결: 가장 먼 점 → 컴팩트, 타이트한 군집
- 평균 연결: 평균 거리 → 균형 잡힘
- 와드 연결: 군집 내 분산 최소 → K-means 비슷, 수치형 데이터에 강함
🛒 연관분석 (Association Analysis)
- 지지도(Support): 항목이 함께 나타나는 비율(Support(A→B)=P(A∩B))
- 신뢰도(Confidence): P(B|A), 조건부 확률
- 향상도(Lift): A와 B가 독립일 때 대비 얼마나 더 같이 나타났는지 -> 1보다 크면 연관성있음
- 실무 예시:
- 소매업: {우유} → {빵} → 상품 진열/번들
- 온라인 서비스: "이 영화를 본 사람은 저 영화도 봤다" → 추천 시스템
- 의료: 특정 증상 조합과 질병 연관성 찾기
이건 part2 데이터분석기획 중 일부
📂 데이터 마이닝 프로세스
- KDD: 데이터 → 지식 발견 중심, 연구적 접근
- CRISP-DM: 비즈니스 목표 ↔ 데이터 분석 ↔ 적용, 실무 표준 프로세스
✅ 1️⃣ KDD (Knowledge Discovery in Databases)
- 목표: 대규모 데이터에서 **지식(패턴)**을 찾아내는 과정 전체를 정의
- 중심: "데이터에서 패턴을 발견하고 의미를 부여"하는 데 초점
📌 주요 단계
- 데이터 선택 (Selection)
- 데이터 전처리 (Preprocessing)
- 데이터 변환 (Transformation)
- 데이터 마이닝 (Data Mining)
- 패턴 평가 및 해석 (Interpretation/Evaluation)
➡️ 데이터 자체에서 지식 발견 프로세스를 설명하는 개념적 프레임워크
✅ 2️⃣ CRISP-DM (Cross Industry Standard Process for Data Mining)
- 목표: 실제 비즈니스 프로젝트에서 데이터 마이닝을 적용하는 산업 표준 프로세스
- 중심: 비즈니스 문제 → 데이터 분석 → 결과 적용까지 실무 중심
📌 주요 단계
- 비즈니스 이해 (Business Understanding)
- 데이터 이해 (Data Understanding)
- 데이터 준비 (Data Preparation)
- 모델링 (Modeling)
- 평가 (Evaluation)
- 배포 (Deployment)
➡️ 비즈니스 목표를 분석 목표로 연결하고, 결과를 실제 서비스에 적용하는 것까지 포함
반응형
'기타' 카테고리의 다른 글
adsp 벼락치기 - 아답터 유튜브 강의 요약(3. 데이터분석 일부) (4) | 2025.08.04 |
---|---|
[ADsP] 헷갈리는 통계(표본추출법, 가설검정) (1) | 2025.08.04 |
[ADsP] 40회 기출문제 풀이 오답정리 (3) | 2025.08.03 |
MyBatis 설정 파일(sql-mapper-config, mybatis-config 등) 기본 설명 (0) | 2025.04.15 |
MyBatis Interceptor 역할 - 파라미터 값 로그 출력하고 싶을 때 (1) | 2025.04.15 |