본문 바로가기

기타

[ADsP] 데이터분석 부분 챗지피티와 공부한 내용 요약

by 소르상 2025. 8. 2.

d-7도아님..

합격할 수 있을까 ??

ㅎㅎㅎㅎㅎ

📌 오늘의 키워드 정리 (실무 예시 포함)

📊 회귀분석

다중선형회귀분석: 독립변수 여러 개로 Y 예측
- 실무 예시: 광고비, 가격, 경쟁사 수 → 매출 예측
회귀계수 의미: X가 1단위 변할 때 Y가 평균적으로 얼마나 변하는지
회귀계수 검정(t-검정):
- β = 0 의미: 그 변수는 Y에 유의미한 영향을 주지 않는다는 가설(H₀)
- p ≥ 0.05 → "데이터만으로는 이 변수가 Y에 영향 있다고 말할 근거 부족"
t-검정 vs F-검정:
- t-검정 → 개별 변수의 영향 확인
- F-검정 → 모델 전체의 유효성 확인

📈 시계열분석

자기회귀모형(AR): 과거 값(Yt-1, Yt-2)이 현재에 영향
이동평균모형(MA): 과거의 예측 오차(εt-1, εt-2)가 현재에 영향
시즌 요인(Seasonality):
- 주기적으로 반복되는 패턴 (주/월/연 단위)
- 실무 예시:
  - 소매업 → 명절/크리스마스 매출 급증
  - 항공 → 성수기/비수기
추세 요인(Trend): 장기적인 상승/하락
순환 요인(Cycle): 경기변동 등 장기적 반복
불규칙 요인(Irregular): 예측 불가능한 단기 충격 (자연재해 등)

🌳 의사결정나무

분류트리/회귀트리: Y가 범주형/수치형일 때 사용
장점/단점:
- 장점: 직관적, 해석 쉬움, 범주형+수치형 둘 다 가능
- 단점: 과적합 위험, 데이터 변동에 민감
지니지수/엔트로피: 노드의 불순도 측정 → 조건(if문) 선택 기준
if문 비유: 모델이 데이터를 보고 "어떤 조건문이 최적인지" 자동으로 찾아냄

🤝 앙상블

배깅 (Bagging): 여러 모델을 병렬 학습 → 평균/투표, 분산 ↓
- 실무 예시: 제조업 품질 예측, 안정성 높은 모델 필요할 때
부스팅 (Boosting): 틀린 데이터의 가중치 ↑ → 순차 학습, 편향 ↓
- 실무 예시: 금융사기 탐지, 정확도 극대화 필요할 때

🧠 머신러닝 vs 딥러닝

머신러닝: 트리, 회귀, SVM, KNN → 특징을 사람이 설계
딥러닝: 신경망 기반, 특징을 모델이 스스로 학습
역전파(Backpropagation): 오차를 거꾸로 전달해 가중치 조정 -> 기울기소실, 과적합이 일어날 수 있음
초기값 중요성: 시작 가중치에 따라 다른 최소값으로 수렴 가능

🔍 군집분석 (Clustering)

비지도학습 : 정답(Y) 없이 데이터의 유사성으로 그룹 생성
계층적 군집분석: 덴드로그램, 군집 수 모를 때 유용(k를 알 수 없을 때), 데이터 개수가 적을 때
- 실무 예시:
  - 마케팅: 고객 50명을 구매 패턴으로 유사성 트리 생성 → VIP/저가형/중간 그룹 식별
  - 유전자 분석: 샘플 간 유전자 발현 패턴의 단계적 유사성 파악
연결법:
- 단일(최단), 완전(최장), 평균, 와드(분산 최소화)

1️⃣ 단일 연결법 (Single Linkage, 최단 연결)

정의: 두 그룹 사이 거리 = 가장 가까운 두 점의 거리
특징: 길쭉한 사슬(chain) 형태 군집도 잘 묶음
단점: 노이즈에 민감 → 체인 효과 발생 가능
실무: 데이터가 연속적으로 퍼져 있어도 느슨하게 연결하고 싶을 때

2️⃣ 완전 연결법 (Complete Linkage, 최장 연결)

정의: 두 그룹 사이 거리 = 가장 먼 두 점의 거리
특징: 군집 내 점들이 전반적으로 가깝게 유지 → 컴팩트한 그룹
단점: 뭉치기 전에 넓게 퍼진 군집은 잘 안 묶임
실무: "군집 안은 최대한 비슷하게" 유지하고 싶을 때

3️⃣ 평균 연결법 (Average Linkage)

정의: 두 그룹 간의 모든 점 거리의 평균
특징: 단일/완전 연결의 극단적인 문제 완화 → 균형 잡힌 결과
단점: 계산량 많음 (모든 점 거리 계산)
실무: 다양한 데이터에서 안정적이고 무난한 군집 필요할 때

4️⃣ 와드 연결법 (Ward’s Method)

정의: 거리 대신 군집 합쳤을 때 SSE(오차 제곱합) 증가량 최소화
특징: 군집 내 분산 최소화 → K-means와 유사, 구형(spherical) 클러스터 선호
단점: 이상치에 민감
실무: 수치형 데이터에서 균일하고 컴팩트한 그룹 만들 때 자주 사용

✅ 한눈에 정리

단일 연결: 가장 가까운 점 → 사슬형, 느슨한 군집
완전 연결: 가장 먼 점 → 컴팩트, 타이트한 군집
평균 연결: 평균 거리 → 균형 잡힘
와드 연결: 군집 내 분산 최소 → K-means 비슷, 수치형 데이터에 강함

🛒 연관분석 (Association Analysis)

지지도(Support): 항목이 함께 나타나는 비율(Support(A→B)=P(A∩B))
신뢰도(Confidence): P(B|A), 조건부 확률
향상도(Lift): A와 B가 독립일 때 대비 얼마나 더 같이 나타났는지 -> 1보다 크면 연관성있음
실무 예시:
- 소매업: {우유} → {빵} → 상품 진열/번들
- 온라인 서비스: "이 영화를 본 사람은 저 영화도 봤다" → 추천 시스템
- 의료: 특정 증상 조합과 질병 연관성 찾기

이건 part2 데이터분석기획 중 일부

📂 데이터 마이닝 프로세스

KDD: 데이터 → 지식 발견 중심, 연구적 접근
CRISP-DM: 비즈니스 목표 ↔ 데이터 분석 ↔ 적용, 실무 표준 프로세스

✅ 1️⃣ KDD (Knowledge Discovery in Databases)

목표: 대규모 데이터에서 **지식(패턴)**을 찾아내는 과정 전체를 정의
중심: "데이터에서 패턴을 발견하고 의미를 부여"하는 데 초점

📌 주요 단계

데이터 선택 (Selection)
데이터 전처리 (Preprocessing)
데이터 변환 (Transformation)
데이터 마이닝 (Data Mining)
패턴 평가 및 해석 (Interpretation/Evaluation)

➡️ 데이터 자체에서 지식 발견 프로세스를 설명하는 개념적 프레임워크

✅ 2️⃣ CRISP-DM (Cross Industry Standard Process for Data Mining)

목표: 실제 비즈니스 프로젝트에서 데이터 마이닝을 적용하는 산업 표준 프로세스
중심: 비즈니스 문제 → 데이터 분석 → 결과 적용까지 실무 중심

📌 주요 단계

비즈니스 이해 (Business Understanding)
데이터 이해 (Data Understanding)
데이터 준비 (Data Preparation)
모델링 (Modeling)
평가 (Evaluation)
배포 (Deployment)

➡️ 비즈니스 목표를 분석 목표로 연결하고, 결과를 실제 서비스에 적용하는 것까지 포함

'기타' 카테고리의 다른 글

adsp 벼락치기 - 아답터 유튜브 강의 요약(3. 데이터분석 일부) (4)	2025.08.04
[ADsP] 헷갈리는 통계(표본추출법, 가설검정) (1)	2025.08.04
[ADsP] 40회 기출문제 풀이 오답정리 (3)	2025.08.03
MyBatis 설정 파일(sql-mapper-config, mybatis-config 등) 기본 설명 (0)	2025.04.15
MyBatis Interceptor 역할 - 파라미터 값 로그 출력하고 싶을 때 (1)	2025.04.15

티스토리툴바