잘 찍어보자고...
- 비구조화된데이터 : 텍스트,이미지,음성 등
- CRISP-DM : 업무이해(업무목적파악,프로젝트계획수립) > 데이터이해(데이터탐색) > 테이더준비(데이터통합 등) > 모델링(모델링기법선택,모델작성,평가) > 평가(모델적용성평가) > 전개
- 빅데이터분석프로젝트 기획단계 : 프로젝트 범위설정 > 데이터분석프로젝트 정의 > 프로젝트 수행계획 수립 > 데이터분석 위험 식별
- 상향식 문제 해결 접근 방식 : 데이터를 기반으로 단계적으로 분석을 진행, 탐색적 분석을 통해 문제의 원인을 찾음
- 하향식 문제 해결 접근 방식 : 분석 대상이 명확할때 솔루션을 찾는 방식, 문제를 분해하여 하위 문제로 나눈다
- 주성분분석에서 주성분 개수 선택하는 법 : 고유값이 1이상인 주성분을 선택하고, 스크리 플롯을 통해 기울기 변화가 있는 지점을 찾는다. 누적기여도가 충분히 높은 주성분개수를 선택한다
- 이항로지스틱회귀모델 코드 해석 : r은 알파벳순으로 0,1로 인식. 1인게 y값이라고 생각하면 됨. 즉 회귀계수가 양수다 > y값일 확률이 올라감, AIC값이 낮을수록 모델의 적합도가 높음 (값의 평가는 다른 모델의 AIC값과 비교해야함), p-value가 높으면 무의미한 변수, null deviance와 residual deviance값이 비슷할 수록 모델의 성능이 높음
-계층적 군집 방법 : 단일 연결법, 완전연결법, 평균연결법
- 시계열 분해 요인 : 추세요인,계절요인,순환요인
- 공분산은 두 변수의 방향성을 나타냄(양수이면 같은 방향),
- 상관계수는 -1과 1사이의 값을 가짐, 피어슨 상관계수가 0이면 선형관계까 없는것
- 데이터 측정 척도에서 가장 많은 정보를 제공하는 척도 : 비율척도
- 결정계수는 데이터의 설명력을 보여주는 지표 (통계적 유의미는 알 수 없음) (모형이 얼마나 설명력을 갖는가?), 0~1값. 높을수록 설명력이 높다!!!!!!!
- 선형회귀분석의 가정 : 독립성(더빗완슨검정,오차와 관련없음), 선형성, 등분산성(오차의 분산이 설명변수(독립변수)와 무관하게 일정해야함), 비상관성(오차들끼리 상관이 없음), 정상성(오차의 분포가 정규분포를 따른다)
-> 독립성 빼고 다 오차와 관련된 가정이네.
기출문제 :
Q. 모집단을 상이한 집단으로 나누고 각 집단에서 무작위로 표본을 추출하는 표본방법은?
A. 층화추출법
'기타' 카테고리의 다른 글
adsp 벼락치기 - 아답터 유튜브 강의 요약(3. 데이터분석 일부) (4) | 2025.08.04 |
---|---|
[ADsP] 헷갈리는 통계(표본추출법, 가설검정) (1) | 2025.08.04 |
[ADsP] 데이터분석 부분 챗지피티와 공부한 내용 요약 (4) | 2025.08.02 |
MyBatis 설정 파일(sql-mapper-config, mybatis-config 등) 기본 설명 (0) | 2025.04.15 |
MyBatis Interceptor 역할 - 파라미터 값 로그 출력하고 싶을 때 (1) | 2025.04.15 |