본문 바로가기
기타

ADsP 기출문제(43회) 미어캣 풀면서 요약정리

by 소르상 2025. 8. 5.

43회 오답정리

 

1장 데이터이해

1. 빅데이터의 등장으로 상관관계가 중요시해짐(인과관계x), 전수조사가 우선시됨(표본조사x)

2. 비정형데이터 : 사진,영상,댓글 등(온도 : 숫자로 표현된 정형데이터)

3. 데이터사이언티스트는 커뮤니케이션 능력이 분석력보다 더 중요함

4.  개인정보사용자가 책임을 져야하는 방향으로 가고 있음

 

2장 데이터분석기획

1. 분석기획 고려사항 : 가용 데이터 확보 가능성 파악, 적절한 활용방안, 유스케이스탐색, 성공실패사례참고, 장애요소에 대한 사전계획 수립(리스크비용 고려안함)

2. 데이터준비단계 : 모든 유형의 데이터를 수용, 기업의 데이터는 포괄적으로 활용(전수 X), 수집된 데이터 정당성 검증, 개인정보보호준수

3. 빅데이터분석방법론 : 단계, 태스크, 스텝(입력자료,처리및도구,출력자료로 구성된 단위프로세스)

4. 분석 안정성을 위해선 정밀도가 중요함(반복 수행시 예측값의 편차 수준)

5. 분석과제의 우선순위 : 1순위는 3사분면(시급성 높고, 난이도 낮은거) 3,4,2,1사분면 순

6. 분석수준진단 : 확산형 = 젤높은거, 준비도 성숙도 다 짱짱

 

-> 이거 강의 한번 들어야할듯 ㅠ 머릿속에 뙇 들어오게...

 

 

3장 데이터분석

1. 베이즈정리는 귀납척 추론 방법임(과거와 현재를 기반으로 미래 추정 -> 각 특성이 독립적이라는 가정, 계산이 간단하고 빠름)

2.층화추출법 = 학년생각하기

3. 상관계수가 0에 가까울수록 관련 없는것. 약한 상관관계!!!!!!! 높은 상관관계끼리 구축하면 다중공선성이 발생할 가능성이 높음

* 다중공선성은 ? 독립변수들(설명변수)끼리 강하게 상관되어 있는 경우 -> 회귀분석에 쓸 수 없겠군... vif(분산팽창계수)가 10넘으면 있다고 판단 -> 주성분분석을 통한 차원축소, 상관성이 높은 변수 제거, 변수결합 등으로 해결 필요 

4. 인공신경망에서 가중치는 입력신호의 강도조절을 위함

5. 독립인경우엔 a교b = a*b가됨. 확률값은 0과 1사이의 값을 가짐

6. k평균군집분석은 이상값에 민감하고, 초기 군집중심ㅇ르 임의로 설정할 수 있고, k를 사전에 정의해야함

7. 제1종오류 = 귀무가설이 참인데 기각하는 오류. 

8.F1-SCORE = 2*재현율*정밀도/재현율+정밀도 

재현율 = 진짜 실제중에(TP+FN) 실제라고 예측한놈(TP)

정밀도 = 실제라고 예측한 것 중에 (TP+NP) 진짜 실제인놈(TP) -> 이거 문제 계속 풀어봐야할긋 

9. 등간척도는 연속형변수, 사칙연산이 불가능 -> 절대적 0이 없음 -> 난 이 척도가 왜이렇게 헷갈리냐 

10. 연관분석은 전처리가 필요하지 않음. 데이터가 적으면 도출하기 어려움

11.스피어만계수는 서열척도,순서형변수,비선형적관계에서도 쓸수있음 -1~+1사용 . 우상향 -> 양의상관관계

12. 다차원척도법(MDS) 객체들사이의 유사성혹은 비유사성을 측정하여 원래의 차원보다 낮은 차원의 공간에 점으로 표현 

13. 랜덤포레스트 앙상블 중 하나. 병렬처리가능. 트리 여러개를 다수결 혹은 평균으로 예측

14. knn 지도학습 k-means 비지도학습 ㅋㅋㅋㅋ dbscan은 초기값k를 선택할 필요가 없음

반응형