43회 오답정리
1장 데이터이해
1. 빅데이터의 등장으로 상관관계가 중요시해짐(인과관계x), 전수조사가 우선시됨(표본조사x)
2. 비정형데이터 : 사진,영상,댓글 등(온도 : 숫자로 표현된 정형데이터)
3. 데이터사이언티스트는 커뮤니케이션 능력이 분석력보다 더 중요함
4. 개인정보사용자가 책임을 져야하는 방향으로 가고 있음
2장 데이터분석기획
1. 분석기획 고려사항 : 가용 데이터 확보 가능성 파악, 적절한 활용방안, 유스케이스탐색, 성공실패사례참고, 장애요소에 대한 사전계획 수립(리스크비용 고려안함)
2. 데이터준비단계 : 모든 유형의 데이터를 수용, 기업의 데이터는 포괄적으로 활용(전수 X), 수집된 데이터 정당성 검증, 개인정보보호준수
3. 빅데이터분석방법론 : 단계, 태스크, 스텝(입력자료,처리및도구,출력자료로 구성된 단위프로세스)
4. 분석 안정성을 위해선 정밀도가 중요함(반복 수행시 예측값의 편차 수준)
5. 분석과제의 우선순위 : 1순위는 3사분면(시급성 높고, 난이도 낮은거) 3,4,2,1사분면 순
6. 분석수준진단 : 확산형 = 젤높은거, 준비도 성숙도 다 짱짱
-> 이거 강의 한번 들어야할듯 ㅠ 머릿속에 뙇 들어오게...
3장 데이터분석
1. 베이즈정리는 귀납척 추론 방법임(과거와 현재를 기반으로 미래 추정 -> 각 특성이 독립적이라는 가정, 계산이 간단하고 빠름)
2.층화추출법 = 학년생각하기
3. 상관계수가 0에 가까울수록 관련 없는것. 약한 상관관계!!!!!!! 높은 상관관계끼리 구축하면 다중공선성이 발생할 가능성이 높음
* 다중공선성은 ? 독립변수들(설명변수)끼리 강하게 상관되어 있는 경우 -> 회귀분석에 쓸 수 없겠군... vif(분산팽창계수)가 10넘으면 있다고 판단 -> 주성분분석을 통한 차원축소, 상관성이 높은 변수 제거, 변수결합 등으로 해결 필요
4. 인공신경망에서 가중치는 입력신호의 강도조절을 위함
5. 독립인경우엔 a교b = a*b가됨. 확률값은 0과 1사이의 값을 가짐
6. k평균군집분석은 이상값에 민감하고, 초기 군집중심ㅇ르 임의로 설정할 수 있고, k를 사전에 정의해야함
7. 제1종오류 = 귀무가설이 참인데 기각하는 오류.
8.F1-SCORE = 2*재현율*정밀도/재현율+정밀도
재현율 = 진짜 실제중에(TP+FN) 실제라고 예측한놈(TP)
정밀도 = 실제라고 예측한 것 중에 (TP+NP) 진짜 실제인놈(TP) -> 이거 문제 계속 풀어봐야할긋
9. 등간척도는 연속형변수, 사칙연산이 불가능 -> 절대적 0이 없음 -> 난 이 척도가 왜이렇게 헷갈리냐
10. 연관분석은 전처리가 필요하지 않음. 데이터가 적으면 도출하기 어려움
11.스피어만계수는 서열척도,순서형변수,비선형적관계에서도 쓸수있음 -1~+1사용 . 우상향 -> 양의상관관계
12. 다차원척도법(MDS) 객체들사이의 유사성혹은 비유사성을 측정하여 원래의 차원보다 낮은 차원의 공간에 점으로 표현
13. 랜덤포레스트 앙상블 중 하나. 병렬처리가능. 트리 여러개를 다수결 혹은 평균으로 예측
14. knn 지도학습 k-means 비지도학습 ㅋㅋㅋㅋ dbscan은 초기값k를 선택할 필요가 없음
'기타' 카테고리의 다른 글
분석 유형 주요 알고리즘 (ADsP 기준) (3) | 2025.08.07 |
---|---|
ADsP 데이터분석파트 통계분석~회귀분석 정리 (3) | 2025.08.07 |
adsp 벼락치기 - 아답터 유튜브 강의 요약(3. 데이터분석 일부) (4) | 2025.08.04 |
[ADsP] 헷갈리는 통계(표본추출법, 가설검정) (1) | 2025.08.04 |
[ADsP] 40회 기출문제 풀이 오답정리 (3) | 2025.08.03 |