B.C/[1-Sprint2] 통계(Statistics) (7) 썸네일형 리스트형 [ section1 - 2 / 통계(Statistics) ] 10 - (1) 베이지안 통계 개론 (Bayesian Inference) 베이지안은, 여태까지 접했던 통계적 내용과는 사뭇 다른 접근을 필요하다. 이 베이지안의 방식의 아름다운 점은, 내용도 매우 간단하지만, 다양한 분야에 적용이 가능하다는 것이다. ※ 베이즈 정리를 이해를 돕기위한 관점의 변화 - '확률'에 대한 관점의 변화가 필요 - 전통적 관점 : 빈도주의 (frequentism) - 새로운 관점 : 베이지안 주의 (Bayesianism) '확률'을 '주장에 대한 신뢰도'로 해석하는 관점 ex) 동전의 앞면이 나올 확률이 50%다 - 빈도주의 : 100번 동전을 던졌을 때, 50번은 앞면이 나온다. - 베이지안 주의 : 동전의 앞면이 나왔다는 주장의 신뢰도가 50%이다. ※ 베이지안의 핵심 유도과정 아래는 베이지안의 핵심공식과 유도과정이다: Since Therefore .. [ section1 - 2 / 통계(Statistics) ] 7. ANOVA Test이란 ※ ANOVA Test(ANalysis Of VAriance; 분산 분석)이란 분산분석(ANOVA; 변량 분석)은 3개 이상 다수의 집단을 비교할 때 사용하는 가설검정법 = 여러 그룹간의 평균의 차이가 통계적으로 유의미 한지를 판단하기 위한 시험법 ANOVA와 T-Test의 차이점 - ANOVA Test : 3개 이상의 그룹의 평균을 비교하는 데 사용 - T - Test : 2개의 그룹을 비교하는 데 사용 ( 다수 집단 비교에서 t-test를 여러번 사용하면, 다중검정문제 발생으로 1종 오류가 증가하게 됨 ) -> 따라서, 다수 간의 평균 비교에서 ANOVA를 통해 유의한 차이를 검정 그룹은 분산을 분석하여 추론한 차이를 의미 ANOVA는 분산 기반 F 테스트를 사용하여 그룹 평균 동등성을 확인 ANOV.. [ section1 - 2 / 통계(Statistics) ] 5. 표본 평균의 오차( Standard Error of the Sample Mean ) 표본 평균의 표준 오차 ( Standard Error of the Sample Mean ) s (우측) = 표본의 표준편차 (sample standard deviation) n = 표본의 수 (sample size) 결론: 표본의 수가 더욱 많아질수록, 추측은 더 정확해지고 (평균) 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있도록 함 [ section1 - 2 / 통계(Statistics) ] 2. 통계적 가설 검정 (statistical hypothesis test) ※ 통계적 가설 검정(statistical hypothesis test) - 정의 통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미한다.[1] 간단히 가설 검정(假說檢定) 또는 가설검증(hypothesis test)이라고 부르는 경우도 많다. 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정. 모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정함. - 절차 (5가지) 유의수준의 결정, 귀무가설(H0)과 대립가설(H1) 설정 표집(sampling) 및 검정통계량의 설정 기각역의 설정 검정통계량 계산 및 영가설 확인 통계적인 의사결정 # 귀무가설(H0.. [ section1 - 2 / 통계(Statistics) ] 3. 샘플링 방법의 종류 ※ 여러가지 샘플링 방법 1. Simple Random Sampling 모집단에서 sampling을 무작위로 하는 방법 2. Systematic Sampling 모집단에서 sampling을 할 때 규칙을 가지고 추출하는 방법 ex) 1, 6, 11, 16, ... 번째의 데이터를 선택 3. Stratified Random Sampling 모집단을 미리 여러 그룹으로 나누고, 그 그룹별로 무작위 추출을 수행하는 방법 ex) 여론 조사를 위해 사람을 나이대 별로 나누고, 해당 그룹안에서 무작위 추출 4. Cluster Sampling 모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법 [ section1 - 2 / 통계(Statistics) ] 4. NumPy 난수 생성 (무작위 추출/Random 모듈) # np.random.rand() : 무작위 샘플 추출(난수 생성)을 위한 메서드 낮은 (포함)에서 높은 (제외) 까지 임의의 정수를 반환 NumPy 패키지의 random 모듈 (numpy.random)에 대해 소개합니다. random 모듈의 다양한 함수를 사용해서 특정 범위, 개수, 형태를 갖는 난수 생성에 활용할 수 있습니다. import numpy as np v = np.random.randint(0, 100, 20) pd.DataFrame(v).describe() >>> Population Parameter Statistic Estimator Standard Deviation Standard Error https://codetorial.net/numpy/random.html 참고해서 마저적기 [ section1 - 2 / 통계(Statistics) ] 1. 기술통계와 추리통계 개념정리 9/17(금), 부트캠프를 시작하면서 쫓아가고 적응하느라 정신없는 1주를 보내고, 이대로 밀리면 머릿속에 남는게 없을 것 같아서 추석연휴시작에 용기내 드디어 첫 블로그를 남긴다. [section2의 n121] * 통계학(Statistics) - 통계는 데이터를 다루는 목적에 따라 크게 두 가지(기술통계 / 추리통계)로 분류로 나눌 수 있다. 1) 기술통계 (Descriptive statistics) 수집한 데이터를 요약 묘사 설명하는 통계 기법 기술통계는 한 집단의 특성을 수리적으로 요약, 기술해주는 방법이다. 즉 얻어진 자료를 분석하여 그 자료를 구성하는 대상들의 속성만을 설명하는 통계이다. 그러므로 모집단의 속성을 유추하지 않는 특징을 지니고있다. 이 분류에 속하는 통계치는 집중경향치, 변산도, 상관.. 이전 1 다음