본문 바로가기

전체 글

(28)

[ section1 - 2 / 통계(Statistics) ] 10 - (1) 베이지안 통계 개론 (Bayesian Inference) 베이지안은, 여태까지 접했던 통계적 내용과는 사뭇 다른 접근을 필요하다. 이 베이지안의 방식의 아름다운 점은, 내용도 매우 간단하지만, 다양한 분야에 적용이 가능하다는 것이다. ※ 베이즈 정리를 이해를 돕기위한 관점의 변화 - '확률'에 대한 관점의 변화가 필요 - 전통적 관점 : 빈도주의 (frequentism) - 새로운 관점 : 베이지안 주의 (Bayesianism) '확률'을 '주장에 대한 신뢰도'로 해석하는 관점 ex) 동전의 앞면이 나올 확률이 50%다 - 빈도주의 : 100번 동전을 던졌을 때, 50번은 앞면이 나온다. - 베이지안 주의 : 동전의 앞면이 나왔다는 주장의 신뢰도가 50%이다. ※ 베이지안의 핵심 유도과정 아래는 베이지안의 핵심공식과 유도과정이다: Since Therefore ..

[Python] Pandas DataFrame 행,열 삭제 ※ 행 삭제 drop() axis가 '0' 이라면 행 삭제, '1' 이라면 열 삭제 입니다. (default : 0) # index가 0인 행만 삭제 df = df.drop(index=0, axis=0) # index가 0,1,2,3인 행 삭제 df = df.drop(index=[0, 1, 2, 3], axis=0) 조건문 사용 # 열 값이 1234이 아닌 행(index)만 저장 df = df[df['col'] != 1234] ※ 열 삭제 drop() # 'col1', 'col2' 열 삭제 df = df.drop(columns=['col1', 'col2'], axis=1)

[ section1 - 2 / 통계(Statistics) ] 7. ANOVA Test이란 ※ ANOVA Test(ANalysis Of VAriance; 분산 분석)이란 분산분석(ANOVA; 변량 분석)은 3개 이상 다수의 집단을 비교할 때 사용하는 가설검정법 = 여러 그룹간의 평균의 차이가 통계적으로 유의미 한지를 판단하기 위한 시험법 ANOVA와 T-Test의 차이점 - ANOVA Test : 3개 이상의 그룹의 평균을 비교하는 데 사용 - T - Test : 2개의 그룹을 비교하는 데 사용 ( 다수 집단 비교에서 t-test를 여러번 사용하면, 다중검정문제 발생으로 1종 오류가 증가하게 됨 ) -> 따라서, 다수 간의 평균 비교에서 ANOVA를 통해 유의한 차이를 검정 그룹은 분산을 분석하여 추론한 차이를 의미 ANOVA는 분산 기반 F 테스트를 사용하여 그룹 평균 동등성을 확인 ANOV..

[Pandas] DataFrame의 문자열 칼럼을 숫자형으로 변환 : pd.to_numeric / DataFrame.astype() / replace (1) replace를 적용한 함수 정의(def) (2) pd.to_numeric() 함수를 이용한 문자열 칼럼의 숫자형 변환 (3) astype() 메소드를 이용한 문자열 칼럼의 숫자형 변환 (1) replace를 적용한 함수 정의(def) (1-1) 기호가 포함되어있는 문자열 숫자형으로 변환하는 함수 정의 # 23,500 형태의 문자 숫자로 변환하기 def toint(string): return int(string.replace(',', '')) # 자료형 변환 함수 설정 String - > int df['열이름'] = df['열이름'].apply(toint) # Value 속 자료가 string 인걸 확인해서 ',' 를 지우고 int로 바꿔주는 함수 대입 df.dtypes (2) pd.to_nume..

[python] DataFrame의 특정 열, 행 추출하기 ※ 특정 행 추출하기 df = df [ 숫자(이상) : 숫자(미만) ] print(df) import pandas as pd df = df[ :3]# 처음부터 ~ 3미만의 행까지 출력 df = df[1:3]# 2이상부터~ 3미만의 행까지 출력 ※ 특정 열 추출하기 (1) 열 내용만 ( 열이름 포함x ) df = df [ '자치구' , '이팝나무' ] print(df) (2) 열 전체 ( 열이름 + 열내용 ) df = df [ [ '자치구' , '이팝나무' ] ] print(df) ※ 여러조건을 적용한 행과 열 출력 ex) 행1의 값1, 값2, 값3(or : | )이고, 행2의 '부문1'에 속하고, (and : &) 행3의 소계, 총계(or : |)를 제외( != )한 값 출력하기. x =( ((df[ '..

[Python 오류해결법] Error tokenizing data Error tokenizing data. c error : expected ~~ 1. 오류의 원인 - 라인별 구분자로 분리된 단어의 개수가 다름. Pandas가 텍스트파일을 읽어서 데이터 프레임을 만들어줄때 각 라인을 구분자로 분리하였을때, 단어(빈 문자열 포함)의 개수가 같지 못한 상황에 발생하는 오류 2. 오류 확인해보기 with open(url) as df: lines = df.readlines() for line in lines[:2]: print(len(line.split('\t'))) >>> 1 1 12 (오류 내용이 알려주듯, 3번째 라인에서 단어의 개수가 12개 나옴) 3. 해결방법 구분자를 추가하여 각 라인별 구분자로 분리된 단어수를 맞춰주거나, 단어수가 맞지 않는 행을 지워주면 됨. -..

[ section1 - 2 / 통계(Statistics) ] 5. 표본 평균의 오차( Standard Error of the Sample Mean ) 표본 평균의 표준 오차 ( Standard Error of the Sample Mean ) s (우측) = 표본의 표준편차 (sample standard deviation) n = 표본의 수 (sample size) 결론: 표본의 수가 더욱 많아질수록, 추측은 더 정확해지고 (평균) 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있도록 함

[ section1 - 2 / 통계(Statistics) ] 2. 통계적 가설 검정 (statistical hypothesis test) ※ 통계적 가설 검정(statistical hypothesis test) - 정의 통계적 추론의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미한다.[1] 간단히 가설 검정(假說檢定) 또는 가설검증(hypothesis test)이라고 부르는 경우도 많다. 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정. 모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정함. - 절차 (5가지) 유의수준의 결정, 귀무가설(H0)과 대립가설(H1) 설정 표집(sampling) 및 검정통계량의 설정 기각역의 설정 검정통계량 계산 및 영가설 확인 통계적인 의사결정 # 귀무가설(H0..

이전 1 2 3 4 다음

티스토리툴바