본문 바로가기

Python/기초

(4)
[Python 기초] 반복문 for in 구문 for 문은 우리가 전에 배웠던 리스트와 같은 시퀀스(sequence)를 이용해서 원하는 명령을 반복할 때 쓰인다. >>> family = ['mother', 'father', 'gentleman', 'sexy lady'] for 문 다음은 for 문을 이용해서 저희 가족들의 이름과 문자열 길이를 출력하는 프로그램이다. for x in family: # family의 각 항목 x에 대하여 print(x, len(x)) # x와 x의 길이를 출력하라 >>> mother 6 father 6 gentleman 9 sexy lady 9 in family for x:는 오류가 출력되므로, 문법대로 작성해야 한다. range() range는 범위라는 뜻인데 여기서는 어떤 정수를 인자로 주면 그 범위 안의 정수들을 ..
[python] DataFrame의 특정 열, 행 추출하기 ※ 특정 행 추출하기 df = df [ 숫자(이상) : 숫자(미만) ] print(df) import pandas as pd df = df[ :3]# 처음부터 ~ 3미만의 행까지 출력 df = df[1:3]# 2이상부터~ 3미만의 행까지 출력 ※ 특정 열 추출하기 (1) 열 내용만 ( 열이름 포함x ) df = df [ '자치구' , '이팝나무' ] print(df) (2) 열 전체 ( 열이름 + 열내용 ) df = df [ [ '자치구' , '이팝나무' ] ] print(df) ※ 여러조건을 적용한 행과 열 출력 ex) 행1의 값1, 값2, 값3(or : | )이고, 행2의 '부문1'에 속하고, (and : &) 행3의 소계, 총계(or : |)를 제외( != )한 값 출력하기. x =( ((df[ '..
[Python 오류해결법] Error tokenizing data Error tokenizing data. c error : expected ~~ 1. 오류의 원인 - 라인별 구분자로 분리된 단어의 개수가 다름. Pandas가 텍스트파일을 읽어서 데이터 프레임을 만들어줄때 각 라인을 구분자로 분리하였을때, 단어(빈 문자열 포함)의 개수가 같지 못한 상황에 발생하는 오류 2. 오류 확인해보기 with open(url) as df: lines = df.readlines() for line in lines[:2]: print(len(line.split('\t'))) >>> 1 1 12 (오류 내용이 알려주듯, 3번째 라인에서 단어의 개수가 12개 나옴) 3. 해결방법 구분자를 추가하여 각 라인별 구분자로 분리된 단어수를 맞춰주거나, 단어수가 맞지 않는 행을 지워주면 됨. -..
df.describe() : 데이터 요약을 위한 메서드 # df.describe() : 데이터 요약을 위한 메서드 DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False) - 기술 통계에는 NaN값을 제외 / 데이터 세트 분포의 중심 경향, 분산 및 모양을 요약하는 통계가 포함 - 숫자 및 개체 계열 DataFrame과 혼합 데이터 유형의 열 집합을 모두 분석 import pandas as pd df = pd.DataFrame({'a': [1,2,3,4,5], 'b': [2,4,6,8,10]}) df.describe() >>> Mean / Median / Mode Range Var / SD Kurtosis Skewness