전체 글102 pandas value_counts() 사용법 Introduction 판다스에서 사용하는 value_counts() 메소드에 대해서 연습, 정리! 넘파이가 아니라 판다스에서 쓰는 메소드라는 것을 첫번째로 기억! 유용하므로 value_counts를 쓰기 위해 numpy -> pandas 변환을 하는경우가 왕왕 생긴다. 간단하므로 본론만 짧게짧게! value_counts() 정의 우선 value_counts()는 고유값의 개수를 카운팅해주는 메소드로서, 판다스의 시리즈와 데이터프레임에서 모두 사용 가능하다. 리턴값 가장 많은 빈도수부터, 즉 내림차순으로 정렬되어있으며 리턴값은 '시리즈'다. NA값은 기본적으로 제외한다. 설정 인자 오름차순으로 정렬하려면 ascending=True 설정 NA값을 집계에 포함시키려면 dropna=True 정렬하지 않으려면 .. PL/Python 2022. 12. 9. 데이터셋 분리: Validation (검증) 데이터셋은 무엇인가? 포스팅 목적 아무런 생각없이 K-fold를 사용하고 있었는데, 문득 validation dataset이 무엇인지 모른다는것을 인지했다. 누가 물어보면 대답을 못하는 상황이었다. 그래서 간단하게 정리.. 너무 짧아서 글이랄 것도 없지만 그래도 정리하는데 의의를 두고..! 데이터셋 구성 일반적으로 학습하기 위한 용도의 training dataset (훈련 데이터셋), 검증하는 validation dataset (검증 데이터셋), 성능평가하는 test dataset (시험 데이터셋) 세가지로 나눈다. 검증이란게 정확히 뭐냐 그럼? Validation set training dataset에서 학습한 모델의 하이퍼 파라미터를 튜닝하기 위한 용도의 데이터셋이다. (하이퍼파라미터: 사용자가 설정해야 하는 변수) 즉 .. PL/Python 2022. 12. 8. IMAP / POP3 이해와 차이점 장단점 정리 포스팅 목적 매번 메일 설정할때 보였던 IMAP과 POP3가 뭔지 모르겠어서 짧은 시간을 내어 간단하게 정리. 본론 이메일 프로토콜 IMAP과 POP3, 얘들은 이메일 프로토콜들이다. 즉 핸드폰이나 데스크탑같은 디바이스들에서 메일을 보기 위해 메일서버와 통신하는 통신 규약이다. POP3 Post Office Protocol의 약자다. IMAP보다 훨씬 간단한 프로토콜이다. 팝쓰리는 오직 메일서버에서 이메일을 다운로드해서 디바이스에 저장하는 것 뿐이다. 심지어 여러 메일함에서 메일을 다운로드하는 것도 아니고, Inbox 메일함(받은메일함) 하나에서만 다운로드한다. 예약, 삭제, 보낸메일함 등의 메일은 디바이스에 다운로드하지 않는다. 또한 각 디바이스들의 싱크도 맞추지 않는다. pop3는 이메일이 디바이스로.. IT정보 2022. 12. 8. pandas groupby cumcount 사용법 이해 포스팅 목적 간단하게 cumcount의 사용법과 용례를 알아본다 정의 그룹 내 각 아이템들의 갯수를 센다. 0부터 세기 시작한다. 예제코드 데이터셋 df = pd.DataFrame([['a'], ['a'], ['a'], ['b'], ['b'], ['a']], columns=['A']) print(df) a가 4개, b가 2개 있는 간단한 데이터프레임이다. 사용법/용례 df_cc = df.groupby('A').cumcount() print(df_cc) cumcount는 계산 대상이 되는 칼럼에 groupby로 묶은 후 적용한다. df_cc라는 이름의 변수를 만들어 칼럼 A에 대해 groupby와 cumcount를 적용했다. 0부터 시작하여 숫자를 센다. 아래와 같이 내림차순을 적용할 수도 있다. PL/Python 2022. 12. 6. 목에 담 걸렸을때, 목을 삐어서 움직이기 힘들 때 대처법과 치료법 포스팅 목적 최근에 목을 심하게 부상당해 1주일 넘게 고생한 적이 있다. 재발방지를 위해 자료조사를 열심히 했고, 공유하기 위해 글로 남긴다. 다치는 이유와 이론적 이해 사건 경위 필자는 평소 대부분의 시간을 컴퓨터와 핸드폰을 보며 지낸다. 어렸을 때부터 컴퓨터와 친했기에 굳어진 거북목이 심했다. 이에 거북목을 교정하고자 의도적으로 취침 시 베개를 베지 않고 잤다. 단순한 생각으로, 잘 때 평평한 곳에서 자면 튀어나온 경추가 다시 제자리를 찾을 것이라 생각했다. 그렇게 담에 걸렸고 고개를 움직이지 못하게 되었다. 인체의 이해 우리의 척추는 S자 모양이다. 요추는 전만되어있고, 흉추는 후만, 경추는 전만 되어있는 상태가 가장 좋다. 다시 말해, 허리는 앞으로 볼록, 등은 뒤로 볼록, 목은 앞으로 볼록 상태.. 건강정보 2022. 12. 2. [코드 스터디] UCI-HAR 데이터셋2: 중복칼럼 리네이밍 포스팅 목적 지난번 포스트에서는 UCI-HAR 데이터셋에서 중복피쳐가 무엇인지 확인하고, 데이터값까지 중복인지 알아보는 코드를 작성했다. 이번 포스트에서는 UCI-HAR 데이터셋의 중복된 칼럼이름을 리네이밍하는 코드를 작성하자. 2022.10.28 - [PL/Python] - 코드 스터디: UCI-HAR 데이터셋 중복칼럼 리네이밍 (1) 코드 스터디: UCI-HAR 데이터셋 중복칼럼 리네이밍 (1) 포스팅 목적 코드를 작성하는 연습을 하고, 어떤 코드를 썼는지 기록하는 포스팅. 특정 상황에서 문제를 해결하기 위해 어떤 코드를 작성했는지 정리하자. 문제상황 UCI-HAR 데이터셋에서 피쳐이 tbr74.tistory.com 중복칼럼 리네이밍 아이디어 features.txt를 읽은 features_df는 (5.. PL/Python 2022. 11. 23. 멎지 않는 코피, 알레르기비염, 코 속건조 대처법 포스팅 목적 최근에 외상에 의해 코속 혈관이 터져 코피가 난 적이 있었다. 지혈도 안됐었고, 출혈량이 꽤 많아서 119를 불러 응급실에 가게 되었다. 아는 게 힘이더라, 부모님은 계속 고개를 뒤로 젖히라고 하시고..(이러면 안됨) 코속건강을 어떻게 관리해야 하는지 정리해보자 코피가 났을 때 첫째, 당황하지 말자 가장 처음으로 패닉에 빠지지 않는 게 중요하다. 많은 피를 보고 당황하게 되면, 혈압이 오르고 체온이 오르게된다. (체온이 오르면 요즘같은 코로나 시국에 응급실 출입도 못하게된다ㅠ) 코피 과다출혈로 죽는 경우는 흔하지 않다. 아무리 피를 많이 흘려도, 우리가 가지고 있는 혈액량에 비하면 크지 않을 수 있다. 따라서 침착하고, 천천히 상황파악을 하는 것이 중요하다. 둘째, 지혈의 기본 지혈의 기본은.. 건강정보 2022. 11. 3. 데이터프레임의 인덱스 중복과 loc 프로퍼티 포스팅 목적 데이터프레임에서 .loc[]의 사용에 대해 한번 점검하려고 포스팅! 본론 예제코드 Animal칼럼, 최대스피드 칼럼을 가진 데이터프레임을 아래와 같이 만들었다. import pandas as pd df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'], 'Max Speed': [380, 370, 24, 26]}, index=[4,4,5,'긹']) df .loc[ ]는 인덱스로 '행'을 조회하는 프로퍼티 dataframe loc를 검색하면 'label'을 이용해 행과 열 데이터에 접근하는 프로퍼티라 한다. 이때 loc[ _ ] 에 들어가는 레이블은 인덱스를 의미한다. 인덱스는 0, 1, 2, ... 이렇게 나가는 intege.. PL/Python 2022. 11. 2. 2022.11 휴대폰에 넣을 Micro SD카드 삼성 제품 정리 포스팅 목적 핸드폰 저장공간이 부족해서 MicroSD 사려고 하는데 제품정보가 잘 없어서 정리ㅠ 다른건 모르겠고 삼성라인만 간단하게 포스팅 배경지식 기본적으로 알아야 하는 제품 스펙에 관한 내용들이다 V10, V30 비디오 스피드 클래스를 나타낸다. V30이 더 좋은거. UHS 버스 인터페이스 제품에 실시간 비디오 녹화를 지원하는 속도를 의미한다. V10은 10MB/s, V30은 30MB/s 고속 비디오 전송 속도를 의미한다 A1, A2 응용프로그램 퍼포먼스 클래스를 의미한다. 단위는 IOPS를 쓰며 초당 입/출력작업, Input/Output Operations Per Second를 의미한다. A1규격은 최소 읽기 1500 IOPS와 쓰기 500IOPS, A2규격은 최소 읽기 4000 IOPS와 쓰기 2.. IT정보 2022. 11. 1. pandas Dataframe, Series 차이점 정리 (데이터프레임, 시리즈) 포스팅 목적 열심히 공부하던 찰나, 가장 기본이 되는 데이터프레임과 시리즈가 무엇이고 무슨 차이가 있는지 확실하게 설명하기 어렵다는 생각이 들었다. 역시 기초가 제일 중요하다.. 시리즈와 데이터프레임 차이점을 위주로 코드 스터디를 해보자! 첫번째: 기본적인 차이점 가장 근본적인 차이는 칼럼갯수에 있다. 시리즈는 칼럼이 1개, 데이터프레임은 1개 이상이다. import pandas as pd # 간단하게 길이 4짜리 리스트를 만들었다 ldata = [1,2,3,4] # 시리즈 ser = pd.Series(ldata) print('[시리즈의 경우]') print(ser) print('shape:', ser.shape, '\n') # 데이터프레임 df = pd.DataFrame(ldata) print('[데이.. PL/Python 2022. 10. 31. 데이터프레임에서 for loop을 사용하는 다양한 방법 포스팅 목적 데이터프레임을 for문으로 다루는데, 생각한대로 잘 안된다. 아주 기본적인 내용인데, 이런것도 모르는 난 바본가..? 공부해보자! 예제 데이터셋 단순한 데이터프레임을 꾸렸다. 요기서 어떻게 순차적으로 데이터를 꺼내는지 실습해보자. import pandas as pd df = pd.DataFrame([['김가영', 'Korea', 162], ['이상호', 'Korea', 175], ['David', 'America', 180], ['변기태', 'Korea', 173]], columns = ['name', 'country', 'height'], index = [1,2,3,4]) df 인덱스값을 의도적으로 [1,2,3,4]로 주어 데이터를 한 행씩 꺼낼 때 인덱스가 유지되는지를 확인하고자 하였다... PL/Python 2022. 10. 28. [코드 스터디] UCI-HAR 데이터셋1: 중복칼럼 확인 포스팅 목적 코드를 작성하는 연습을 하고, 어떤 코드를 썼는지 기록하는 포스팅. 특정 상황에서 문제를 해결하기 위해 어떤 코드를 작성했는지 정리하자. 문제상황 UCI-HAR 데이터셋에서 피쳐이름이 중복되어 duplicate name error가 생기는 경우가 있다. 1) 중복되는 피쳐가 무엇인지 확인하고, 2) 중복되는 피쳐이름을 리네이밍하자. 코드가 길어져 포스트 두개에 나누어 작성한다. 데이터셋 데이터 설명 UCI Human Activity Recognition Dataset을 사용한다. https://archive.ics.uci.edu/ml/datasets/human+activity+recognition+using+smartphones UCI Machine Learning Repository: Hu.. PL/Python 2022. 10. 28. 이전 1 2 3 4 5 ··· 9 다음