전체 글103 데이터프레임에서 for loop을 사용하는 다양한 방법 포스팅 목적 데이터프레임을 for문으로 다루는데, 생각한대로 잘 안된다. 아주 기본적인 내용인데, 이런것도 모르는 난 바본가..? 공부해보자! 예제 데이터셋 단순한 데이터프레임을 꾸렸다. 요기서 어떻게 순차적으로 데이터를 꺼내는지 실습해보자. import pandas as pd df = pd.DataFrame([['김가영', 'Korea', 162], ['이상호', 'Korea', 175], ['David', 'America', 180], ['변기태', 'Korea', 173]], columns = ['name', 'country', 'height'], index = [1,2,3,4]) df 인덱스값을 의도적으로 [1,2,3,4]로 주어 데이터를 한 행씩 꺼낼 때 인덱스가 유지되는지를 확인하고자 하였다... CS/Python 2022. 10. 28. [코드 스터디] UCI-HAR 데이터셋1: 중복칼럼 확인 포스팅 목적 코드를 작성하는 연습을 하고, 어떤 코드를 썼는지 기록하는 포스팅. 특정 상황에서 문제를 해결하기 위해 어떤 코드를 작성했는지 정리하자. 문제상황 UCI-HAR 데이터셋에서 피쳐이름이 중복되어 duplicate name error가 생기는 경우가 있다. 1) 중복되는 피쳐가 무엇인지 확인하고, 2) 중복되는 피쳐이름을 리네이밍하자. 코드가 길어져 포스트 두개에 나누어 작성한다. 데이터셋 데이터 설명 UCI Human Activity Recognition Dataset을 사용한다. https://archive.ics.uci.edu/ml/datasets/human+activity+recognition+using+smartphones UCI Machine Learning Repository: Hu.. CS/Python 2022. 10. 28. pandas.DataFrame.apply 함수 기본 사용법 포스팅 목적 데이터프레임에 apply 함수가 있는걸 처음 보았고 어떻게 사용하는것인지 공부하기 위해 포스팅! apply 함수를 알아보자 함수설명 데이터프레임의 축을 따라서 함수를 적용한다. 이 포스팅에서는 데이터프레임 apply를 알아보지만, 시리즈에도 똑같은 apply 함수가 있다. (pandas.Series.apply) Universal function np.sqrt 함수와 같이 1개에 적용되는 유니버셜 함수는 전체 데이터에 적용된다. Reducing function np.sum 과 같이 열이나 축 단위로 적용되는 함수들은 계산할 axis를 정해주어야 한다. lambda식 적용 람다식도 apply함수에 넣어주면 된다 아래 예제코드는 key 칼럼에 apple, korea, banana, melon이 있.. CS/Python 2022. 10. 27. pandas.DataFrame.groupby 기본 사용법 포스팅 목적 왜 이렇게 코드분석이 안될까, 코드작성이 안될까 생각했는데 내가 groupby함수를 제대로 이해하고 사용하지 못하는 데 원인이 있는 것 같았다. 특히 cumcount() 사용에 있어서 헷갈렸는데, 이부분 좀 더 익숙하게 체화시키기 위해 정리해보자. groupby 공부하기 첫번째, 그룹바이 객체 특정 칼럼으로 그룹바이를 호출하면, 그룹바이 객체를 반환한다는 사실. 이 사실을 인지하고 있는것과 모르는것은 큰 차이가 있다. df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'], 'Max Speed': [380, 370, 24, 26]}) print(df, '\n') gb_animal = df.groupby('Animal') p.. CS/Python 2022. 10. 27. Pandas merge함수 사용법 기초 포스팅 목적 pandas 라이브러리의 merge함수 사용법을 공부해보자 merge함수 두 데이터프레임을 병합하는 함수. 두개의 함수가 있다는걸 유의해야 한다. pandas.DataFrame.merge()가 있고, pandas.merge()가 있다. 전자의 경우 인자로 병합대상이 되는 데이터프레임을 1개 넣어주지만 후자 pandas.merge()의 경우 병합대상 데이터프레임을 2개 써주어야한다. 함수원형 pd.merge(df_left, df_right, on=None, how="inner") 파라미터 how는 어떤 병합방식을 택할것인지를 넣어준다. 기본적으로 SQL의 inner join 방식이 사용된다. 파라미터 on은 어떤 칼럼을 기준으로 merge할 것인지를 써준다. 만약 df_left와 df_righ.. CS/Python 2022. 10. 26. numpy.r_ 연산자 사용법 포스팅 목적 넘파이 사용중 c_와 r_ 연산자를 접하게 되었다. 무슨 의미인지 무슨 기능을 가졌는지 전혀 연상도 안되고... c_ 연산자는 r_에 기반하였다고하니 일단 r_부터 알아보자. * 주의할 점: 함수가 아니라 연산자! ( )가 아니라 [ ]를 쓴다. numpy.r_ 함수 정의 "첫번째 축을 따라서 slice object를 concatenation으로 변환한다." 사용법 세 가지 사용례가 있다. 첫번째, 대괄호에 comma-seperated 배열이 들어오는 경우 단순히 인자로 들어온 배열을 이어붙이면 된다. 두번째, 대괄호에 slice notation이 들어오는 경우 보통의 경우 np.arange(start, stop, step)으로 쓰이고, 만약 세번째 인덱스 부분에 j가 들어가면 np.lins.. CS/Python 2022. 10. 21. 바른 호흡은 건강의 첫단추, 횡격막 호흡법 포스팅 목적 현대사회의 수많은 스트레스상황, 긴장상황 속에서 우리는 점점 더 호흡이 얕아진다. 어긋나버린 호흡습관을 되돌리기 위해, 횡격막 호흡법의 중요성과 운동방법에 대해서 알아보자. 횡격막호흡이란? 횡격막은 폐 아래에 넓적하게 위치한 판막을 말한다. 이 횡격막은 특이하게도, 우리가 의식해 움직일 수 있는 수의근이면서 잠을 잘 때도 쉼없이 호흡하기위해 자동적으로 움직이는 불수의근이기도 한다. 그만큼 우리 몸에서 중요한 부분이 아닐까? (정확한 사전적 정의는 모르겠음ㅎ) 스트레스상황 우리는 긴장상태에서 쉽게 호흡이 얕아진다. 스트레스는 우리 몸을 긴장상태로 만들고 fight-or-flight 반응을 위한 준비를 한다. 이 과정에 호흡은 얕아지고, 반복된다면 호흡 패턴이 바뀌는 결과를 초래하게된다. 횡격막.. 건강정보 2022. 10. 21. 찬물샤워의 진짜 효능 활력 넘치는 사람들의 'Life hack' 우리 모두 매일아침 샤워를 한다. 매일 하는 샤워 도중에, 삶의 질을 획기적으로 향상시킬 수 있는 방법이 있다면? 실천하겠는가? 아니면 그냥저냥 살겠는가? 비법은 바로 찬물샤워 아침 샤워할 때 찬물로 마무리 샤워하는 것이다! 처음부터 찬물로 샤워하는 것이 아니라, 따뜻한 물로 샤워를 모두 끝내고 나가기 전 가장 찬 물로 온도를 바꿔 마무리 샤워하는 것이다. 몸과 정신에 활력이 차오르는 것을 경험할 수 있다. 건강상 이점 Geert A Buijze 박사의 2016년 논문에 따르면, 3000명을 30일동안 그룹별 실험을 한 결과 따뜻한 물로 씻다가 마지막에 찬물로 마무리한 그룹의 경우 대조군에 비해 병가 사용횟수가 29% 줄었음을 확인했다. 원인과 기전이 아직 현대.. 건강정보 2022. 10. 21. 피쳐 중요도 feature_importances_ 포스팅 목적 결정트리 Decision Tree Classifier와 결정트리를 기반으로 앙상블 학습하는 Random Forest에서 확인할 수 있는 피쳐 중요도에 대해 정리해보는 시간. 다른 학습기들에서도 똑같이 사용할 수 있는지는 아직 모르겠다. feature_importances_ 프로퍼티에 대해 간단히 알아보자. 피쳐 중요도 이 프로퍼티 feature_importances_는 결정트리에서 노드를 분기할때, 해당 피쳐가 클래스를 나누는데 얼마나 영향을 미쳤는지를 표기하는 척도이다. 노말라이즈된 ndarray를 반환하기 때문에 0~1값을 가진다. 0이면 클래스를 구분하는데 해당 피쳐가 선택되지 않았다는것, 1이면 해당 피쳐가 클래스를 완벽하게 나누었다는것을 의미한다 실습1: iris basic 우선 i.. CS/Python 2022. 10. 18. [seaborn] barplot 기초 포스팅 목적 matplotlib만 썼는데.. 갑자기 seaborn이 등장했다. 무엇인지 간단하게만 알아보자. Seaborn? seaborn을 쓰는 이유 matplotlib의 확장판으로 이해하면 된다. 더 간결하고, 시각적으로 더 이쁘다. 아래 간단한 barplot 예제에서 코드가 얼마나 가벼워지는지 확인하자 예제코드 붓꽃 데이터를 불러와 seaborn의 barplot에 그대로 넣어보는 만행을 저질러보겠다. import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_iris # 붓꽃 데이터를 df에 넣는 과정 iris = load_iris() df = pd.DataFrame(iris.data, columns=ir.. CS/Python 2022. 10. 18. 데이터분석: 카디널리티 (Cardinality) 포스팅 목적 데이터분석에서 심심찮게 등장하는 카디널리티가 무엇인지 간단하게 개념 정리. Cardinality? 사전적 정의 카디널리티 자체의 의미는 쉽지만, 잊어버리기 쉬우므로 cardinal이라는 단어의 뜻부터 알아보자 cardinal number 기수. 우리가 일반적으로 쓰는 1, 2, 3, ... 의 숫자를 의미한다. 반댓말은 서수, ordinal number. 5th, 22nd 등을 뜻한다. 데이터분석에서 cardinality 카디널리티는 데이터집합의 유니크한 원소 개수를 뜻한다. 예를들어, 성별은 원소의 종류가 '남', '여' 두 가지이므로 cardinality가 2이다. 반면에, 주민번호의 경우 모든 원소가 유니크하므로 high-cardinality라 말할 수 있다. 맺음말 간단하쥬? CS/Python 2022. 10. 18. graphviz 설치 및 기본 사용법 개요 포스팅 목적 결정트리나 네트워크 등을 시각화해주는 라이브러리 graphviz에 대해 간단하게 알아본다. 이로 만들어진 그래프를 dot graph라 하며, dot language를 이용하여 그래프를 나타낼 수 있다. 자세히 쓸 일은 아직 없어서, 기본적인 설치방법과 실행법만 포스팅한다. 설치방법 1. graphviz 실행파일을 설치한다 홈페이지에 들어가 자신의 운영체제에 맞는 EXE installer를 다운받는다. 웬만한 경우에 윈도우는 64-bit을 받으면 된다. 2. 래퍼모듈 설치 설치한 graphviz를 컨트롤하는 wrapper 모듈을 설치해야한다. 커맨드창에서는 pip install graphviz, 아나콘다에서는 conda install python-graphviz 를 입력해 설치한다 3. OS .. CS/Python 2022. 10. 18. 이전 1 2 3 4 5 6 ··· 9 다음