티스토리 뷰
이번에 NAVER에서 진행하는 부스트코스 Data Science 분야에 지원해서 공부하게 되었다. 무료 강의
https://www.boostcourse.org/ds112
파이썬으로 시작하는 데이터 사이언스
부스트코스 무료 강의
www.boostcourse.org
강의 요약 및 팀미션을 진행하면서 고민해본 거리들을 정리할 예정이다.
1. 데이터 분석 환경 구성
데이터분석은 활용될 수 있는 범위가 굉장히 넓다. 공학, 의학, 교육 등 요즘 시대에서는 쓰이지 않는 곳이 없다. 이 강의는 파이썬을 기반으로 pandas 및 numpy를 활용하면서 기초적인 데이터분석을 배우는 강의이다. 이후 본인이 직접 연구하고 싶은 분야가 생기면 공공데이터 포털에서 자료를 수집해서 직접 모델 구성을 할 수도 있다.
공공데이터 포털
국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase
www.data.go.kr
아나콘다 설치로 강의가 진행된다. 아나콘다는 가상 개발 환경으로 파이썬 관련 jupyter, pandas, numpy, tensorflow 등을 사용할 수 있다.
나는 이미 딥러닝 관련 공부를 통해 미리 설치해놓아서 딱히 설치할 필요는 없었다. 설치 안하신 분들은 강의를 참고하면 좋을 것 같다. 이 강의에서는 jupyter 노트북을 활용하는데, google colab을 이용해서 강의를 수강할 수 있다.
강의에서는 주피터 사용법을 간단히 알려주고 있다.
Markdown
#을 추가할수록 markdown 크기가 작아진다. 코드와 함께 문서화할 수 있다. ''' ''' 을 이용해서 여러 줄 설명가능
Shit + Enter 키로 셀이 실행되고 다음셀로 이동
Enter 키를 누르면 다시 편집 상태
Esc 키를 누르고 a키 누르면 위에 셀 추가 / b키 누르면 아래에 셀 추가 / dd키 누르면 셀 삭제
m키를 누르면 문서 셀로 변경 / y키를 누르면 코드 셀로 변경 / h키로 더 많은 단축키 확인 가능
내가 작성한 코드가 몇 번째 줄인지 확인 : View Toggle Line Numbers 선택
RUN / 옆의 네모 로 stop 가능
Kernel로 output 지울 수 있음
Nbextensions
컨텐츠에 대한 index 쉽게 확인 가능
2. 데이터 분석 준비하기
2-1
데이터 분석에서 쓰일 파이썬 기초 유주로 설명해주셨다. 솔직히 파이썬을 제대로 한 번 배우신 후에 이 강의를 시작하는 것을 추천한다. 기본이 탄탄해야지 이후 데이터를 처리할 때 어떤 방식으로 처리해야지 효율적으로, 정확하게 할 수 있을지 파악이 잘 되기 때문이다. 강의 보면서 새롭게 remind 시키고 싶은 것들을 밑에 정리할 것이다.
- " ".join(리스트) 를 사용하면 리스트를 공백 문자열을 연결할 수 있다. 리스트로 분리된 문자열을 다시 연결할 수도 있다.
- in 으로 리스트에 해당 string이 들어 있는지 알 수 있다.
2-2
이제 pandas에 대해 알아볼 것이다.
https://pandas.pydata.org/docs/user_guide/10min.html
10 minutes to pandas — pandas 2.1.1 documentation
10 minutes to pandas This is a short introduction to pandas, geared mainly for new users. You can see more complex recipes in the Cookbook. Customarily, we import as follows: In [1]: import numpy as np In [2]: import pandas as pd Basic data structures in p
pandas.pydata.org
https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
에서 pandas 의 기본을 알 수 있다.
Jupyter 노트북으로 pandas 연습해보니 전에 했던 데이터 분석 관련 프로젝트 진행한 것이 생각나면서 복습도 되고 좋았다.추가로 pandas 관련 좋은 자료가 있으면 업데이트할 예정이다.
2-3
매우매우 중요한 경로 설정을 알려주신다.
- 절대 경로
어떠한 웹페이지나 파일이 가진 고유한 경로로 최상위 디렉토리가 포함된 경로
ex1) file:///Users/user/Downloads/
ex2) C:\user\documents
상대 경로
현재 위치한 곳을 기준으로 하는 경로
/는 root
./는 현재 위치
../는 현재 위치의 상위 폴더
../../는 두 단계 위의 상위 폴더
#실습 파일 경로 불러오기
%pwd
#또는
import os
os.getcwd()
csv 파일을 주로 이용해 데이터분석을 진행한다.
pd.read_csv("파일 이름", encoding="cp949") #한글 파일을 읽어올 때 encoding 이용
만약 다른 폴더에 들어 있다면 반드시 "data/파일이름" 와 같이 폴더를 지정해주고 파일을 불러와야 한다.
from glob import glob
file_name = glob("data/*.csv")
file_name
파일 이름이 길 경우 오타를 방지하기 위해서 위의 코드를 이용해 print된 파일 이름을 이용할 수 있다. file 여러 개일 경우 list 로 저장된다.
'대내외활동' 카테고리의 다른 글
부스트코스 < DATA SCIENCE > 코칭스터디 : 2023 수료 (0) | 2023.12.20 |
---|