본문 바로가기

머신러닝9

머신러닝/딥러닝 데이터셋 얻을 수 있는 링크 모음 * UC 얼바인 머신러닝 저장소 : 데이터셋 http://archive.ics.uci.edu/ml/index.php UCI Machine Learning Repository Welcome to the UC Irvine Machine Learning Repository! We currently maintain 471 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou archive.ics.uci.edu * 캐글 데이터 셋 : 데이터 셋 및 각종 .. 2019. 5. 7.
[모델 선택하기] 머신러닝(지도학습,비지도학습,강화학습)/딥러닝 데이터 분석을 할 때, 가장 먼저 생각해야 하는 것이 분석의 목적과 목표, 그리고 그를 위한 변수와 모델을 설정하는 것이다. 여기서 모델을 정한다는 것은 목표를 도출하기 위해 머신러닝을 할지 딥러닝을 적용할지 그리고 머신러닝을 한다면 지도학습/비지도학습/강화학습 중 어떤 방식 선택할 것인지를 고민해 봐야 한다. 목표가 같다고 해도 적용하는 방법에 따라 결과들이 다르게 나올 수 있기 때문이다. 1. 머신러닝 데이터의 양이 적고 주로 정형데이터이며, 분석 목적과 목표 도출을 위해 파생변수를 도출해야 하며다양한 파라미터를 조정하여 성능평가를 할 수 있다. 1) 지도학습 조건) 지도학습은 입력데이터(이하 'x'데이터)와 출력데이터(y, 이하 라벨)가 있다. 목표) 라벨이 없는 신규 'x'데이터에 대하여 라벨값을.. 2018. 7. 19.
[xgboost] 설치 오류 해결 및 예제 실행_좋은 참고 링크 xgboost는 성능이 좋아서 케글에서 분석 상위권인 사람들이 많이 사용한다고 한다~ 근데 내꺼에서는 바로 설치가 안되서 설치하는 방법을 따로~ 정리 이건 xgboost 뿐만 아니라 다른 설치 안되는 pip 파일도 아래와 같이 하면된다. 혹시 오픈소스 라이브러리의 업데이트로 기존 코드가 분석이 안된다면, 이전 버전의 pip 파일을 따로 보관하는 것도 방법이다.하지만 pip 파일 업데이트에 맞춰 코드 변경하는 것이 가장 좋다. 아무튼 아래의 설치 방법 따라해보기~ 파이썬 3.6 xgboost 설치하기 1. xgboost 다운로드 하기 1) https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 링크가기 2) python 3.6인 경우, 'xgboost-0.6-cp36-.. 2018. 7. 16.
[기초개념] 데이터 분석 관점에서 한줄로 정리한 '머신러닝 딥러닝 데이터 분석을 하기 위해 꼭 알아야할 기본 개념' * 데이터 웨어하우스 : 각 데이터베이스의 자료들을 시계열로 축적한 데이터 창고로 데이터 웨어하우스의 데이터 분석을 통해 의사결정에 활용함상세설명 링크 : https://blog.naver.com/vae3085/220686438394 * 데이터 마트 : 데이터 웨어하우스에서 특정 목적에 따라서 데이터를 추출한 데이터 셋상세설명 링크 : https://terms.naver.com/entry.nhn?docId=819906&cid=42344&categoryId=42344 * 메타데이터 : 데이터를 설명해주기 위해 만들어진 데이터 예를 들면 영화는 기본 이미지와 소리가 축적된 데이터이고 영화줄거리,감독정보등은 영화를 설명해주는 메타데이터상세설명 링크 : https://blog.naver.com/daae0609/.. 2018. 5. 28.
[데이터 분석-전처리] 결측치 처리하는 방법 데이터를 분석하면 가장 많은 시간을 데이터 전처리에 쏟게 된다 오늘은 결측치를 다루는 방법 예제:import pandas as pdfrom io import StringIO csv_data = '''A,B,C,D,1.,2.,3.,4.,5.,6.,,8.,0.0,11.0,12.0'''df = pd.read_csv(StringIO(csv_data), encoding='UTF-8') #StringIO 은 데이터 프레임에 넣어주기 위해 사용 print(df) # 데이터 넣을 떄 ' '공란 주의하고, Unnamed: 4가 생긴 이유는 '/n' 때문에 생김 A B C D Unnamed: 4 0 1.0 2.0 3.0 4.0 NaN1 5.0 6.0 NaN 8.0 NaN2 0.0 11.0 12.0 NaN NaN df = .. 2018. 4. 24.
[이론] 머신러닝 알고리즘 기초 (인공뉴런-퍼셉트론, 에이다라인) Comment: 비정공자의 경우 인공지능/머신러닝을 배울 떄 퍼센트론만 생각할 수 있는데, 에이다라인과 비교하여 알면 좋다 퍼셉트론 관련 내용 참조 : http://yamalab.tistory.com/36 에이다라인 학습- 로지스틱 회귀 모델이나 서포트 벡터 머신과 같은 분류모델에 관한 고급 머신러닝 알고리즘을 이해하기 위한 기초- 페셉트론과의 차이점: 비용함수를 정의하고 최소화하함=> 실수 분류 레이블임. 참고자료 http://coolingoff.tistory.com/8 2018. 4. 24.
[파이썬] 간단 명료한 Numpy와 Pandas 차이 머신러닝과 딥러닝을 할때, 구분해서 사용하면 좋음. Numpy (핵심 기능: 다차원(n-차원) 배열인 ndarray 클래스, 배열의 모든 원소는 동일한 데이터 타입이여야 함) 1. 다차원 배열 객체 2. 유니버설 함수 3. 배열을 사용한 데이터 처리 4. 배열의 파일 입력, 출력 5. 선형대수 6. 난수 생성 7. 브로드캐스팅 8. 객체 생성이기 때문에 객체 주소지만 참조함 Pandas 1. 테이블을 수정하고 조작하는 다양한 기능 제공 2. SQL처럼 테이블에 쿼리나 조인을 수행할 수 있음 3. 각 열의 타입이 달라도 됨 4. SQL, 엑셀파일, CSV 파일과 데이터베이스의 데이터를 읽어들임. 정리 Numpy: 같은 데이터타입의 다차원 배열, 난수생성 가능, 연산가능 Pandas: 다른 데이터타입을 담을.. 2018. 4. 9.
파이썬_머신러닝_딥러닝_ 많이 쓰는 라이브러리 모음_링크 * 파이썬 - python.3(영어) : https://docs.python.org/3/ * 빅데이터 관련 - 크롤링_BeautifulSoup(영어) : https://www.crummy.com/software/BeautifulSoup/bs4/doc/#- 크롤링_BeautifulSoup(한글) : https://cryptosan.github.io/pythondocuments/documents/beautifulsoup4/- 크롤링_selenium (영어) : http://selenium-python.readthedocs.io/- 데이터프레임_pandas (영어) : https://pandas.pydata.org/pandas-docs/stable/- 다차원데이터_numpy +scipy (영어) : https.. 2018. 4. 5.
[머신러닝, 인공지능] 혼자서 공부하기 좋은 사이트 목록_계속 업데이트 1. 모두를 위한 머신러닝/딥러닝 강의 : http://hunkim.github.io/ml/ => 홍콩과기대 김성훈 교수님 강좌 2. 한양대 이상화 교수님의 선형대수학 강의 : http://goo.gl/9wvZiR => 3. 앤드류 응 교수님의 머신러닝 강의 : http://goo.gl/gg9iSd => 머신러닝 기초 강좌로, 머신러닝 강좌 중에 가장 유명하고 많은 추천을 받은 강좌 4. 제프리 힌튼 교수님의 딥러닝 강의 http://goo.gl/GbC3qd => 신경망 강의 5. 신경망 첫걸음 "한빛 미디어, 2017" => 신경망 이론을 가장 쉽게 설명한 책 6. 밑바닥부터 시작하는 딥러닝 "한빛미디어, 2017" => 신경망의 기초 이론을 코드로 쉽게 익힐 수 있게함 7. 마스터 알고리즘 "비즈니스.. 2018. 4. 3.
반응형