본문 바로가기

전체 글184

[회귀분석] 회귀분석 모델 한 번에 돌려서 가장 좋은 성능 모델 값 뽑기 사이킷런 패키지를 바탕으로 회귀모델 한 번에 돌리기 보스턴 데이터셋 예제로 진행 1. 데이터 로드 2. 데이터 확인 3. 전처리(na 값 처리, 스케일링) 4. 회귀 모델 돌리기 5. 최종 모델 from sklearn.datasets import load_boston import pandas as pd import matplotlib.pyplot as plt import seaborn as sns # 데이터 로딩 load_data = load_boston() print(type(load_data)) print(load_data.keys()) print(load_data.DESCR) # np에서 pd로 변환하기 data = load_data['data'] df_X = pd.DataFrame(columns=.. 2020. 2. 24.
병렬코퍼스 개요(정의, 구조, 활용, 제작 프로세스, 활용 라이브러리 등) 병렬코퍼스란? - 정의 : 2개 국어 이상의 번역된 문서를 모은 말뭉치를 병렬말뭉치 혹은 병렬코퍼스라고 부름 - 구조 : 문장 == 문장 혹은 문단 == 문단 - 활용 : 언어 간의 대조 분석, 번역 연구에 활용 - 주의점 : 되도록 직역한 것 위주로 모으고, 원문과 번역문의 표시를 명확하게 하기 - 제작 프로세스 1) 소스 언어(source language)와 타깃 언어(target language) 사이의 단어 사전을 준비함 2) 준비된 단어 사전이 없다면 '3~6'의 프로세스 진행, 준비된 사전이 있다면 7의 프로세스로 진행 3) 각 언어에 대해서 코퍼스를 수집하고 정제함 4) 각 언어에 대해 단어 임베딩 5) MUSE를 통해 단어 레벨 번역기를 훈련함 6) 훈련된 단어 레벨 번역기를 통해 두 언어.. 2020. 2. 13.
[005:프로그래밍, 프로그램, 데이터] 훌륭한 프로그래머 되는 법 _ 정리 및 서평(작성중) _Part 1 you.write(code); _1장 코드에 신경 쓰기 좋은 프로그래밍 코드란? 필자는 좋은 코드에 대해 네 가지로 정리하고 있다. 첫 번째는 올바르게 작동하는 훌륭한 코드 두 번째는 의도가 드러나는 코드 세 번째는 유지 보수가 가능한 코드 네 번째는 정확한 코드 일하다보면 암호화 코드, 들여쓰기 안 된 코드 등 가독성을 떨어뜨리는 코드들이 많다 길이가 너무 길어도 좋지 않지만, 적당하게 너무 축약하지 않아도 좋은 것 같다. 그리고 무엇보다 모듈별로 나눠서 짜는 것이 향후 유지 보수 및 이해하기 좋은 것 같다. _2장 정돈된 코드 유지하기 정돈된 코드 유지하기를 보니 '코드 작성 규칙'이 있으면 사실 이런 고민을 하지 않아도 될 것 같은데, 한국은 아직 이러한 문화가 잘 성립되지 않은 거 .. 2020. 1. 28.
확률과정(stochastic process )_간단 이론 정리 1. 정의 - 확률법칙에 의해 생성되는 일련의 통계적인 현상(확률과정은 박테리아의 개체수, 주식가격 등과 같이 시간의 흐름에 따라 비결정적으로 변하는 어떤 계(system)를 각 시점에서 나타나는 수치적인 양을 확률변수로 기술하고 이 확률변수들를 시간 흐름별로 나열한 집합으로 모형화할 때 사용된다. 여기서 시간의 흐름이 이산적일 때 이산 시간 확률과정 또는 시계열(time series)이라 하고, 연속적일 때는 연속시간 확률과정) - 확률 과정(Stochastic process, Random process)은 상관 관계를 가지는 무한개의 확률 변수의 순서열(sequence of infinite random variables)을 말한다. 확률 과정에 포함된 확률 변수는 시간 변수 𝑡를 기준으로 정렬 - 시.. 2019. 8. 21.
[자연어처리] 독학을 위한 자료 모음 1. 온라인 강의 모음 https://www.edwith.org/deepnlp 에듀케이션위드 : edwith 에드위드(edwith)는 네이버(NAVER)와 커넥트재단(CONNECT)이 제공하는 온라인 강좌(MOOC : Massive Online Open Course) 교육 플랫폼입니다. 에듀케이션위드(education with) 에드위드(edwith)로 분야별 명품 강좌를 무료(Free Course)로 수강하세요. www.edwith.org 2. 자료 모음 ttps://github.com/uhmppi1/modu_nlp_tutorials/tree/master/presentation uhmppi1/modu_nlp_tutorials Modulabs NLP & Sequential Modeling - Lectur.. 2019. 8. 9.
[BERT] 자연어처리 경험 수준별로 읽기 좋은 BERT 관련 좋은 자료 링크 1. bert에 대해 알고 싶은 초보자 http://www.aitimes.kr/news/articleView.html?idxno=13117 인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가 - 인공지능신문 지난해 11월, 구글이 공개한 인공지능(AI) 언어모델 ‘BERT(이하 버트, Bidirectional Encoder Representations from Transformers)’는 일부 성능 평가에서 인간보다 더 높은 정확도를 보이며 2018년 말 현재, ... www.aitimes.kr 2. bert와 ELMO의 세부 알고리즘을 구분해서 알고 싶은 중급자 (영어 자료임) http://jalammar.github.io/illustrated-bert The Illustrated BERT, ELM.. 2019. 7. 31.
[mysql] 파이썬으로 이미지 데이터 mysql에 저장하고 읽어들여오기 1. 이미지 저장할 테이블 만들기 create table images( image_nm int auto_increment primary key, image_data blob) mysql 에서 이미지를 저장할 테이블을 간단하게 만든다. base64로 변환하여 이미지를 저장할 예정이다. base64는 이미지보다 용량이 125%로 커져서 저장된다는 단점이 있으나 안정적임. blob: 바이너리를 저장할 수 있는 공간 tinyblob 255byte blob 64KB mediumblob 16MB longblob 4G mysql 데이터 타입에 대해 잘 나와있는 블로그 https://ra2kstar.tistory.com/82 MySQL : 데이터 타입 MySQL MySQL 데이터 타입 MySQL 에서 사용하는 데이터 .. 2019. 7. 24.
[python] cuda/pytorch 설치 1. cuda는 왜 써야 할까? CUDA ("Compute Unified Device Architecture", 쿠다)는 그래픽 처리 장치(GPU)에서 수행하는 (병렬 처리) 알고리즘을 C 프로그래밍 언어를 비롯한 산업 표준 언어를 사용하여 작성할 수 있도록 하는 GPGPU 기술이다. -위키디피아 참조- 프로그래밍을 하면서 특히 분석 모델 학습시 시간을 단축하기 위해 사용할 수 있다. 나의 경우 pytorch에서 cuda 버전으로 설치하기 위해 늦게나마 설치하게 되었다. 2. cuda 설치하기 2-1. 내 컴퓨터에 그래픽카드 있는지 확인하기 cuda는 NVIDIA 에서 개발을 해서 NVIDIA의 그래픽 카드가 있어야한다. 컴퓨터에 NVIDIA GERORCE GTX가 붙어있거나 컴퓨터 사양 검색을 했을 떄.. 2019. 7. 23.
[mysql] MySQL Public Key Retrieval is not allowed ===========환경 상황 ================ window10 64bit mysql8 (standard server) DBeaver(driver8+) 설치 / 재설치 + 삭제 4번 반복 / innoDB cluster server 설치 후 삭제 / standard server로 설치 ========== 에러 상황 ================== 이전에 설치 후 삭제를 여러번 반복했을 때는 에러 없었음 innoDB server 설치 삭제 후 , 다시 standard server로 설치할 때 문제 발생함 mysql 커맨드창에서는 잘 되는데, DBeaver 연결시 문제 발생 =========== 해결방안 =================== 1. F4 키를 누름 ( connection settin.. 2019. 7. 12.
[mysql] my-013276 error / window10 ===================== 에러 내용 ======================= 2019-07-11T04:55:42.172017Z 0 [System] [MY-010116] [Server] C:\Program Files\MySQL\MySQL Server 8.0\bin\mysqld.exe (mysqld 8.0.16) starting as process 32248 2019-07-11T04:55:42.175635Z 0 [Warning] [MY-010091] [Server] Can't create test file C:\Program Files\MySQL\MySQL Server 8.0\data\DESKTOP-LFOO3OQ.lower-test 2019-07-11T04:55:42.175778Z 0 [Wa.. 2019. 7. 11.
[FULL TEXT INDEX / SEARCH] mysql 구축 및 DBeaver 연동, 에러 해결 및 테이블 생성 후 테스트 1. mysql 다운로드 받기 https://dev.mysql.com/downloads/installer/ MySQL :: Download MySQL Installer Download MySQL Installer Please report any bugs or inconsistencies you observe to our Bugs Database. Thank you for your support! dev.mysql.com 1) 다운로드 클릭 후 설치 'mysql-installer-web-community-8.0.16.0.msi' 다운로드 하면 간편하게 설치할 수 있음 2) 기본정보 설정 PORT 번호 : 기본값은 3306 ROOT PASSWORD / 사용자 추가 및 비밀번호 기입 * 설치 참고 블로그 =>.. 2019. 7. 10.
Sonlp 설치 및 실행 - 간단 프로세스 * 환경 ================= OS : window 10 64bit 개발언어 : python 3.7 python 빌드 되어 커맨드 창에서 pip install 실행 가능 ================= 1. 커맨드창 실행 2. pip install soynlp 3. 설치 확인 from soynlp.tokenizer import LTokenizer scores = {'형태소':0.9, '분석기':0.9, '성능':0.8, '확인':0.5} tokenizer = LTokenizer(scores=scores) sentence = '형태소 분석기별로 성능이 어떻게 되는지 확인을 하고 있는 중입니다' ex1 = tokenizer.tokenize(sentence, flatten=False) print(e.. 2019. 5. 23.
반응형