본문 바로가기

데이터11

빅데이터 플랫폼 개념 정리 빅데이터 플랫폼 등장 배경 * 정의 : 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경을 의미함 * 등장배경 1) 비즈니스 요구사항 변화 - 빠른 의사결정보다 장기적이고 전략적인 접근 필요 - 초저가의 대규모 프로세싱과 클라우드 컴퓨팅 기반의 분석 환경 등장 2) 데이터 규모와 처리 복잡도 증가 - 분산 처리 필요 3) 데이터 구조의 변화와 신속성 요구 - 비정형 데이터의 비중과 실시간 처리에 대한 요구 높아짐 4) 데이터 분석 유연성 증대 - 통계 이외의 분석이 가능해졌으며, 기술 발전으로 비정형 데이터에 대한 분석 이 가능해짐 빅데이터 플랫폼의 기능 빅데이터를 처리하는 과정에서 발생하는 여러 부하를 해소함 1) 컴퓨팅 부하 발생 -.. 2022. 9. 13.
데이터 구분 - 정량적/정성적 데이터, 정형/반정형 데이터 1. 데이터의 유형별 구분하기 정량적(Quantitative) 데이터란? 주로 숫자로 이루어진 데이터 정성적(Qualitative) 데이터란? 문자와 같은 텍스트로 구성되어 함축적 의미를 갖고 있는 데이터 구분 정량적 데이터 정성적 데이터 유형 정형데이터, 반정형 데이터 비정형 데이터 특징 여러 요소의 결합으로 의미 부여 객체 하나가 함축된 의미 내포 관점 주로 객관적 내용 주로 주관적 내용 구성 수치나 기호 등 문자나 언어 등 형태 데이터베이스, 스프레드시트 등 웹로그, 텍스트 파일 등 위치 DBMS, 로컬 시스템 등 내부 웹사이트, 모바일 플랫폼 등 외부 분석 통계 분석 시 용이 통계 분석 시 어려움 * 정형(Structured) 데이터 : 정해진 형식과 구조에 맞게 저장되도록 구성된 데이터, 연산이.. 2022. 9. 6.
[스낵수학] 맞꼭지각, 수선, 수선의 발 개념 맞꼭지각(vertically opposite angles)이란? 점 O에서 만나는 두 직선에 의해 만들어지는 4개의 각 중에서, 꼭짓점과 두 변을 공유하며 서로 마주보고 있는 각 교각 : 두 직선이 한 점에서 만나서 생기는 네 개의 각 ➡ ∠a, ∠b, ∠c, ∠d 맞꼭지각 : 교각 중 서로 마주 보는 두 각 ➡ ∠a와 ∠c, ∠b와 ∠d 맞꼭지각의 성질 https://cleancode-ws.tistory.com/150 [스낵수학] 각(Angle) 개념과 종류, 심화 각이란? 한 점(O)에서 그은 2개의 반직선(OA와 OB)에 의하여 이루어지는 도형 각의 표현 방법 : ∠AOB, ∠BOA, ∠O, ∠a [심화] 공간도형에서는 직선과 평면, 평면과 평면이 만나 각을 이룰 수 있다. 직 cleancode-w.. 2021. 7. 18.
[스낵수학] 점, 선, 면 "도형의 기본 요소 알기" 개념 깊게 파고들기 점이란? 어떤 공간에서 위치만을 나타내는 0차원의 도형이다 따라서 한 점은 길이, 넓이, 부피가 모두 0이다. 선이란? 서로 다른 두 점 A, B를 지나는 직선이다. 점이 움직인 자리이다. 선은 위치와 방향성을 갖고 있으며, 일반적으로 1차원이다. (예외, 페아노 곡선, 힐베르트 곡선 처럼 공간을 채우는 곡선도 있다.) * 참고 * [유클리드의 원론 1권] 정의2 : 선은 길이가 있고 폭이 없는 것이다. [유클리드의 원론 2권] 정의3 : 선의 양끝은 점이다. 선의 종류는? 직선, 반직선, 선분, 곡선 등이 있다. 직선이란? 서로 다른 두 점 A, B를 지나는 선(참고: 선대칭의 직선) 반직선이란? 점 A에서 시작하여 점 B의 방향으로 곧게 뻗은 직선의 일부분 선분이란? 직선 AB에서 점 A에서 점 B까.. 2021. 7. 17.
머신러닝/딥러닝 데이터셋 얻을 수 있는 링크 모음 * UC 얼바인 머신러닝 저장소 : 데이터셋 http://archive.ics.uci.edu/ml/index.php UCI Machine Learning Repository Welcome to the UC Irvine Machine Learning Repository! We currently maintain 471 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. For a general overview of the Repository, please visit ou archive.ics.uci.edu * 캐글 데이터 셋 : 데이터 셋 및 각종 .. 2019. 5. 7.
[mssql] Excel, csv 파일 쉽게 넣기_발생 가능한 오류도 정리 데이터 분석하는 경우에는 파이썬으로 전처리를 하는 것도 좋지만 시간이 오래걸린다.그래서 데이터 베이스에 넣어서 데이터 전처리를 하는 것이 편한 것 같다.일반적인 변수 선택, 파생변수 생성해서 저장하는 것도 파이썬 pandas를 사용하는 것보다는 sql에서 직접하는 것이 효율적인것 같다. 그렇다면 우선 데이터를 넣고 분석하는 방법을 숙지하자!! 예시는 mssql 1. 선행과정 mssql에 데이터를 넣기 위해서는 1) 내 컴퓨터에 서버가 있거나 혹은 2) 다른 사람과 공유하는 서버에 데이터베이스와 테이블 생성, 데이터 업로드의 권한을 갖고 있어야 한다. 나의 경우에는 이미 내 컴퓨터에 서버를 만들어 놓아서 해당 서버에 데이터를 넣을 예정이다. 2. 파일 변경 mssql에서는 csv 파일을 넣는 것을 지원하지.. 2018. 6. 29.
[sql] mssql 데이터 삽입 방법 모음 1. 플랫파일(txt, 텍스트 파일 삽입) mssql management tool 활용 - 데이터 베이스에 접속 > 데이터베이스 우클릭 > 새 데이터베이스 만들기 - 데이터베이스 이름 (이름 작성) > 확인하기 - 데이터베이스 생성 완료- 생성한 데이터 베이스 우클릭 > 태스크 > 플랫파일 가져오기 - 입력할 파일 루트 지정 및 이름 설정 - 데이터 미리보기 (깨진 글씨 등등 확인하기) - 데이터 타입 설정 - 오류 발생 가능성 -> 데이터 타입에 맞지 않는 데이터가 들어간 경우 => 타입 일치후 다시 실행 -> 한 번 실패한 경우 이미 테이블이 만들어져서 안 들어가는 경우 => 테이블 삭제 후 다시 실행 2. 플랫파일(txt, 텍스트 파일 삽입) 쿼리_bulk insert use table1create.. 2018. 5. 23.
[데이터 분석] 의미있는 피처(컬럼) 선택 데이터의 피처(컬럼)이 많다고 해서 예측이 잘 되는 것은 아니다. y = ax + b 일 때, x값으로 y를 예측한다고 가정하면 a라는 가중치를 찾아내어 향후 X의 값이 들어오면 y를 예측할 수 있다. 하지만 y = aX1 + bX2 + cX3 + dX4 ..... + z 라고 할 때, x변수가 많다고 해서 y를 잘 예측하는 것도 아니다. 따라서 y를 예측하는데 필요한 x를 뽑는 것도 중요하다. 예를 들면 여름에 아이스크림 판매량(y)를 예측하는데 여름의 기온(x1), 아이스크림의 가격(x2), 겨울의 기온(x3)이 있다면, x3이 y를 예측하는데 영향력이 적을 것이다. 하지만 X3를 y값을 예측하기 위한 데이터에 포함하거나 비포함할 때의 차이는 클 수 있다. * 과대적합(overfitting)을 줄이고.. 2018. 5. 17.
[데이터 분석-전처리] 범주형 데이터_원핫인코딩 쉽게하기 범주형 데이터는 숫자의 차이가 의미가 없기 때문에 원핫인코딩/더미화 하여 데이터 처리를 해줘야 한다. 즉, 색상이 1. 빨강2. 노랑3. 파랑 인 경우를 본다면, 1,2,3의 순서나 크기가 데이터 분석에 영향을 줄 수 있기 때문이다. 따라서 빨강인이 아닌지에 대한 여부로 변수를 변경해야 한다. 이렇게 되면 색상 컬럼/변수 하나가 3개의 컬럼으로 증가하여 빨강인지 아닌지, 노랑인지 아닌지, 파랑인지 아닌지로 변경하게 된다. 이런 데이터 변경을 쉽게 해주는 코드들은 아래와 같다. 1. 기본 데이터 셋 만들기 import pandas as pddf = pd.DataFrame([['green', 'M', '10.1', 'class1'], ['red', 'L', '13.5', 'class2'], ['blue', .. 2018. 5. 17.
[데이터 분석-전처리] 범주형 데이터 범주형 데이터는 명목형, 순위형으로 나뉨- 명목형: 어떤 순서도 의미하지 않음 (예: 빨강, 노랑, 파랑)- 순위형: 순위를 매길 수 있음, (예: XL > L > M ) 예제: ''''''''' 범주형 데이터 다루기 '''''''''# 데이터 만들기import pandas as pddf = pd.DataFrame([['green', 'M', '10.1', 'class1'], ['red', 'L', '13.5', 'class2'], ['blue', 'XL', '15.3', 'class1']])df.columns = ['color', 'size', 'price', 'classlabel']print(df) color size price classlabel0 green M 10.1 class11 red L 1.. 2018. 4. 24.
[데이터 분석-전처리] 결측치 처리하는 방법 데이터를 분석하면 가장 많은 시간을 데이터 전처리에 쏟게 된다 오늘은 결측치를 다루는 방법 예제:import pandas as pdfrom io import StringIO csv_data = '''A,B,C,D,1.,2.,3.,4.,5.,6.,,8.,0.0,11.0,12.0'''df = pd.read_csv(StringIO(csv_data), encoding='UTF-8') #StringIO 은 데이터 프레임에 넣어주기 위해 사용 print(df) # 데이터 넣을 떄 ' '공란 주의하고, Unnamed: 4가 생긴 이유는 '/n' 때문에 생김 A B C D Unnamed: 4 0 1.0 2.0 3.0 4.0 NaN1 5.0 6.0 NaN 8.0 NaN2 0.0 11.0 12.0 NaN NaN df = .. 2018. 4. 24.
반응형