본문 바로가기

전체 글187

멀티모달 python 라이브러리/패키지 소개 1. AutoGluon 구분 특징 1 [패키지 활용 목적] 정형데이터(table), 비정형데이터(text, image)에 대한 autoML 패키지 2 [인프라] cpu, gpu, amazon에서 활용 가능(Sage Maker) 3 [예측 모듈] 테이블데이터 예측, 멀티모달 예측, 이미지 예측, 이미지의 객체 검출, 텍스트 예측, 시계열 데이터 예측 4 [멀티모달 관련 예측] 서로 다른 언어 번역기, 제로-샷 이미지 분류기 등 https://auto.gluon.ai/stable/index.html AutoGluon: AutoML for Text, Image, and Tabular Data — AutoGluon Documentation 0.5.2 documentation auto.gluon.ai 2022. 10. 13.
트랜스퍼 러닝 트랜스퍼 러닝 정의 : 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법 장점 : 기존보다 모델의 학습 속도가 빨라지고 새로운 태스크를 더 잘 수행하는 경향 존재 업스트림 태스크 대규모 말뭉치의 문맥을 이해하는 과제, 다음 단어 맞히기, 빈칸 채우기 등 언어모델 : 다음 단어 맞추기 마스크 언어 모델 : 중간에(빈칸) 단어 맞추기 예시 : BERT 다운스트림 태스크 자연어처리의 구체적인 문제들, 문서 분류, 개체명 인식 파인튜닝 : 프리트레인을 마친 모델을 다운스트림 태스크에 맞도록 모델 전체를 업데이트하는 기법, 다운스트림 태스트 데이터 전체 사용, 모델 전체 업데이트 프롬프트 튜닝 : 다운스트림 태스크 데이터 전체 사용, 모델 일부만 업데이트 인컨텍스트 러닝 : 다운스트림 태스트 데이터.. 2022. 10. 5.
토큰화란? 토큰화 정의 : 토큰화란 문장을 토큰 시퀀스로 나누는 과정임 단어 단위 토큰화 종류 : 단어(어절) 단위로 토큰화/공백 문자로 토큰화 장점 : 단어 단위의 뜻을 갖고 있음 단점 : 어휘 집합(vocabulary)의 크기가 매우 커질 수 있음 / 미등록 토큰 문제 발생 문자 단위 토큰화 종류 : 문자 하나씩 나눠서 토큰화 장점 : 어휘 집합(vocabulary)의 크기가 단어 단위보다 상대적으로 작음 / 미등록 토큰 처리 가능 단점 : 단어의 뜻이 없어짐 / 분석된 토큰 시퀀스가 길어짐 서브워드 단위 토큰화(단어와 문자 단위 토큰화의 중간 단계) 종류 : BPE(바이트 페어 인코딩) 장점 : 어휘 집합의 크기가 너무 커지지 않음 / 미등록 토큰 처리 가능 / 분석된 토큰 시퀀스가 너무 길지 않음 절차 1단.. 2022. 10. 5.
[개요 정리] 멀티모달(Multi modal) 정의, 멀티모달이란? * 카네기 멜론의 멀티모달 강의를 듣고 작성한 Note입니다. Multimodal이란? 1. 수학적 관점 : 멀티 모드, 확률 밀도 함수 (Probability density function)에서 극값(local maxima)이 최고점에 다다른 모델 2. 감각 관점: 3V(Verbal / Vocal / Visual) - Verbal : Lexicon(Words) / Syntax(Part-of-speech, Dependencies) / Pragmatics 화용론(Discourse acts, 담론 행위) - Vocal : Prosody 운율(Intonatioin, Voice quality) / Vocal expressions(Laughter, moans) - Visual : gestures, body lan.. 2022. 10. 5.
[이론 정리] 분산 시스템, 병렬 시스템, 하둡, 맵리듀스 분산 시스템과 병렬 시스템 분산 시스템 * 네트워크상에 분산되어 있는 컴퓨터를 단일 시스템인 것처럼 구동하는 기술 * 분산 시스템에 속한 각 노드는 독립된 시스템임 * 독립 컴퓨터의 집합으로 만들었으나 마치 단일 시스템인 것처럼 수행되어야 함 병렬 시스템 * 문제 해결을 위한 CPU 등의 자원을 데이터 버스나 지역 통신 시스템 등으로 연결하여 구동하는 기술 * 분할된 작업을 동시에 처리하여 계산 속도를 빠르게 함 분산 병렬 컴퓨팅 다수의 독립된 컴퓨팅 자원을 네트워크상에 연결하여 이를 제어하는 미들웨어(Middle ware)를 이용해 하나의 시스템으로 동작하게 하는 기술임 고려가 필요한 문제 설 명 전체 작업의 배분 문제 * 전체 작업을 잘 쪼개어 여러 개의 작은 작업으로 나눠야 함 각 프로세서에서 계산.. 2022. 9. 18.
[이론 정리] 옵티마이저 간단하게 보기, 정의 & 방식 / 인덱스 옵티마이저(optimizer)란? 실행 계획에 의한 정해진 우선순위 또는 통계 정보를 이용하여 select 문의 질의 성능이 최적화될 수 있도록 실행 계획을 수립하는 데이터베이스 시스템 요소 옵티마이저 방식 구분 RBO CBO 개념 사전에 정의된 규칙 기반 계획 최소 비용 계산, 실행 계획 수립 기준 실행 우선순위 액세스 비용 성능 사용자의 SQL 작성 숙련도 옵티마이저 예측 성능 특징 실행 계획의 예측이 용이함 저장된 통계 정보의 활용 고려 사항 저효율, 사용자의 규칙 이해도 예측 복잡, 비용 산출 공식 정확성 인덱스란? 데이터를 찾기 위한 '색인'으로 데이터의 주소록이라고 할 수 있음 데이터를 빠르고 효율적으로 조회하기 위해 사용하는 것으로, 데이터베이스 시스템에 의해 자동으로 생성되기도 하고 사용자.. 2022. 9. 18.
[이론 정리] 뷰, 가상테이블을 사용하는 이유와 특징, 종류 뷰(View)란? 테이블과 유사하지만 실제 데이터가 없는 테이블을 바라보는 매개체이자 '거울'과 같은 개념, 가상 테이블 뷰를 사용하는 이유 - 사용자의 편의와 데이터베이스의 보안 =>원본 테이블에 직접 접근하지 않아도 사용자가 임의의 뷰를 구성하여 별도의 이름을 붙이거나 접근 가능한 사람을 지정할 수 있음 뷰의 특징 * 테이블처럼 내용을 보여줄 수 있음 * 자주 쓰거나 복잡한 SQL 문의 결과를 미리 만들어 놓을 수 있음 * 여러 테이블을 조인하여 하나의 뷰로 생성할 수 있음 * 사용자별로 접근 구너한을 다르게 할 수 있음 * 각기 다른 데이터베이스 시스템에서 각각의 데이터를 전달해야 하는 경우에도 유용함 뷰의 종류 종류 설명 비고 심플 뷰(simple view) 하나의 테이블에서 데이터 생성 crea.. 2022. 9. 18.
[이론 정리] 트랜잭션의 특징, 상태 제어, 동시성 제어 트랜잭션이란? - 데이터베이스의 DML, 즉 삽입, 갱신, 삭제와 관련된 논리적인 작업을 의미함 - 트랜잭션은 DML 실행과 동시성 제어를 위한 중요한 개념임 - 데이터베이스의 데이터 무결성이 보장되는 상태에서 DML 작업을 완수하기 위한 기본 작업 단위임 - 일반적으로 DML 실행과 실행에 대한 커밋/롤백 단계까지를 트랜잭션이라고 부르지만, 실무에서는 데이터베이스에서 select 문으로 데이터를 조회하고 DML을 실행하여 종료하는 과정까지를 트랜잭션이라고 부름 트랜잭션의 특징 개 념 내 용 원자성(Atomicity) 트랜잭션의 처리가 완전히 끝나지 않았을 경우에는 전혀 이루어지지 않은 것과 같아야 함 일관성(Consistency) 트랜잭션의 실행이 성공적으로 완료되면 데이터베이스는 모순 없이 일관성이 .. 2022. 9. 17.
[개념 구분] delete, truncate, drop 구분해서 사용하기 명령어 구분 기능 delete DML 데이터만 삭제 truncate DDL 테이블 구조만 남기고 데이터, 인덱스, 테이블 공간 삭제(기억 공간 해제) drop DDL 테이블을 포함하여 전체 삭제 데이터, 인텍스, 테이블 공간, 테이블 삭제 2022. 9. 17.
[이론 정리] 데이터 무결성 데이터 무결성이란? 데이터는 사용자의 목적에 맞게 입력되고 저장되어야 하며 규칙을 위배하지 않아야 함 따라서 데이터베이스 시스템은 데이터에 접근하거나 데이터를 처리할 때마다 부적절한 데이터가 입력되는지 검사하여 데이터에 결점이 없도록 유지해야 함 이를 지키기 위한 기본 규칙을 데이터 무결성이라고 함 데이터 무결성의 종류 유형 내용 개체 무결성 (entity integrity) 기본키(PK)로 선택된 열은 고유해야 하며 null 값을 가질 수 없음 참조 무결성 (refrence integrity) 기본 키와 외래 키의 관계 외래 키가 있는 테이블의 경우에는 기본 키와 외래 키 간의 고나계가 항상 유지됨을 보장함 참조하는 외래 키가 존재하면 행은 삭제될 수 없고 기본 키도 변경될 수 있음 영역 무결성 (do.. 2022. 9. 17.
빅데이터 처리기술 1) 빅데이터 처리과정과 요소기술 순서 처리 과정 요소기술 1 생성 * DB나 파일 관리 시스템과 같은 내부 데이터 * 인터넷으로 연결된 외부로부터 생성된 파일이나 데이터 2 수집 * 크롤링 : 데이터 원천으로부터 데이터를 검색하여 수집 / 무수히 많은 컴퓨터에 분산 저장된 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술 * ETL : 소스 데이터로부터 추출, 변환, 적재 / 다양한 원천 데이터를취합해 추출하고 공통된 형식으로 변환 * 로그 수집기 : 웹 서버나 시스템의 로그 수집 * 센서 네트워크 : 유비쿼터스 컴퓨팅 구형을 위한 초경량 저전력의 많은 센서들로 구성된 유무선 네트워크 * Open API 3 저장 * 병렬 DBMS * 하둡 * NoSQL(Not only SQL) - 모델을 단순화 -.. 2022. 9. 16.
빅데이터 플랫폼 개념 정리 빅데이터 플랫폼 등장 배경 * 정의 : 빅데이터 수집부터 저장, 처리, 분석 등 전 과정을 통합적으로 제공하여 그 기술들을 잘 사용할 수 있도록 준비된 환경을 의미함 * 등장배경 1) 비즈니스 요구사항 변화 - 빠른 의사결정보다 장기적이고 전략적인 접근 필요 - 초저가의 대규모 프로세싱과 클라우드 컴퓨팅 기반의 분석 환경 등장 2) 데이터 규모와 처리 복잡도 증가 - 분산 처리 필요 3) 데이터 구조의 변화와 신속성 요구 - 비정형 데이터의 비중과 실시간 처리에 대한 요구 높아짐 4) 데이터 분석 유연성 증대 - 통계 이외의 분석이 가능해졌으며, 기술 발전으로 비정형 데이터에 대한 분석 이 가능해짐 빅데이터 플랫폼의 기능 빅데이터를 처리하는 과정에서 발생하는 여러 부하를 해소함 1) 컴퓨팅 부하 발생 -.. 2022. 9. 13.
반응형