Vector Embeddings

벡터의 기본 개념

벡터란?

크기와 방향을 가진 수학적 객체
n차원 공간에서 한 점을 나타내는 좌표값들의 집합
예: 2차원 벡터 [3,4], 3차원 벡터 [1,2,3]

백터 임베딩 개념과 필요성

기존 시스템의 한계

비정형 데이터 처리의 어려움: 기존 시스템은 주로 구조화된 데이터(예: 표 형식 데이터)에 최적화되어 있어, 텍스트, 이미지, 음성, 동영상 등과 같은 비정형 데이터를 효과적으로 처리하는 데 한계가 있음.
정보 추출의 어려움: 비정형 데이터는 의미가 명확하게 구조화되어 있지 않기 때문에, 필요한 정보를 추출하거나 데이터 간의 관계를 이해하는 것이 어려움.
대량의 데이터 처리: 비정형 데이터는 매우 크고 다양한 형태로 존재하므로, 이를 효율적으로 저장하고 처리하는 데 많은 시간과 리소스가 소모됨. 또한, 시간에 따라 데이터의 양이 급격하게 증가하면서 시스템의 성능이 저하될 위험이 있음.

벡터 임베딩의 장점

복잡한 데이터를 의미 있는 다차원 벡터로 변환
차원 축소와 정보 압축을 통한 효율적인 데이터 처리
효율적인 유사도 계산이 가능함
의미적 관계를 수학적 공간에서 표현
예: [0.2, 0.5, 0.3]과 같은 형태로 데이터 표현

임베딩 모델

주요 모델

Word2vec: 단어 간 관계를 벡터로 표현하는 기본 모델
BERT, GPT: 문맥을 고려한 동적 변환이 가능한 고급 모델
FastText: subword 기반으로 OOV(Out-of-Vocabulary) 문제 해결

벡터 공간에서의 특징

유사한 의미를 가진 데이터는 벡터 공간에서 가깝게 위치
벡터 간 연산을 통해 의미적 관계 파악 가능
예: King - Man + Woman = Queen과 같은 관계 표현 가능

적용시 고려사항

기술적 고려사항

임베딩 차원 선택: 너무 크면 계산 비용 증가, 너무 작으면 정보 손실
컴퓨팅 리소스: GPU, TPU 등 충분한 계산 자원 필요
데이터 품질: 정제된 고품질 데이터로 학습해야 의미 있는 벡터 생성 가능

도메인별 고려사항

특정 분야의 전문용어나 특수한 의미 반영을 위한 도메인별 학습 필요
데이터의 특성에 맞는 적절한 임베딩 모델 선택

한계

학습 데이터에 포함되지 않은 단어가 등장하면, 기존 모델은 해당 단어에 대한 적절한 벡터를 생성할 수 없어 정확한 의미를 추론하는 데 한계가 있을 수 있음

참고

https://www.pinecone.io/learn/vector-embeddings-for-developers/

Vector Embeddings for Developers: The Basics | Pinecone

You might not know it yet, but vector embeddings are everywhere. They are the building blocks of many machine learning and deep learning algorithms used by applications ranging from search to AI assistants. If you’re considering building your own applica