한국어에 적합한 embedding 함수를 추천해주세요

openai의 embedding함수들이 한국어 문서를 찾는 경우는 생각보다 성능이 좋지 않더군요.

동일한 데이터를 한국어와 영어로 작성하고 embedding 한 후 질문과 유사한 데이터를 찾는 경우 영어의 경우 적합한 데이터를 잘 찾는 반면 한국어는 잘 찾지 못합니다.

예를 들어

["사과", "바나나", "오이", "옥수수", "레몬", "시금치", "배추"]를 text-embedding-3-small로 embedding 한 후 과일로 cosine_similarity하면 

data	embedding	similarities
2	오이	[0.014422500506043434, 0.006744286976754665, -...	0.245654
3	옥수수	[0.009392851032316685, -0.017094384878873825, ...	0.218755
1	바나나	[0.0120021877810359, -0.013919435441493988, -0...	0.204618

["Apple", "Banana", "Cucumber", "Corn", "Lemon", "Spinach", "Cabbage"]를 같은 방법으로 embedding 한 후 "fruit" 하면

data	embedding	similarities
0	Apple	[0.00916969496756792, -0.035185299813747406, -...	0.470044
4	Lemon	[0.01624680683016777, -0.02477296069264412, -0...	0.445748
1	Banana	[0.021113915368914604, -0.043196991086006165, ...	0.428947

한국어 기반의 RAG에 적합한 embedding 함수를 추천해주세요

1
2개의 답글

👀 답변을 기다리고 있어요!

🙌 새로운 멤버들을 맞아주세요!