openai의 embedding함수들이 한국어 문서를 찾는 경우는 생각보다 성능이 좋지 않더군요.
동일한 데이터를 한국어와 영어로 작성하고 embedding 한 후 질문과 유사한 데이터를 찾는 경우 영어의 경우 적합한 데이터를 잘 찾는 반면 한국어는 잘 찾지 못합니다.
예를 들어
["사과", "바나나", "오이", "옥수수", "레몬", "시금치", "배추"]를 text-embedding-3-small로 embedding 한 후 과일로 cosine_similarity하면
data embedding similarities
2 오이 [0.014422500506043434, 0.006744286976754665, -... 0.245654
3 옥수수 [0.009392851032316685, -0.017094384878873825, ... 0.218755
1 바나나 [0.0120021877810359, -0.013919435441493988, -0... 0.204618
["Apple", "Banana", "Cucumber", "Corn", "Lemon", "Spinach", "Cabbage"]를 같은 방법으로 embedding 한 후 "fruit" 하면
data embedding similarities
0 Apple [0.00916969496756792, -0.035185299813747406, -... 0.470044
4 Lemon [0.01624680683016777, -0.02477296069264412, -0... 0.445748
1 Banana [0.021113915368914604, -0.043196991086006165, ... 0.428947
한국어 기반의 RAG에 적합한 embedding 함수를 추천해주세요