(논문 요약) MTEB: Massive Text Embedding Benchmark (Paper)

핵심 내용

  • Massive Text Embedding Benchmark (MTEB)
    • 8 embedding tasks
    • 58 datasets
    • 112 languages.
  • Task
    • Bitext Mining: 언어 A 의 문장들, 언어 B 의 문장들을 embed 후, cosine similarity 로 matching.
    • Classification: train, test set 의 embedding 구해놓고, train 으로 classifer 학습 후 test 성능 측정.
    • Clustering: embed 이후 레이블 개수 만큼 cluster (fixed clustering algorithm 으로 학습).
    • Pair Classification: 2개 문장이 같은 의미인지 수치로 계산.
    • Reranking: query 와의 연관성에 따라 reference documents 를 줄세움.
    • Retrieval: query 와 연관된 documents 를 찾음.
    • Semantic Textual Similarity: 2개 문장의 유사도를 수치로 계산.
    • Summarization: 사람이 쓴 paragraph 와 기계가 요약한 summary 와의 유사도 계산.
    • varying lengths
      • Sentence to sentence (S2S)
      • Paragraph to paragraph (P2P)
      • Sentence to paragraph (S2P)