更高效的RAG文本檢索和排序: 多語言GTE系列模型開源

黃爸爸好 2024-08-16 發(fā)布于上海

展開全文

檢索增強(qiáng)生成（Retrieval-Augmented Generation, 簡稱RAG）正日益成為大模型應(yīng)用中的熱門范式。這種創(chuàng)新方法將檢索與生成相結(jié)合，使得大模型在提供回答時(shí)，能夠充分借助外部知識(shí)庫的支撐，從而獲得更為準(zhǔn)確且豐富的內(nèi)容。這不僅有效地減輕了大模型常見的誤解和數(shù)據(jù)隱私問題，也提升了實(shí)時(shí)響應(yīng)的能力。在RAG實(shí)施過程中，文本表示模型（Embedding model）和排序模型（Reranker model）是至關(guān)重要的兩大模塊。兩者的目標(biāo)一致，皆為檢索與用戶問題相關(guān)的文檔，但在實(shí)現(xiàn)方法上卻有所不同：文本表示模型首先計(jì)算每段文本的向量表示，然后通過余弦距離等方法計(jì)算它們之間的相關(guān)性分?jǐn)?shù)。因此，所有文檔的向量表示可以在離線階段提前計(jì)算，在線上只需處理用戶查詢的向量，通過高效的向量搜索引擎迅速獲取相關(guān)候選文檔。而排序模型則直接將文本對(duì)作為輸入，通過更精細(xì)的計(jì)算方法輸出它們的相關(guān)性分?jǐn)?shù)，實(shí)現(xiàn)更準(zhǔn)確的排序效果。需要注意的是，排序模型的計(jì)算復(fù)雜度較高，因此主要適用于小規(guī)模的候選集合。隨著RAG技術(shù)的不斷發(fā)展，系統(tǒng)的功能也在日益增強(qiáng)。早期的系統(tǒng)主要關(guān)注向量召回，而如今更復(fù)雜的模塊被逐步引入，進(jìn)一步提升了RAG系統(tǒng)的整體效果。同時(shí)，隨著應(yīng)用場景的拓展以及大模型處理上下文長度的能力增強(qiáng)，對(duì)多語言檢索、跨語言檢索以及長文本處理的需求也愈加迫切。此前，通義實(shí)驗(yàn)室推出了GTE（General Text Embedding）系列文本向量模型，涵蓋了基于BERT架構(gòu)的模型及基于Qwen LLM系列訓(xùn)練的LLM embedding模型，如gte-Qwen2-1.5B-instruct與gte-Qwen2-7B-instruct。目前，基于雙向注意力的Encoder-only結(jié)構(gòu)的模型在同一規(guī)模下相較于Decoder-only模型在召回和排序效果上明顯更優(yōu)。然而，當(dāng)前基于Encoder-only的Embedding和Ranking模型仍面臨一些來自BERT時(shí)代的遺留問題，例如最長上下文長度僅為512，以及預(yù)訓(xùn)練階段使用的語料明顯不足。為解決這些問題，GTE模型開發(fā)團(tuán)隊(duì)從零開始訓(xùn)練了一種能支持長上下文和多語言的Encoder-only基礎(chǔ)模型，并在此基礎(chǔ)上推出了最新版本的GTE-MultiLingual系列模型（簡稱mGTE模型）。該系列模型具備以下顯著特點(diǎn)：

高性能：在多個(gè)數(shù)據(jù)集上與同規(guī)模開源模型的對(duì)比中，對(duì)比效果領(lǐng)先。
長文檔支持：Embedding和Reranker均可處理8k token文本長度，且支持通過ntk-rope等方法擴(kuò)展到更長的上下文。
多語言支持：模型支持75種語言，涵蓋當(dāng)前主要大模型所支持的所有語種。
彈性向量表示（Elastic Embedding）：模型支持輸出128-768維度之間的任意向量表示，以便在性能和存儲(chǔ)成本之間取得最佳平衡。在128維的情況下，與768維相比，召回性能損失小于2%，同時(shí)節(jié)省6倍的存儲(chǔ)空間。
稀疏向量表示（Sparse Embedding）：模型可以輸出句子中每個(gè)單詞的詞權(quán)重作為稀疏表示，適用于需要精確匹配的場景。

模型構(gòu)建

mGTE系列模型構(gòu)建流程如圖2所示，首先，訓(xùn)練了支持長下文的多語言Encoder-only底座模型GTE-base-multilinguish。并在底座基礎(chǔ)上繼續(xù)訓(xùn)練文本表示模型gte-multilingual-base和排序模型gte-multilingual-base

圖2 模型訓(xùn)練過程示意圖

底座預(yù)訓(xùn)練

模型結(jié)構(gòu)

為了提升模型多語言以及長文本領(lǐng)域相關(guān)的能力，該系列模型參考了目前Decode-Only架構(gòu)大語言模型訓(xùn)練過程中一些常見的技巧，對(duì)原始的BERT架構(gòu)做了以下幾點(diǎn)改動(dòng)，具體模型結(jié)構(gòu)如圖3所示

位置編碼: 將BERT模型中采用的絕對(duì)位置embedding方式改為了旋轉(zhuǎn)位置編碼RoPE [1]，以便能更好的支持長上下文的訓(xùn)練，同時(shí)保持上下文長度擴(kuò)展的可能性。
激活函數(shù): 將BERT模型中線性層（FFN）部分改為了GLU（gated linear unit，[2]），這也是在LLM訓(xùn)練過程中已經(jīng)經(jīng)過充分驗(yàn)證能有效提升模型訓(xùn)練穩(wěn)定性的技巧。

此外，為了滿足多語言和長文本處理能力的需求，模型使用了XLM-Roberta[3]系列的詞表。

圖3 GTE底座模型結(jié)構(gòu)示意圖

訓(xùn)練數(shù)據(jù)

底座模型的訓(xùn)練數(shù)據(jù)來網(wǎng)絡(luò)上公開的多多言語料數(shù)據(jù)，包括C4，Skypile，mC4，CuleturaX，Wikipedia，books等。訓(xùn)練過程中，通過對(duì)數(shù)據(jù)進(jìn)行過濾，清洗，采樣等操作，最終得到了1028B的Token（基于XLM-R tokenizer）作為最終的訓(xùn)練數(shù)據(jù)。其中主要語言的比例如下圖所示（占比小于1%的合并為 others），各語言的數(shù)據(jù)量可以參考mGTE論文[16]中的附錄。

訓(xùn)練過程

與傳統(tǒng)的Encoder-only模型訓(xùn)練方法一樣，預(yù)訓(xùn)練階段mGTE使用MLM（Masked Language Prediction）作為預(yù)訓(xùn)練階段的loss。在此基礎(chǔ)上，該模型做出了以下優(yōu)化提升模型訓(xùn)練的效率：

數(shù)據(jù)采樣：訓(xùn)練過程中，為保證每個(gè)Batch內(nèi)的數(shù)據(jù)均來自同一種語言，每次訓(xùn)練過程會(huì)從所有語言中根據(jù)概率采樣某種語言的數(shù)據(jù)，具體每一種語言的采樣的概率計(jì)算方法如下：

其中n代表的是該語言的數(shù)據(jù)量，

多階段預(yù)訓(xùn)練：為提高訓(xùn)練效率，首先將數(shù)據(jù)截?cái)酁?k長度進(jìn)行訓(xùn)練，之后在此基礎(chǔ)上將數(shù)據(jù)截?cái)嗟?k進(jìn)行繼續(xù)訓(xùn)練，并將RoPE的base參數(shù)由10000設(shè)置為160,000
Unpaddding Model：訓(xùn)練過程中，由于并不是所有的文檔都都是統(tǒng)一的長度，mGTE利用了unpadding技術(shù)來避免在計(jì)算過程中對(duì)padding部分的token進(jìn)行計(jì)算，通過這一技術(shù)可以有效的提升訓(xùn)練效率，目前常見的flash-attention與xformers庫中均支持該操作

預(yù)訓(xùn)練階段，模型均使用BF16精度進(jìn)行訓(xùn)練

底座模型效果評(píng)測

為了驗(yàn)證預(yù)訓(xùn)練底座模型的效果，mGTE-mlm在多語言評(píng)測榜單XTREAM[4]（共包含50種不同的語言）和英文GLUE[5]數(shù)據(jù)上對(duì)比了2K階段與8K階段訓(xùn)練模型與之前Encoder-only架構(gòu)的同尺寸多語言模型的效果，可以看到在絕大多數(shù)任務(wù)上mGTE-mlm都相較于過去的模型有更好的效果。表1 XTREME-R多語言數(shù)據(jù)評(píng)估表2 英文GLUE數(shù)據(jù)集評(píng)估

Embedding模型

目前基于Encoder-only架構(gòu)的文本表征模型基本上都采用雙階段訓(xùn)練的范式(弱監(jiān)督訓(xùn)練與監(jiān)督訓(xùn)練)[6]，以提升模型的泛化性和效果。

弱監(jiān)督訓(xùn)練

在弱監(jiān)督訓(xùn)練階段，mGTE-embedding利用從網(wǎng)絡(luò)上爬取的大規(guī)模文本對(duì)數(shù)據(jù)集，例如網(wǎng)頁的標(biāo)題與正文、QA論壇中的問題與答案等，這些數(shù)據(jù)無需人工標(biāo)注，相對(duì)容易獲取，但質(zhì)量可能較低。這一階段通過對(duì)比學(xué)習(xí)方法進(jìn)行訓(xùn)練，使模型具備基本的嵌入表示能力。經(jīng)過數(shù)據(jù)清理和整理，共收集約28億多語言弱監(jiān)督數(shù)據(jù)。在該階段中，mGTE使用了主流的對(duì)比學(xué)習(xí)方法進(jìn)行模型訓(xùn)練。

監(jiān)督訓(xùn)練

監(jiān)督訓(xùn)練階段，mGTE使用了經(jīng)過人工標(biāo)注的高質(zhì)量文本對(duì)數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練，以提升模型的文本表示能力。其中，中文監(jiān)督數(shù)據(jù)包含Dureader，Simcluse，Multi-CPR等在內(nèi)的6個(gè)數(shù)據(jù)集，共計(jì)200萬標(biāo)注數(shù)據(jù)，英文監(jiān)督數(shù)據(jù)集使用了包括Msmarco，Nq，NLI等在內(nèi)的7個(gè)數(shù)據(jù)集，共計(jì)140萬數(shù)據(jù)。此外還包括MLDR，MIRACL，Mr.TyDi三個(gè)多語言數(shù)據(jù)集：共計(jì)12萬數(shù)據(jù)，具體的數(shù)據(jù)集情況請(qǐng)參考論文附錄部分。在監(jiān)督訓(xùn)練階段，除了基礎(chǔ)的連續(xù)向量對(duì)比學(xué)習(xí)損失，mGTE引入了兩個(gè)額外的表征特性:

彈性維度表示：彈性維度表示模型可以輸出不同維度的向量表示，以平衡在索引存儲(chǔ)和模型效果之間的Trade Off。目前許多方法開源與閉源模型均通過MRL學(xué)習(xí)[7]支持該特性。模型可以輸出不同維度的向量表示，從而在索引存儲(chǔ)和模型效果之間找到平衡。在模型訓(xùn)練過程中，令D代表一個(gè)整數(shù)列表，并分別取模型最終向量表示的前k維度（k屬于D）進(jìn)行標(biāo)準(zhǔn)化并計(jì)算對(duì)比學(xué)習(xí)損失。最終，這部分的損失是各個(gè)維度對(duì)比損失的平均值。
Sparse向量表示：與連續(xù)向量(Dense)表示方法不同，Sparse表示是指通過深度模型計(jì)算文本中每個(gè)單詞的詞權(quán)重，通過兩段文本之間相互匹配的詞的權(quán)重乘積的和作為兩段文本的相似度，可以認(rèn)為是傳統(tǒng)BM25等檢索方式的一種擴(kuò)展。相比于Dense表示，Sparse表示在需要精準(zhǔn)匹配（如型號(hào)名，品牌名，年份匹配等）場景，以及長上下文檢索場景往往有更強(qiáng)的性能。訓(xùn)練過程中，mGTE在每個(gè)位置token最后一層的輸出增加了一層線性層（使用Relu作為激活函數(shù)）得到文本的Sparse表示，并使用對(duì)比學(xué)習(xí)損失作為Sparse向量表示的損失函數(shù)。

因此, 模型最終的訓(xùn)練損失函數(shù)為MRL部分損失函數(shù)與Sparse部分損失函數(shù)的加權(quán)和:在訓(xùn)練過程中，該模型采用使用了兩個(gè)額外的策略來保障模型性能與訓(xùn)練效率：

Hard Negatives構(gòu)造：之前的研究工作表明對(duì)比學(xué)習(xí)的效果高度依賴于負(fù)樣本的數(shù)量和質(zhì)量[8]?；诖?，mGTE首先利用在弱監(jiān)督階段訓(xùn)練得到的模型，從每個(gè)查詢（query）中挖掘出難負(fù)樣本（排序靠前的負(fù)樣本）。此外，mGTE還將同一個(gè)批次（batch）內(nèi)其他查詢的文檔（包括相關(guān)文檔和不相關(guān)文檔）用作負(fù)樣本，從而擴(kuò)大負(fù)樣本的數(shù)量和多樣性。為了進(jìn)一步保證負(fù)樣本的質(zhì)量，以確保每個(gè)Batch內(nèi)的數(shù)據(jù)都來自同一數(shù)據(jù)集。
動(dòng)態(tài)Batch大小：為了提高長上下文的檢索能力并最大化訓(xùn)練效率，mGTE采用了動(dòng)態(tài) Batch 大小的策略。首先，根據(jù)每個(gè)文檔的長度對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分組，并針對(duì)不同長度的數(shù)據(jù)使用不同的batch size。在訓(xùn)練過程中，首先將一個(gè)Batch切分為多個(gè)子Batch（sub-batch）。通過Gradient-checkpoint方法，可以依次計(jì)算每個(gè)子Batch的Embedding，并通過合并所有子Batch的表示得到完整Batch的Embedding。該方法可以使Batch size增加2到5倍，顯著提升訓(xùn)練效率。

Embedding與Ranking的訓(xùn)練過程都是基于FP16精度進(jìn)行的，使用了DeepSpeed zero0與Gradient checkpoint來節(jié)省內(nèi)存。

效果評(píng)測

檢索效果評(píng)測

為了評(píng)測文本表征模型的檢索效果，尤其是模型的多語言和長文本處理能力，mGTE模型主要在以下幾個(gè)數(shù)據(jù)集進(jìn)行評(píng)測

MLDR[9]: 多語言長文檔檢索評(píng)測集, 包括13個(gè)語種數(shù)據(jù)
MIRACL[10]: 多語言檢索評(píng)測集合,包含18個(gè)語種數(shù)據(jù)
MKQA[11]: 跨語言檢索評(píng)測集，包含25個(gè)不同的語種
BEIR[12]: 英文多領(lǐng)域檢索評(píng)測集合
LoCo[13]：英文長文檔檢索評(píng)測集合

表3展示了在這5個(gè)數(shù)據(jù)集上mGTE模型和同規(guī)模模型的效果對(duì)比:

受益于原生的長文本底座訓(xùn)練，mGTE表征模型在長文本檢索效果上明顯優(yōu)于其它模型
在短文本檢索場景, mGTE對(duì)比同規(guī)模的模型效果大幅度領(lǐng)先，對(duì)比更大規(guī)模的模型效果也很接近
Sparse向量檢索效果在大部分場景優(yōu)于BM25，特別在長文檔場景對(duì)比現(xiàn)有Dense向量檢索有明顯效果優(yōu)勢

表3 檢索數(shù)據(jù)集效果對(duì)比

多任務(wù)文本表征效果評(píng)測

MTEB[14]是一個(gè)涵蓋多任務(wù)文本表示的通用評(píng)測數(shù)據(jù)集，英語、法語和波蘭語這四種不同語言上對(duì)mGTE模型與其他模型的性能進(jìn)行了對(duì)比。類似于檢索任務(wù)，mGTE模型在與開源社區(qū)中同規(guī)模的Encoder-only系列模型進(jìn)行比較時(shí)表現(xiàn)出非常好的效果。當(dāng)然，與更大型的基于LLM的模型相比，mGTE仍存在明顯差距。然而，考慮到mGTE小模型在推理性能方面的優(yōu)勢，其在實(shí)際應(yīng)用場景中應(yīng)具備更大的發(fā)揮空間。表4 MTEB多任務(wù)多語言效果效果對(duì)比

彈性向量表示

通過進(jìn)行彈性向量表示，可以大幅提升文本處理與信息檢索的效率和效果，使高維文本數(shù)據(jù)的處理更加可行和高效。在MTEB英文評(píng)測中，mGTE對(duì)比了mGTE模型在不同維度表征下的表現(xiàn)，結(jié)果與OpenAI的彈性表示模型類似。降低同一模型的向量表征維度雖然會(huì)導(dǎo)致部分效果的損失，但在512維以上的情況效果損失仍在可接受范圍內(nèi)。

圖4 MTEB多任務(wù)多語言效果效果對(duì)比

排序模型

在訓(xùn)練排序模型時(shí)，mGTE-reranker繼續(xù)采用對(duì)比學(xué)習(xí)損失函數(shù)。論文中介紹通過實(shí)現(xiàn)發(fā)現(xiàn)，弱監(jiān)督訓(xùn)練階段對(duì)排序模型效果的提升非常有限。因此，在最終的排序模型訓(xùn)練過程中，mGTE-rerank僅使用監(jiān)督數(shù)據(jù)進(jìn)行微調(diào)。由于Ranking模型需要以文本對(duì)作為輸入來計(jì)算相關(guān)性分?jǐn)?shù)。此外，排序模型的超參數(shù)設(shè)置與文本表示模型保持一致。

效果評(píng)測

類似地，mGTE-reranker對(duì)MLDR、MIRACL、MKQA和BEIR數(shù)據(jù)集上的排序結(jié)果進(jìn)行了評(píng)估。所有的排序模型都基于mGTE-TRM-base模型生成的向量召回的結(jié)果top100進(jìn)行重新排序。具體結(jié)果如下：

圖5 排序模型結(jié)果對(duì)比圖

圖5展示了不同排序模型的檢索效果：

各個(gè)排序模型相比召回模型均表現(xiàn)出更佳的性能，證明了在檢索鏈路中引入排序模型的必要性
與同尺寸甚至更大尺寸的模型相比，mGTE-reranker-base模型在各個(gè)數(shù)據(jù)集上均取得了相當(dāng)甚至更好的效果，尤其是在多語言長文檔的檢索場景中

模型使用

模型的使用方法可以參考Huggingface上的樣例：

Embedding模型：

# Requires transformers>=4.36.0

import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer

input_texts = [
    'what is the capital of China?',
    'how to implement quick sort in python?',
    '北京',
    '快排算法介紹'
]

model_path = 'Alibaba-NLP/gte-multilingual-base'
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True)

# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=8192, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)

dimension=768 # The output dimension of the output embedding, should be in [128, 768]
embeddings = outputs.last_hidden_state[:, 0][:dimension]

embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:1] @ embeddings[1:].T) * 100
print(scores.tolist())

Ranking模型：

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('Alibaba-NLP/gte-multilingual-reranker-base')
model = AutoModelForSequenceClassification.from_pretrained('Alibaba-NLP/gte-multilingual-reranker-base', trust_remote_code=True)
model.eval()

pairs = [['中國的首都在哪兒'，'北京'], ['what is the capital of China?', '北京'], ['how to implement quick sort in python?','Introduction of quick sort']]
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

總結(jié)

本文介紹了阿里巴巴通義實(shí)驗(yàn)室最新開源的gte-multilinguial系列模型工作，包含底座模型，文本表示模型與排序模型，提供了一系列支持多語言，長文檔且推理成本友好的模型。GTE（General Text Embedding）系列模型是通義實(shí)驗(yàn)室開源的一種通用文本向量模型，旨在為RAG（檢索增強(qiáng)生成）等檢索場景提供業(yè)界領(lǐng)先的檢索能力。目前，GTE系列已涵蓋多種模型，包括GTE中/英單語言系列、GTE-Qwen-instruct系列（在MTEB榜單上多語言SOTA）以及本文介紹的GTE-Multilingual系列。這些模型均已在modelscope和huggingface平臺(tái)上開源。

開源模型列表

ModelScope

GTE文本向量-中文-通用領(lǐng)域-large (https:///models/iic/nlp_gte_sentence-embedding_chinese-large)
GTE文本向量-中文-通用領(lǐng)域-base(https:///models/iic/nlp_gte_sentence-embedding_chinese-base/summary)
GTE文本向量-英文-通用領(lǐng)域-large (https:///models/iic/nlp_gte_sentence-embedding_english-large)
GTE文本向量-中文-通用領(lǐng)域-base (https:///models/iic/nlp_gte_sentence-embedding_chinese-base)
GTE文本向量-Qwen2-1.5B (https:///models/iic/gte_Qwen2-1.5B-instruct)
GTE文本向量-Qwen2-7B (https:///models/iic/gte_Qwen2-7B-instruct)
GTE文本向量-多語言-base (https:///models/iic/gte_sentence-embedding_multilingual-base)
GTE-文本排序-多語言-base (https:///models/iic/gte_passage-ranking_multilingual-base)

Huggingface

gte-large-zh (https:///thenlper/gte-large-zh)
gte-base-zh (https:///thenlper/gte-base-zh)
gte-large-en (https:///Alibaba-NLP/gte-large-en-v1.5)
gte-base-en (https:///Alibaba-NLP/gte-base-en-v1.5)
GTE-Qwen2-7B-instruct (https:///Alibaba-NLP/gte-Qwen2-7B-instruct)
GTE-Qwen2-1.5B-instruct (https:///Alibaba-NLP/gte-Qwen2-1.5B-instruct)
gte-multilingual-base (https:///Alibaba-NLP/gte-multilingual-base/tree/main)
gte-multilingual-reranker-base (https:///Alibaba-NLP/gte-multilingual-reranker-base)

商業(yè)化API服務(wù)

除了開源的GTE系列模型，GTE系列模型同時(shí)在阿里云上提供商用API服務(wù):

文本Embedding模型: 提供三種版本的文本嵌入模型：text-embedding-v1/v2/v3，其中v3是最新版本的模型服務(wù)（https://help.aliyun.com/zh/model-studio/developer-reference/general-text-embedding/）

通用文本向量_大模型服務(wù)平臺(tái)百煉(Model Studio)-阿里云幫助中心

文本ReRank模型: 提供gte-rerank模型服務(wù), 模型持續(xù)迭代中（https://help.aliyun.com/zh/model-studio/developer-reference/general-text-sorting-model/）

通用文本排序模型_大模型服務(wù)平臺(tái)百煉(Model Studio)-阿里云幫助中心

參考資料

[1] Su, Jianlin, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu. 'Roformer: Enhanced transformer with rotary position embedding.' Neurocomputing 568 (2024): 127063.

[2] Shazeer, Noam. 'Glu variants improve transformer.' arXiv preprint arXiv:2002.05202 (2020).

[3] Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2019). Unsupervised Cross-lingual Representation Learning at Scale. Annual Meeting of the Association for Computational Linguistics.

[4] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization. ArXiv, abs/2003.11080.

[5] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S.R. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. BlackboxNLP@EMNLP.

[6] Li, Z., Zhang, X., Zhang, Y., Long, D., Xie, P., & Zhang, M. (2023). Towards General Text Embeddings with Multi-stage Contrastive Learning. ArXiv, abs/2308.03281.

[7] Kusupati, A., Bhatt, G., Rege, A., Wallingford, M., Sinha, A., Ramanujan, V., Howard-Snyder, W., Chen, K., Kakade, S.M., Jain, P., & Farhadi, A. (2022). Matryoshka Representation Learning. Neural Information Processing Systems.

[8] Robinson, J., Chuang, C., Sra, S., & Jegelka, S. (2020). Contrastive Learning with Hard Negative Samples. ArXiv, abs/2010.04592.

[9] Chen, J., Xiao, S., Zhang, P., Luo, K., Lian, D., & Liu, Z. (2024). BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation. ArXiv, abs/2402.03216.

[10] Zhang, X.C., Thakur, N., Ogundepo, O., Kamalloo, E., Alfonso-Hermelo, D., Li, X., Liu, Q., Rezagholizadeh, M., & Lin, J.J. (2022). Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages. ArXiv, abs/2210.09984.

[11] Longpre, S., Lu, Y., & Daiber, J. (2020). MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering. Transactions of the Association for Computational Linguistics, 9, 1389-1406.

[12] Thakur, N., Reimers, N., Ruckl'e, A., Srivastava, A., & Gurevych, I. (2021). BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models. ArXiv, abs/2104.08663.

[13] https://hazyresearch./blog/2024-01-11-m2-bert-retrieval

[14] Muennighoff, N., Tazi, N., Magne, L., & Reimers, N. (2022). MTEB: Massive Text Embedding Benchmark. Conference of the European Chapter of the Association for Computational Linguistics.

[15] Wang, L., Yang, N., Huang, X., Yang, L., Majumder, R., & Wei, F. (2023). Improving Text Embeddings with Large Language Models. ArXiv, abs/2401.00368.

[16] Zhang, X. Zhang Y, et al.(2024). mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval.

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：黃爸爸好 > 《rag》

舉報(bào)/認(rèn)領(lǐng)