日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

更高效的RAG文本檢索和排序: 多語言GTE系列模型開源

 黃爸爸好 2024-08-16 發(fā)布于上海

檢索增強(qiáng)生成(Retrieval-Augmented Generation, 簡稱RAG)正日益成為大模型應(yīng)用中的熱門范式。這種創(chuàng)新方法將檢索與生成相結(jié)合,使得大模型在提供回答時(shí),能夠充分借助外部知識(shí)庫的支撐,從而獲得更為準(zhǔn)確且豐富的內(nèi)容。這不僅有效地減輕了大模型常見的誤解和數(shù)據(jù)隱私問題,也提升了實(shí)時(shí)響應(yīng)的能力。在RAG實(shí)施過程中,文本表示模型(Embedding model)和排序模型(Reranker model)是至關(guān)重要的兩大模塊。兩者的目標(biāo)一致,皆為檢索與用戶問題相關(guān)的文檔,但在實(shí)現(xiàn)方法上卻有所不同:文本表示模型首先計(jì)算每段文本的向量表示,然后通過余弦距離等方法計(jì)算它們之間的相關(guān)性分?jǐn)?shù)。因此,所有文檔的向量表示可以在離線階段提前計(jì)算,在線上只需處理用戶查詢的向量,通過高效的向量搜索引擎迅速獲取相關(guān)候選文檔。而排序模型則直接將文本對(duì)作為輸入,通過更精細(xì)的計(jì)算方法輸出它們的相關(guān)性分?jǐn)?shù),實(shí)現(xiàn)更準(zhǔn)確的排序效果。需要注意的是,排序模型的計(jì)算復(fù)雜度較高,因此主要適用于小規(guī)模的候選集合。隨著RAG技術(shù)的不斷發(fā)展,系統(tǒng)的功能也在日益增強(qiáng)。早期的系統(tǒng)主要關(guān)注向量召回,而如今更復(fù)雜的模塊被逐步引入,進(jìn)一步提升了RAG系統(tǒng)的整體效果。同時(shí),隨著應(yīng)用場景的拓展以及大模型處理上下文長度的能力增強(qiáng),對(duì)多語言檢索、跨語言檢索以及長文本處理的需求也愈加迫切。此前,通義實(shí)驗(yàn)室推出了GTE(General Text Embedding)系列文本向量模型,涵蓋了基于BERT架構(gòu)的模型及基于Qwen LLM系列訓(xùn)練的LLM embedding模型,如gte-Qwen2-1.5B-instruct與gte-Qwen2-7B-instruct。目前,基于雙向注意力的Encoder-only結(jié)構(gòu)的模型在同一規(guī)模下相較于Decoder-only模型在召回和排序效果上明顯更優(yōu)。然而,當(dāng)前基于Encoder-only的Embedding和Ranking模型仍面臨一些來自BERT時(shí)代的遺留問題,例如最長上下文長度僅為512,以及預(yù)訓(xùn)練階段使用的語料明顯不足。為解決這些問題,GTE模型開發(fā)團(tuán)隊(duì)從零開始訓(xùn)練了一種能支持長上下文和多語言的Encoder-only基礎(chǔ)模型,并在此基礎(chǔ)上推出了最新版本的GTE-MultiLingual系列模型(簡稱mGTE模型)。該系列模型具備以下顯著特點(diǎn):

  • 高性能:在多個(gè)數(shù)據(jù)集上與同規(guī)模開源模型的對(duì)比中,對(duì)比效果領(lǐng)先。
  • 長文檔支持:Embedding和Reranker均可處理8k token文本長度,且支持通過ntk-rope等方法擴(kuò)展到更長的上下文。
  • 多語言支持:模型支持75種語言,涵蓋當(dāng)前主要大模型所支持的所有語種。
  • 彈性向量表示(Elastic Embedding):模型支持輸出128-768維度之間的任意向量表示,以便在性能和存儲(chǔ)成本之間取得最佳平衡。在128維的情況下,與768維相比,召回性能損失小于2%,同時(shí)節(jié)省6倍的存儲(chǔ)空間。
  • 稀疏向量表示(Sparse Embedding):模型可以輸出句子中每個(gè)單詞的詞權(quán)重作為稀疏表示,適用于需要精確匹配的場景。
圖片
圖1 文本表征和文本排序模型架構(gòu)示意圖

模型構(gòu)建

mGTE系列模型構(gòu)建流程如圖2所示,首先,訓(xùn)練了支持長下文的多語言Encoder-only底座模型GTE-base-multilinguish。并在底座基礎(chǔ)上繼續(xù)訓(xùn)練文本表示模型gte-multilingual-base和排序模型gte-multilingual-base圖片

圖2 模型訓(xùn)練過程示意圖

底座預(yù)訓(xùn)練

模型結(jié)構(gòu)

為了提升模型多語言以及長文本領(lǐng)域相關(guān)的能力,該系列模型參考了目前Decode-Only架構(gòu)大語言模型訓(xùn)練過程中一些常見的技巧,對(duì)原始的BERT架構(gòu)做了以下幾點(diǎn)改動(dòng),具體模型結(jié)構(gòu)如圖3所示

  • 位置編碼: 將BERT模型中采用的絕對(duì)位置embedding方式改為了旋轉(zhuǎn)位置編碼RoPE [1],以便能更好的支持長上下文的訓(xùn)練,同時(shí)保持上下文長度擴(kuò)展的可能性。
  • 激活函數(shù): 將BERT模型中線性層(FFN)部分改為了GLU(gated linear unit,[2]),這也是在LLM訓(xùn)練過程中已經(jīng)經(jīng)過充分驗(yàn)證能有效提升模型訓(xùn)練穩(wěn)定性的技巧。

此外,為了滿足多語言和長文本處理能力的需求,模型使用了XLM-Roberta[3]系列的詞表。圖片

圖3 GTE底座模型結(jié)構(gòu)示意圖

訓(xùn)練數(shù)據(jù)

底座模型的訓(xùn)練數(shù)據(jù)來網(wǎng)絡(luò)上公開的多多言語料數(shù)據(jù),包括C4,Skypile,mC4,CuleturaX,Wikipedia,books等。訓(xùn)練過程中,通過對(duì)數(shù)據(jù)進(jìn)行過濾,清洗,采樣等操作,最終得到了1028B的Token(基于XLM-R tokenizer)作為最終的訓(xùn)練數(shù)據(jù)。其中主要語言的比例如下圖所示(占比小于1%的合并為 others),各語言的數(shù)據(jù)量可以參考mGTE論文[16]中的附錄。

訓(xùn)練過程

與傳統(tǒng)的Encoder-only模型訓(xùn)練方法一樣,預(yù)訓(xùn)練階段mGTE使用MLM(Masked Language Prediction)作為預(yù)訓(xùn)練階段的loss。在此基礎(chǔ)上,該模型做出了以下優(yōu)化提升模型訓(xùn)練的效率:

  1. 數(shù)據(jù)采樣:訓(xùn)練過程中,為保證每個(gè)Batch內(nèi)的數(shù)據(jù)均來自同一種語言,每次訓(xùn)練過程會(huì)從所有語言中根據(jù)概率采樣某種語言的數(shù)據(jù),具體每一種語言的采樣的概率計(jì)算方法如下:

其中n代表的是該語言的數(shù)據(jù)量,

  1. 多階段預(yù)訓(xùn)練:為提高訓(xùn)練效率,首先將數(shù)據(jù)截?cái)酁?k長度進(jìn)行訓(xùn)練,之后在此基礎(chǔ)上將數(shù)據(jù)截?cái)嗟?k進(jìn)行繼續(xù)訓(xùn)練,并將RoPE的base參數(shù)由10000設(shè)置為160,000
  2. Unpaddding Model:訓(xùn)練過程中,由于并不是所有的文檔都都是統(tǒng)一的長度,mGTE利用了unpadding技術(shù)來避免在計(jì)算過程中對(duì)padding部分的token進(jìn)行計(jì)算,通過這一技術(shù)可以有效的提升訓(xùn)練效率,目前常見的flash-attention與xformers庫中均支持該操作

預(yù)訓(xùn)練階段,模型均使用BF16精度進(jìn)行訓(xùn)練

底座模型效果評(píng)測

為了驗(yàn)證預(yù)訓(xùn)練底座模型的效果,mGTE-mlm在多語言評(píng)測榜單XTREAM[4](共包含50種不同的語言)和英文GLUE[5]數(shù)據(jù)上對(duì)比了2K階段與8K階段訓(xùn)練模型與之前Encoder-only架構(gòu)的同尺寸多語言模型的效果,可以看到在絕大多數(shù)任務(wù)上mGTE-mlm都相較于過去的模型有更好的效果。圖片表1 XTREME-R多語言數(shù)據(jù)評(píng)估圖片      表2 英文GLUE數(shù)據(jù)集評(píng)估

Embedding模型

目前基于Encoder-only架構(gòu)的文本表征模型基本上都采用雙階段訓(xùn)練的范式(弱監(jiān)督訓(xùn)練與監(jiān)督訓(xùn)練)[6],以提升模型的泛化性和效果。

弱監(jiān)督訓(xùn)練

在弱監(jiān)督訓(xùn)練階段,mGTE-embedding利用從網(wǎng)絡(luò)上爬取的大規(guī)模文本對(duì)數(shù)據(jù)集,例如網(wǎng)頁的標(biāo)題與正文、QA論壇中的問題與答案等,這些數(shù)據(jù)無需人工標(biāo)注,相對(duì)容易獲取,但質(zhì)量可能較低。這一階段通過對(duì)比學(xué)習(xí)方法進(jìn)行訓(xùn)練,使模型具備基本的嵌入表示能力。經(jīng)過數(shù)據(jù)清理和整理,共收集約28億多語言弱監(jiān)督數(shù)據(jù)。在該階段中,mGTE使用了主流的對(duì)比學(xué)習(xí)方法進(jìn)行模型訓(xùn)練。

監(jiān)督訓(xùn)練

監(jiān)督訓(xùn)練階段,mGTE使用了經(jīng)過人工標(biāo)注的高質(zhì)量文本對(duì)數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,以提升模型的文本表示能力。其中,中文監(jiān)督數(shù)據(jù)包含Dureader,Simcluse,Multi-CPR等在內(nèi)的6個(gè)數(shù)據(jù)集,共計(jì)200萬標(biāo)注數(shù)據(jù),英文監(jiān)督數(shù)據(jù)集使用了包括Msmarco,Nq,NLI等在內(nèi)的7個(gè)數(shù)據(jù)集,共計(jì)140萬數(shù)據(jù)。此外還包括MLDR,MIRACL,Mr.TyDi三個(gè)多語言數(shù)據(jù)集:共計(jì)12萬數(shù)據(jù),具體的數(shù)據(jù)集情況請(qǐng)參考論文附錄部分。在監(jiān)督訓(xùn)練階段,除了基礎(chǔ)的連續(xù)向量對(duì)比學(xué)習(xí)損失,mGTE引入了兩個(gè)額外的表征特性:

  • 彈性維度表示:彈性維度表示模型可以輸出不同維度的向量表示,以平衡在索引存儲(chǔ)和模型效果之間的Trade Off。目前許多方法開源與閉源模型均通過MRL學(xué)習(xí)[7]支持該特性。模型可以輸出不同維度的向量表示,從而在索引存儲(chǔ)和模型效果之間找到平衡。在模型訓(xùn)練過程中,令D代表一個(gè)整數(shù)列表,并分別取模型最終向量表示的前k維度(k屬于D)進(jìn)行標(biāo)準(zhǔn)化并計(jì)算對(duì)比學(xué)習(xí)損失。最終,這部分的損失是各個(gè)維度對(duì)比損失的平均值。
  • Sparse向量表示:與連續(xù)向量(Dense)表示方法不同,Sparse表示是指通過深度模型計(jì)算文本中每個(gè)單詞的詞權(quán)重,通過兩段文本之間相互匹配的詞的權(quán)重乘積的和作為兩段文本的相似度,可以認(rèn)為是傳統(tǒng)BM25等檢索方式的一種擴(kuò)展。相比于Dense表示,Sparse表示在需要精準(zhǔn)匹配(如型號(hào)名,品牌名,年份匹配等)場景,以及長上下文檢索場景往往有更強(qiáng)的性能。訓(xùn)練過程中,mGTE在每個(gè)位置token最后一層的輸出增加了一層線性層(使用Relu作為激活函數(shù))得到文本的Sparse表示,并使用對(duì)比學(xué)習(xí)損失作為Sparse向量表示的損失函數(shù)。

因此, 模型最終的訓(xùn)練損失函數(shù)為MRL部分損失函數(shù)與Sparse部分損失函數(shù)的加權(quán)和:圖片在訓(xùn)練過程中,該模型采用使用了兩個(gè)額外的策略來保障模型性能與訓(xùn)練效率:

  1. Hard Negatives構(gòu)造:之前的研究工作表明對(duì)比學(xué)習(xí)的效果高度依賴于負(fù)樣本的數(shù)量和質(zhì)量[8]?;诖?,mGTE首先利用在弱監(jiān)督階段訓(xùn)練得到的模型,從每個(gè)查詢(query)中挖掘出難負(fù)樣本(排序靠前的負(fù)樣本)。此外,mGTE還將同一個(gè)批次(batch)內(nèi)其他查詢的文檔(包括相關(guān)文檔和不相關(guān)文檔)用作負(fù)樣本,從而擴(kuò)大負(fù)樣本的數(shù)量和多樣性。為了進(jìn)一步保證負(fù)樣本的質(zhì)量,以確保每個(gè)Batch內(nèi)的數(shù)據(jù)都來自同一數(shù)據(jù)集。
  2. 動(dòng)態(tài)Batch大小:為了提高長上下文的檢索能力并最大化訓(xùn)練效率,mGTE采用了動(dòng)態(tài) Batch 大小的策略。首先,根據(jù)每個(gè)文檔的長度對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分組,并針對(duì)不同長度的數(shù)據(jù)使用不同的batch size。在訓(xùn)練過程中,首先將一個(gè)Batch切分為多個(gè)子Batch(sub-batch)。通過Gradient-checkpoint方法,可以依次計(jì)算每個(gè)子Batch的Embedding,并通過合并所有子Batch的表示得到完整Batch的Embedding。該方法可以使Batch size增加2到5倍,顯著提升訓(xùn)練效率。

Embedding與Ranking的訓(xùn)練過程都是基于FP16精度進(jìn)行的,使用了DeepSpeed zero0與Gradient checkpoint來節(jié)省內(nèi)存。

效果評(píng)測

檢索效果評(píng)測

為了評(píng)測文本表征模型的檢索效果,尤其是模型的多語言和長文本處理能力,mGTE模型主要在以下幾個(gè)數(shù)據(jù)集進(jìn)行評(píng)測

  • MLDR[9]: 多語言長文檔檢索評(píng)測集, 包括13個(gè)語種數(shù)據(jù)
  • MIRACL[10]: 多語言檢索評(píng)測集合,包含18個(gè)語種數(shù)據(jù)
  • MKQA[11]: 跨語言檢索評(píng)測集,包含25個(gè)不同的語種
  • BEIR[12]: 英文多領(lǐng)域檢索評(píng)測集合
  • LoCo[13]:英文長文檔檢索評(píng)測集合

表3展示了在這5個(gè)數(shù)據(jù)集上mGTE模型和同規(guī)模模型的效果對(duì)比:

  • 受益于原生的長文本底座訓(xùn)練,mGTE表征模型在長文本檢索效果上明顯優(yōu)于其它模型
  • 在短文本檢索場景, mGTE對(duì)比同規(guī)模的模型效果大幅度領(lǐng)先,對(duì)比更大規(guī)模的模型效果也很接近
  • Sparse向量檢索效果在大部分場景優(yōu)于BM25,特別在長文檔場景對(duì)比現(xiàn)有Dense向量檢索有明顯效果優(yōu)勢

圖片表3 檢索數(shù)據(jù)集效果對(duì)比

多任務(wù)文本表征效果評(píng)測

MTEB[14]是一個(gè)涵蓋多任務(wù)文本表示的通用評(píng)測數(shù)據(jù)集,英語、法語和波蘭語這四種不同語言上對(duì)mGTE模型與其他模型的性能進(jìn)行了對(duì)比。類似于檢索任務(wù),mGTE模型在與開源社區(qū)中同規(guī)模的Encoder-only系列模型進(jìn)行比較時(shí)表現(xiàn)出非常好的效果。當(dāng)然,與更大型的基于LLM的模型相比,mGTE仍存在明顯差距。然而,考慮到mGTE小模型在推理性能方面的優(yōu)勢,其在實(shí)際應(yīng)用場景中應(yīng)具備更大的發(fā)揮空間。圖片表4 MTEB多任務(wù)多語言效果效果對(duì)比

彈性向量表示

通過進(jìn)行彈性向量表示,可以大幅提升文本處理與信息檢索的效率和效果,使高維文本數(shù)據(jù)的處理更加可行和高效。在MTEB英文評(píng)測中,mGTE對(duì)比了mGTE模型在不同維度表征下的表現(xiàn),結(jié)果與OpenAI的彈性表示模型類似。降低同一模型的向量表征維度雖然會(huì)導(dǎo)致部分效果的損失,但在512維以上的情況效果損失仍在可接受范圍內(nèi)。圖片

圖4 MTEB多任務(wù)多語言效果效果對(duì)比

排序模型

在訓(xùn)練排序模型時(shí),mGTE-reranker繼續(xù)采用對(duì)比學(xué)習(xí)損失函數(shù)。論文中介紹通過實(shí)現(xiàn)發(fā)現(xiàn),弱監(jiān)督訓(xùn)練階段對(duì)排序模型效果的提升非常有限。因此,在最終的排序模型訓(xùn)練過程中,mGTE-rerank僅使用監(jiān)督數(shù)據(jù)進(jìn)行微調(diào)。由于Ranking模型需要以文本對(duì)作為輸入來計(jì)算相關(guān)性分?jǐn)?shù)。此外,排序模型的超參數(shù)設(shè)置與文本表示模型保持一致。

效果評(píng)測

類似地,mGTE-reranker對(duì)MLDR、MIRACL、MKQA和BEIR數(shù)據(jù)集上的排序結(jié)果進(jìn)行了評(píng)估。所有的排序模型都基于mGTE-TRM-base模型生成的向量召回的結(jié)果top100進(jìn)行重新排序。具體結(jié)果如下:圖片

圖5 排序模型結(jié)果對(duì)比圖

圖5展示了不同排序模型的檢索效果:

  • 各個(gè)排序模型相比召回模型均表現(xiàn)出更佳的性能,證明了在檢索鏈路中引入排序模型的必要性
  • 與同尺寸甚至更大尺寸的模型相比,mGTE-reranker-base模型在各個(gè)數(shù)據(jù)集上均取得了相當(dāng)甚至更好的效果,尤其是在多語言長文檔的檢索場景中

模型使用

模型的使用方法可以參考Huggingface上的樣例:

Embedding模型:

# Requires transformers>=4.36.0

import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer

input_texts = [
    'what is the capital of China?',
    'how to implement quick sort in python?',
    '北京',
    '快排算法介紹'
]

model_path = 'Alibaba-NLP/gte-multilingual-base'
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True)

# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=8192, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)

dimension=768 # The output dimension of the output embedding, should be in [128, 768]
embeddings = outputs.last_hidden_state[:, 0][:dimension]

embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:1] @ embeddings[1:].T) * 100
print(scores.tolist())

Ranking模型:

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('Alibaba-NLP/gte-multilingual-reranker-base')
model = AutoModelForSequenceClassification.from_pretrained('Alibaba-NLP/gte-multilingual-reranker-base', trust_remote_code=True)
model.eval()

pairs = [['中國的首都在哪兒','北京'], ['what is the capital of China?''北京'], ['how to implement quick sort in python?','Introduction of quick sort']]
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

總結(jié)

本文介紹了阿里巴巴通義實(shí)驗(yàn)室最新開源的gte-multilinguial系列模型工作,包含底座模型,文本表示模型與排序模型,提供了一系列支持多語言,長文檔且推理成本友好的模型。GTE(General Text Embedding)系列模型是通義實(shí)驗(yàn)室開源的一種通用文本向量模型,旨在為RAG(檢索增強(qiáng)生成)等檢索場景提供業(yè)界領(lǐng)先的檢索能力。目前,GTE系列已涵蓋多種模型,包括GTE中/英單語言系列、GTE-Qwen-instruct系列(在MTEB榜單上多語言SOTA)以及本文介紹的GTE-Multilingual系列。這些模型均已在modelscope和huggingface平臺(tái)上開源。

開源模型列表

ModelScope

  • GTE文本向量-中文-通用領(lǐng)域-large (https:///models/iic/nlp_gte_sentence-embedding_chinese-large)

  • GTE文本向量-中文-通用領(lǐng)域-base(https:///models/iic/nlp_gte_sentence-embedding_chinese-base/summary)

  • GTE文本向量-英文-通用領(lǐng)域-large (https:///models/iic/nlp_gte_sentence-embedding_english-large)

  • GTE文本向量-中文-通用領(lǐng)域-base (https:///models/iic/nlp_gte_sentence-embedding_chinese-base)

  • GTE文本向量-Qwen2-1.5B (https:///models/iic/gte_Qwen2-1.5B-instruct)

  • GTE文本向量-Qwen2-7B (https:///models/iic/gte_Qwen2-7B-instruct)

  • GTE文本向量-多語言-base (https:///models/iic/gte_sentence-embedding_multilingual-base)

  • GTE-文本排序-多語言-base (https:///models/iic/gte_passage-ranking_multilingual-base)

Huggingface

  • gte-large-zh (https:///thenlper/gte-large-zh)
  • gte-base-zh (https:///thenlper/gte-base-zh)

  • gte-large-en (https:///Alibaba-NLP/gte-large-en-v1.5)

  • gte-base-en (https:///Alibaba-NLP/gte-base-en-v1.5)

  • GTE-Qwen2-7B-instruct (https:///Alibaba-NLP/gte-Qwen2-7B-instruct)

  • GTE-Qwen2-1.5B-instruct (https:///Alibaba-NLP/gte-Qwen2-1.5B-instruct)

  • gte-multilingual-base (https:///Alibaba-NLP/gte-multilingual-base/tree/main)

  • gte-multilingual-reranker-base (https:///Alibaba-NLP/gte-multilingual-reranker-base)

商業(yè)化API服務(wù)

除了開源的GTE系列模型,GTE系列模型同時(shí)在阿里云上提供商用API服務(wù):

  • 文本Embedding模型: 提供三種版本的文本嵌入模型:text-embedding-v1/v2/v3,其中v3是最新版本的模型服務(wù)(https://help.aliyun.com/zh/model-studio/developer-reference/general-text-embedding/)

通用文本向量_大模型服務(wù)平臺(tái)百煉(Model Studio)-阿里云幫助中心

  • 文本ReRank模型: 提供gte-rerank模型服務(wù), 模型持續(xù)迭代中(https://help.aliyun.com/zh/model-studio/developer-reference/general-text-sorting-model/)

通用文本排序模型_大模型服務(wù)平臺(tái)百煉(Model Studio)-阿里云幫助中心

參考資料

[1] Su, Jianlin, Murtadha Ahmed, Yu Lu, Shengfeng Pan, Wen Bo, and Yunfeng Liu. 'Roformer: Enhanced transformer with rotary position embedding.' Neurocomputing 568 (2024): 127063. 

[2] Shazeer, Noam. 'Glu variants improve transformer.' arXiv preprint arXiv:2002.05202 (2020). 

[3] Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2019). Unsupervised Cross-lingual Representation Learning at Scale. Annual Meeting of the Association for Computational Linguistics

[4] Hu, J., Ruder, S., Siddhant, A., Neubig, G., Firat, O., & Johnson, M. (2020). XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization. ArXiv, abs/2003.11080

[5] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S.R. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. BlackboxNLP@EMNLP

[6] Li, Z., Zhang, X., Zhang, Y., Long, D., Xie, P., & Zhang, M. (2023). Towards General Text Embeddings with Multi-stage Contrastive Learning. ArXiv, abs/2308.03281

[7] Kusupati, A., Bhatt, G., Rege, A., Wallingford, M., Sinha, A., Ramanujan, V., Howard-Snyder, W., Chen, K., Kakade, S.M., Jain, P., & Farhadi, A. (2022). Matryoshka Representation Learning. Neural Information Processing Systems

[8] Robinson, J., Chuang, C., Sra, S., & Jegelka, S. (2020). Contrastive Learning with Hard Negative Samples. ArXiv, abs/2010.04592

[9] Chen, J., Xiao, S., Zhang, P., Luo, K., Lian, D., & Liu, Z. (2024). BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation. ArXiv, abs/2402.03216

[10] Zhang, X.C., Thakur, N., Ogundepo, O., Kamalloo, E., Alfonso-Hermelo, D., Li, X., Liu, Q., Rezagholizadeh, M., & Lin, J.J. (2022). Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages. ArXiv, abs/2210.09984

[11] Longpre, S., Lu, Y., & Daiber, J. (2020). MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain Question Answering. Transactions of the Association for Computational Linguistics, 9, 1389-1406. 

[12] Thakur, N., Reimers, N., Ruckl'e, A., Srivastava, A., & Gurevych, I. (2021). BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models. ArXiv, abs/2104.08663

[13] https://hazyresearch./blog/2024-01-11-m2-bert-retrieval

[14] Muennighoff, N., Tazi, N., Magne, L., & Reimers, N. (2022). MTEB: Massive Text Embedding Benchmark. Conference of the European Chapter of the Association for Computational Linguistics

[15] Wang, L., Yang, N., Huang, X., Yang, L., Majumder, R., & Wei, F. (2023). Improving Text Embeddings with Large Language Models. ArXiv, abs/2401.00368

[16] Zhang, X. Zhang Y, et al.(2024). mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多