自從2022年底ChatGPT發(fā)布以來(lái),AI大模型真正進(jìn)入快速發(fā)展和應(yīng)用落地的階段,在各個(gè)領(lǐng)域快速催生出大量的應(yīng)用,總體包括“文生文”、“文生圖”、“文生視頻”、“文生音頻”、“圖生圖”、“圖生視頻”等AIGC(Artificial Intelligence Generated Content,內(nèi)容生成式人工智能)應(yīng)用方向。另外在一些細(xì)分領(lǐng)域,也出現(xiàn)了很多應(yīng)用大模型能力賦能生產(chǎn)、提質(zhì)增效的應(yīng)用。 在檔案行業(yè),也有很多先驅(qū)在探索大模型的應(yīng)用方向,并且有一些實(shí)際行動(dòng),為我們呈現(xiàn)出全新的理念和應(yīng)用模式。但受限于各種因素的影響,筆者認(rèn)為大模型在檔案收、管、存、用等基礎(chǔ)業(yè)務(wù)層面的應(yīng)用具有很強(qiáng)的基礎(chǔ)設(shè)施、業(yè)務(wù)數(shù)據(jù)等壁壘,應(yīng)用效果還有待實(shí)踐檢驗(yàn)。今天,我們來(lái)聊聊大模型在檔案領(lǐng)域的一個(gè)典型應(yīng)用——檔案知識(shí)助理。 01 為什么要做檔案知識(shí)助理 檔案知識(shí)助理雖然沒(méi)有很強(qiáng)很深的技術(shù)壁壘,但它很可能為我們檔案從業(yè)者提供一個(gè)非常高效、友好的檔案知識(shí)獲取窗口,這是我們所有檔案人都需要的,它具有普適性。而且也是我們檔案人學(xué)習(xí)AI、應(yīng)用AI的一個(gè)很好的入門(mén)方向,每個(gè)人都可以去積極嘗試,搭建屬于自己的知識(shí)助理。 ![]() 02 為什么要用AI大模型來(lái)做檔案知識(shí)助理 檔案知識(shí)助理其實(shí)就是一個(gè)檔案知識(shí)庫(kù),并借助大模型強(qiáng)大的的對(duì)話能力、泛化能力、學(xué)習(xí)能力、理解能力、邏輯推理能力來(lái)提供知識(shí)服務(wù)。 ![]() 知識(shí)庫(kù)其實(shí)并不是一個(gè)陌生的概念和產(chǎn)品,早在ANI(Artificial Narrow Intelligence,弱人工智能)早期,就有不少公司具備提供所謂的“智能知識(shí)庫(kù)”產(chǎn)品和服務(wù)的能力,例如筆者曾接觸過(guò)的智能客服行業(yè),大都具備基于ANI的知識(shí)庫(kù)產(chǎn)品。雖然目前我們還未正式進(jìn)入AGI(Artificial General Intelligence,通用人工智能)時(shí)代,但基于大模型的知識(shí)庫(kù)與ANI早期的智能知識(shí)庫(kù)已不可同日而語(yǔ)了。請(qǐng)看下圖對(duì)比: ![]() 通俗來(lái)講,用大模型來(lái)實(shí)現(xiàn)知識(shí)庫(kù)產(chǎn)品,具有以下優(yōu)勢(shì):
下面,我們就用兩種方式來(lái)搭建檔案知識(shí)助理,并對(duì)其進(jìn)行實(shí)際效果測(cè)試。第一種是完全本地化的模式,這種模式受限于筆者硬件配置,并未做大模型的預(yù)訓(xùn)練和微調(diào),而是直接使用了原生的大模型;另一種方式是使用釘釘?shù)腁I助理來(lái)搭建,這種模式屬于借用第三方平臺(tái),不支持本地化部署。 03 搭建本地化檔案知識(shí)助理 1、系統(tǒng)架構(gòu)及搭建步驟 ![]() 注:這個(gè)架構(gòu)不是企業(yè)級(jí)應(yīng)用架構(gòu),只適用于我們自己嘗試,如果要做企業(yè)級(jí)應(yīng)用,那數(shù)據(jù)庫(kù)就要分布式部署,另外訪問(wèn)量和數(shù)據(jù)量大的話,也要做集群來(lái)提高穩(wěn)定性,語(yǔ)言模型也需要用參數(shù)量更大的。 整個(gè)系統(tǒng)完全本地化部署,底層使用ollama來(lái)運(yùn)行大語(yǔ)言模型和向量模型,上層WebUI應(yīng)用使用FastGPT實(shí)現(xiàn),中間層使用OneAPI來(lái)做通信,應(yīng)用數(shù)據(jù)和向量化數(shù)據(jù)分別存儲(chǔ)在MongoDB和PgSql中。如需了解具體的部署步驟,可觀看以下教程: 詳細(xì)視頻請(qǐng)?jiān)?數(shù)字羅塞塔計(jì)劃 公眾號(hào)文章中觀看 部署完成后,F(xiàn)astGPT和OneAPI需要做若干配置,并導(dǎo)入知識(shí)庫(kù)文件,才能初步實(shí)現(xiàn)知識(shí)問(wèn)答。 2、本地化大模型的應(yīng)用效果 完成上述的系統(tǒng)部署和初始化后,我們直接導(dǎo)入了一些國(guó)家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)文件(必須是雙層pdf或者word等可編輯文件,圖片和普通pdf不支持)。來(lái)看看實(shí)際檢索效果和原文的對(duì)比吧: 隨便輸入了一個(gè)問(wèn)題,大模型直接給出的答案是不對(duì)的,如下圖: ![]() 但在下方的知識(shí)庫(kù)引用中,大模型成功匹配到了知識(shí)庫(kù)文件中的內(nèi)容。如下圖: ![]() 筆者又同樣試了其他很多問(wèn)題(不超出知識(shí)庫(kù)的內(nèi)容范疇),并且不斷調(diào)整分段長(zhǎng)度和相關(guān)度設(shè)置,大模型給出的直接回答依然不完美;但畢竟在知識(shí)庫(kù)引用中能精確匹配到答案了,總體感覺(jué)還不錯(cuò)。期待后續(xù)有條件的朋友能夠完成模型的微調(diào),再給大家呈現(xiàn)出更好的結(jié)果。 04 使用釘釘AI助理搭建檔案知識(shí)助理 1、搭建步驟 使用釘釘AI助理搭建,就很簡(jiǎn)單了,只需要安裝一個(gè)最新版本的釘釘。這個(gè)就不是本地化部署了,借助的是AI助理背后的強(qiáng)大底模(應(yīng)該是非開(kāi)源版的通義千問(wèn))??聪聢D,直接按步驟操作即可: ![]() 需要注意的是:按照上圖步驟創(chuàng)建的助理,是公開(kāi)的,也就是說(shuō)發(fā)布后所有釘釘用戶都能搜索到并使用;如果你點(diǎn)擊步驟2后,直接在右側(cè)分欄下方點(diǎn)擊“創(chuàng)建AI助理”,那么這個(gè)助理就是面向組織內(nèi)部使用的,組織外的人看不到。這兩種方式會(huì)影響后面上傳知識(shí)文件的方式,前者只能本地上傳,后者可以選擇企業(yè)組織搭建的知識(shí)庫(kù)。 另外還需要配置一個(gè)簡(jiǎn)單的Prompt,用來(lái)限制大模型的輸出范圍。請(qǐng)注意:千萬(wàn)不要配置冗余的Prompt,如果你不會(huì)寫(xiě),就空著,或者寫(xiě)一個(gè)簡(jiǎn)單的,劣質(zhì)的Prompt就像畫(huà)蛇添足,會(huì)極大的干擾大模型的輸出。配置完成的助理,如下圖所示: ![]() 2、用釘釘搭建檔案知識(shí)助理的應(yīng)用效果 上效果!我們問(wèn)一個(gè)同樣的問(wèn)題,看看AI助理和本地化大模型熟優(yōu)熟劣。 ![]() ![]() 答案相當(dāng)正確,也相當(dāng)完整。而且給出了知識(shí)來(lái)源,用戶點(diǎn)擊知識(shí)來(lái)源后,可以向AI助理的所有者申請(qǐng)查看、下載的權(quán)限。 ![]() 05 對(duì)比總結(jié) 第一點(diǎn) 釘釘AI助理無(wú)需部署,配置簡(jiǎn)單,給的直接回答更準(zhǔn)確,而且可以查看引用的知識(shí)庫(kù)原文,支持權(quán)限申請(qǐng)。適合于個(gè)人或中小企業(yè)日常工作簡(jiǎn)單應(yīng)用。 第二點(diǎn) 本地化知識(shí)庫(kù),部署相對(duì)復(fù)雜,配置有難度,給的直接回答不準(zhǔn)確,而且會(huì)有幻覺(jué)出現(xiàn)(這個(gè)在進(jìn)行預(yù)訓(xùn)練和微調(diào)后,肯定會(huì)有改善);也可以查看引用的知識(shí)庫(kù)原文,匹配度總體較高,但不支持權(quán)限申請(qǐng)。適合于搭建企業(yè)級(jí)私有的、安全的本地知識(shí)庫(kù)應(yīng)用。 END 數(shù)字羅塞塔計(jì)劃公眾號(hào)致力于作為中立的第三方客觀公正地表達(dá)自己對(duì)于檔案信息化領(lǐng)域的看法和觀點(diǎn)。真理越辯越明,我們也衷心歡迎越來(lái)越多的人投身到檔案數(shù)字資源管理和保存這一領(lǐng)域的研究中來(lái)并發(fā)表真知灼見(jiàn),共同為人類(lèi)文明的傳承而努力奮斗! |
|