導(dǎo)讀:ModelScope旨在打造下一代開(kāi)源的模型即服務(wù)共享平臺(tái),匯集了行業(yè)領(lǐng)先的預(yù)訓(xùn)練模型,減少了開(kāi)發(fā)者的重復(fù)研發(fā)成本。個(gè)人認(rèn)為,相比于AI公司經(jīng)常賣(mài)一款軟件產(chǎn)品或者賣(mài)一個(gè)算法需求,而ModelScope更偏向于某種功能(model端到端)實(shí)現(xiàn),初級(jí)AI從業(yè)者也能很容易實(shí)現(xiàn)大模型,有點(diǎn)低代碼的感覺(jué)。當(dāng)前ModelScope的功能,相比于CV、NLP的豐富內(nèi)容,它在DS方面、可視化方面、解釋性方面的就相對(duì)較少,同時(shí),產(chǎn)品定位 To B和To C的功能域劃分,也不算是很清晰,當(dāng)然這也是該領(lǐng)域一個(gè)共同困擾。首次,當(dāng)然可以先初級(jí)版本開(kāi)源,其次,平臺(tái)可以集大智慧,最后,模型迭代實(shí)現(xiàn)功能升級(jí)。對(duì)比國(guó)外也有類(lèi)似平臺(tái)或服務(wù)產(chǎn)品,六年的快速發(fā)展,如今實(shí)現(xiàn)估值十多億美元。而在國(guó)內(nèi),隨著人工智能場(chǎng)景的無(wú)處不在,也有著上千萬(wàn)的開(kāi)發(fā)者,國(guó)內(nèi)人工智能領(lǐng)域活躍度也異??涨?,且有達(dá)摩院品牌的加持,ModelScope,六年的時(shí)間,會(huì)走到哪里呢?是否會(huì)迎來(lái)一個(gè)面向機(jī)器學(xué)習(xí)社區(qū)的新生態(tài)?一個(gè)嶄新的獨(dú)角獸?讓我們拭目以待吧……
ModelScope的簡(jiǎn)介
匯聚機(jī)器學(xué)習(xí)領(lǐng)域中最先進(jìn)的開(kāi)源模型,為開(kāi)發(fā)者提供簡(jiǎn)單易用的模型構(gòu)建、訓(xùn)練、部署等一站式產(chǎn)品服務(wù),讓模型應(yīng)用更簡(jiǎn)單。
ModelScope旨在打造下一代開(kāi)源的模型即服務(wù)共享平臺(tái),為泛AI開(kāi)發(fā)者提供靈活、易用、低成本的一站式模型服務(wù)產(chǎn)品,讓模型應(yīng)用更簡(jiǎn)單!
我們希望在匯集行業(yè)領(lǐng)先的預(yù)訓(xùn)練模型,減少開(kāi)發(fā)者的重復(fù)研發(fā)成本,提供更加綠色環(huán)保、開(kāi)源開(kāi)放的AI開(kāi)發(fā)環(huán)境和模型服務(wù),助力綠色“數(shù)字經(jīng)濟(jì)”事業(yè)的建設(shè)。 ModelScope平臺(tái)將以開(kāi)源的方式提供多類(lèi)優(yōu)質(zhì)模型,開(kāi)發(fā)者可在平臺(tái)上免費(fèi)體驗(yàn)與下載使用。
若您也和我們有相同的初衷,歡迎關(guān)注我們,我們鼓勵(lì)并支持個(gè)人或企業(yè)開(kāi)發(fā)者與我們聯(lián)系,平臺(tái)將為您構(gòu)建更好的支持服務(wù),共同為泛AI社區(qū)做出貢獻(xiàn)。
官網(wǎng):https:///home
官網(wǎng)文檔:https:///docs/%E6%A6%82%E8%A7%88%E4%BB%8B%E7%BB%8D
1、ModelScope 社區(qū)簡(jiǎn)介
ModelScope 社區(qū)是什么 | 基于達(dá)摩院機(jī)器智能、大模型、xr實(shí)驗(yàn)室等一些前沿技術(shù)所誕生的模型即服務(wù)共享平臺(tái)。提供開(kāi)源數(shù)據(jù)集、開(kāi)源模型、模型工具等,用社區(qū)的方式免費(fèi)開(kāi)發(fā)給廣大個(gè)人、企業(yè)用戶(hù)使用。它提供了模型管理檢索、模型下載、模型調(diào)優(yōu)和訓(xùn)練模型推理。目前版本優(yōu)先開(kāi)放了模型調(diào)優(yōu)訓(xùn)練和推理,后續(xù)會(huì)開(kāi)放模型部署及模型應(yīng)用服務(wù)。 |
提供什么服務(wù) | ? 開(kāi)源開(kāi)發(fā)框架:是一套Python的SDK,通過(guò)簡(jiǎn)單地集成方式可以快速的實(shí)現(xiàn)模型效果,比如一行代碼實(shí)現(xiàn)模型推理,幾行代碼實(shí)現(xiàn)模型調(diào)優(yōu)。 ? 開(kāi)源模型庫(kù):社區(qū)會(huì)提供一個(gè)開(kāi)源模型庫(kù)里面包含了全行業(yè)的SOTA模型。 ? 開(kāi)源數(shù)據(jù)集:社區(qū)會(huì)提供達(dá)摩院沉淀的電商領(lǐng)域數(shù)據(jù)集以及一些通用領(lǐng)域的數(shù)據(jù)集,結(jié)合業(yè)內(nèi)一些經(jīng)典數(shù)據(jù)集配合工具自動(dòng)對(duì)外開(kāi)放 ? 實(shí)訓(xùn)框架:集成了PAI機(jī)器學(xué)習(xí)框架及DSW,可以實(shí)現(xiàn)在線(xiàn)的模型訓(xùn)練和推理工作,未來(lái)DSW中也會(huì)集成ModelScope社區(qū)整套的開(kāi)發(fā)環(huán)境,可以讓初階用戶(hù)快速的通過(guò)PAI和DSW實(shí)現(xiàn)模型把玩。同時(shí)還支持本地環(huán)境直接獲取模型和復(fù)制相應(yīng)的模型代碼,在本地實(shí)現(xiàn)模型調(diào)優(yōu)和推理工作。 ? 文檔教程:社區(qū)提供了全套的文檔和教程可以更好幫助開(kāi)發(fā)者使用社區(qū)相關(guān)服務(wù)。 ? 開(kāi)發(fā)者社區(qū):社區(qū)提供了開(kāi)發(fā)者交流、溝通及反饋的能力板塊。 |
ModelScope 社區(qū)愿景 | 社區(qū)希望支持廣大開(kāi)發(fā)者通過(guò)社區(qū)平臺(tái)學(xué)習(xí)和實(shí)踐AI,從社區(qū)中可以獲取所需的模型信息。對(duì)于初階開(kāi)發(fā)者可以在社區(qū)中使用模型,對(duì)于中高階開(kāi)發(fā)者可以通過(guò)社區(qū)調(diào)優(yōu)評(píng)測(cè)模型并用于自己的個(gè)性化業(yè)務(wù)場(chǎng)景。 同時(shí)社區(qū)也非常歡迎各類(lèi)開(kāi)發(fā)者加入社區(qū)并分享自身研發(fā)或沉淀的模型,通過(guò)在社區(qū)內(nèi)不斷學(xué)習(xí)實(shí)踐及自由交流形成AI領(lǐng)域的意見(jiàn)領(lǐng)袖或行業(yè)先鋒,為中國(guó)AI開(kāi)源宏偉事業(yè)貢獻(xiàn)力量。 |
2、對(duì)開(kāi)發(fā)者好處
免費(fèi)使用平臺(tái)提供的預(yù)訓(xùn)練模型,支持免費(fèi)下載運(yùn)行;
一行命令實(shí)現(xiàn)模型預(yù)測(cè),簡(jiǎn)單快速驗(yàn)證模型效果;
用自己的數(shù)據(jù)對(duì)模型進(jìn)行調(diào)優(yōu),定制自己的個(gè)性化模型;
學(xué)習(xí)系統(tǒng)性的知識(shí),結(jié)合實(shí)訓(xùn),有效提升模型研發(fā)能力;
分享和貢獻(xiàn)你的想法、評(píng)論與模型,讓更多人認(rèn)識(shí)你,在社區(qū)中成長(zhǎng);
3、ModelScope提供的服務(wù)

千億參數(shù)大模型全面開(kāi)放
多領(lǐng)域SOTA“百模”開(kāi)源
10行代碼實(shí)現(xiàn)模型finetune
1行代碼實(shí)現(xiàn)模型推理
豐富的預(yù)訓(xùn)練SOTA模型 | 覆蓋NLP、CV、Audio等多領(lǐng)域的具有競(jìng)爭(zhēng)力的SOTA模型,更有行業(yè)領(lǐng)先的多模態(tài)大模型,全部免費(fèi)開(kāi)放下載以及使用。 |
多元開(kāi)放的數(shù)據(jù)集 | 匯集行業(yè)和學(xué)術(shù)熱門(mén)的公開(kāi)數(shù)據(jù)集,更有阿里巴巴集團(tuán)貢獻(xiàn)的專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)集等你來(lái)探索。 |
一行代碼使用模型推理能力 | 提供基于模型的本地推理接口,以及線(xiàn)上模型推理預(yù)測(cè)服務(wù),方便開(kāi)發(fā)者快速驗(yàn)證與使用。 |
十行代碼快速構(gòu)建專(zhuān)屬行業(yè)模型 | 十行代碼實(shí)現(xiàn)對(duì)預(yù)訓(xùn)練模型的調(diào)優(yōu)訓(xùn)練(finetune),方便開(kāi)發(fā)者基于行業(yè)數(shù)據(jù)集快速構(gòu)建專(zhuān)屬行業(yè)模型。 |
即開(kāi)即用的在線(xiàn)開(kāi)發(fā)平臺(tái) | 一鍵開(kāi)啟在線(xiàn)notebook實(shí)訓(xùn)平臺(tái),集成官方鏡像免除環(huán)境安裝困擾,鏈接澎湃云端算力,體驗(yàn)便捷的交互式編程。 |
靈活的模型框架與部署方式 | 兼容主流AI框架,更好地實(shí)現(xiàn)模型遷移;多種模型訓(xùn)練與服務(wù)部署方式,提供更多自主可控的選擇。 |
豐富的教學(xué)內(nèi)容與技術(shù)資源 | 提供友好的優(yōu)質(zhì)的教程內(nèi)容與開(kāi)放的社區(qū)氛圍,幫助開(kāi)發(fā)者學(xué)習(xí)成長(zhǎng)。(內(nèi)容持續(xù)更新中,敬請(qǐng)關(guān)注) |
4、 ModelScope 社區(qū)平臺(tái)覆蓋多個(gè)領(lǐng)域的模型任務(wù)——CV、NLP、Audio、Multi-Modal
官方文檔:
https://www./docs/%E4%BB%BB%E5%8A%A1%E7%9A%84%E4%BB%8B%E7%BB%8D
ModelScope 社區(qū)平臺(tái)提供了覆蓋多個(gè)領(lǐng)域的模型任務(wù),包括自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)(CV)、語(yǔ)音(Audio)、多模態(tài)(Multi-Modal)等,并提供相關(guān)任務(wù)的推理、訓(xùn)練等服務(wù)。
計(jì)算機(jī)視覺(jué)(CV):計(jì)算機(jī)視覺(jué)是指機(jī)器感知環(huán)境的能力。這一技術(shù)類(lèi)別中的經(jīng)典任務(wù)有圖像形成、圖像處理、圖像提取和圖像的三維推理。
自然語(yǔ)言處理(NLP):自然語(yǔ)言處理是人工智能和語(yǔ)言學(xué)領(lǐng)域的分支學(xué)科。自然語(yǔ)言處理融合了計(jì)算機(jī)科學(xué),語(yǔ)言學(xué)和機(jī)器學(xué)習(xí)的交叉學(xué)科,利用計(jì)算機(jī)技術(shù)對(duì)語(yǔ)言進(jìn)行處理和加工的科學(xué),包括對(duì)詞法、句法、語(yǔ)義等信息的識(shí)別、分類(lèi)、抽取、生成等技術(shù)。
語(yǔ)音處理(Audio):語(yǔ)音處理指機(jī)器從大量的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音特征,學(xué)習(xí)和發(fā)現(xiàn)其中蘊(yùn)含的規(guī)律的過(guò)程。
多模態(tài)(Multi-Modal): 多模態(tài)主要是指讓機(jī)器能夠理解和處理自然界或人工定義的多種模態(tài)信息,如聲音、語(yǔ)言、視覺(jué)信息和表格、點(diǎn)云信息等。多模態(tài)技術(shù)的目的是打通模態(tài)之間溝通的橋梁和通過(guò)信息互補(bǔ)提升理解各自模態(tài)的能力。常見(jiàn)任務(wù)有視覺(jué)問(wèn)答,表格問(wèn)答,圖片描述以及目前火熱的根據(jù)描述生成圖片。
當(dāng)前,ModelScope 社區(qū)平臺(tái)支持的任務(wù)類(lèi)型按照領(lǐng)域分為如下的任務(wù)類(lèi)型,該任務(wù)列表將持續(xù)更新擴(kuò)展。若您有新的任務(wù)類(lèi)型和模型,建議提PR給我們,我們歡迎社區(qū)成員共同來(lái)貢獻(xiàn)和維護(hù)相應(yīng)的任務(wù)列表!
計(jì)算機(jī)視覺(jué)
任務(wù)(英文) | 任務(wù)(中文) | 任務(wù)說(shuō)明 |
---|
ocr-detection | 文字檢測(cè) | 將圖像中的文字檢測(cè)出來(lái)并返回檢測(cè)點(diǎn)坐標(biāo)位置 |
ocr-recognition | 文字識(shí)別 | 將圖像中的文字識(shí)別出來(lái)并返回文本內(nèi)容 |
face-detection | 人臉檢測(cè) | 對(duì)圖像中的人臉進(jìn)行檢測(cè)并返回人臉坐標(biāo)位置 |
face-recognition | 人臉識(shí)別 | 對(duì)圖像中的人臉進(jìn)行檢測(cè)并返回人臉坐標(biāo)位置 |
human-detection | 人體檢測(cè) | 對(duì)圖像中的人體關(guān)鍵點(diǎn)進(jìn)行檢測(cè)并返回關(guān)鍵點(diǎn)標(biāo)簽與坐標(biāo)位置 |
body-2d-keypoints | 人體2D關(guān)鍵點(diǎn) | 檢測(cè)圖像中人體2D關(guān)鍵點(diǎn)位置 |
human-object-interaction | 人物交互關(guān)系 | 對(duì)圖像中的肢體關(guān)鍵點(diǎn)和物品進(jìn)行檢測(cè)和識(shí)別對(duì)坐標(biāo)信息進(jìn)行處理 |
face-image-generation | 人臉生成 | 對(duì)圖像中的人臉進(jìn)行區(qū)域位置檢測(cè)并生成虛擬人臉 |
image-classification | 單標(biāo)簽圖像分類(lèi) | 對(duì)圖像中的不同特征根據(jù)類(lèi)別進(jìn)行區(qū)分 |
image-multilabel-classification | 多標(biāo)簽圖像分類(lèi) | 解析圖像特征支持多個(gè)類(lèi)別區(qū)分 |
image-object-detection | 通用目標(biāo)檢測(cè) | 對(duì)輸入圖像中的較通用物體定位及類(lèi)別判斷 |
image-object-detection | 目標(biāo)檢測(cè)-自動(dòng)駕駛場(chǎng)景 | 對(duì)自動(dòng)駕駛中的場(chǎng)景進(jìn)行目標(biāo)檢測(cè),圖像中的人、車(chē)輛及交通信息等進(jìn)行實(shí)時(shí)解析并進(jìn)行標(biāo)注 |
portrait-matting | 人像摳圖 | 對(duì)輸入的圖像將人體部分摳出并對(duì)背景進(jìn)行透明化處理 |
image-segmentation | 通用圖像分割 | 識(shí)別圖像主體與圖像背景進(jìn)行分離 |
image-protrait-enhancement | 人像增強(qiáng) | 對(duì)圖像中的人像主體進(jìn)行細(xì)節(jié)增強(qiáng) |
skin-retouching | 人像美膚 | 對(duì)圖像中的人像皮膚進(jìn)行細(xì)節(jié)美化 |
image-super-resolution | 圖像超分辨 | 對(duì)圖像進(jìn)行倍數(shù)放大且不丟失畫(huà)面質(zhì)量 |
image-colorization | 圖像上色 | 對(duì)黑白圖像進(jìn)行區(qū)域解析并對(duì)其進(jìn)行類(lèi)別上色 |
image-color-enhancement | 圖像顏色增強(qiáng) | 對(duì)圖像中色彩值進(jìn)行解析并對(duì)其進(jìn)行規(guī)則處理 |
image-denoising | 圖像降噪 | 對(duì)圖像中的噪點(diǎn)進(jìn)行處理降低 |
image-to-image-translation | 圖像翻譯 | 將一張圖片上的文字翻譯成目標(biāo)語(yǔ)言并生成新的圖片 |
image-to-image-generation | 以圖生圖 | 根據(jù)輸入圖像生成新的類(lèi)似圖像 |
image-style-transfer | 風(fēng)格遷移 | 對(duì)圖像或視頻的色彩風(fēng)格進(jìn)行另一種風(fēng)格轉(zhuǎn)化 |
image-portrait-stylization | 人像卡通化 | 對(duì)輸入的圖像進(jìn)行卡通化處理,實(shí)現(xiàn)風(fēng)格變化 |
image-embedding | 圖像表征 | 對(duì)輸入圖像特征進(jìn)行多模態(tài)匹配 |
image-search | 搜索推薦 | 根據(jù)輸入圖像進(jìn)行范圍匹配 |
image-evaluation | 審核評(píng)估 | 對(duì)圖像進(jìn)行解析并自動(dòng)給出一個(gè)評(píng)估信息 |
video-processing | 視頻處理 | 對(duì)視頻信息進(jìn)行自動(dòng)運(yùn)算處理 |
live_category | 直播商品類(lèi)目識(shí)別 | 實(shí)時(shí)解析識(shí)別直播畫(huà)面中的商品類(lèi)別進(jìn)行信息展示 |
action_recognition | 行為識(shí)別 | 對(duì)視頻中的動(dòng)作行為進(jìn)行識(shí)別并返回類(lèi)型 |
video_category | 短視頻內(nèi)容分類(lèi) | 解析短視頻語(yǔ)義進(jìn)行場(chǎng)景分類(lèi) |
video-detecction | 視頻檢測(cè) | 對(duì)視頻信息進(jìn)行內(nèi)容解析 |
video-segmentation | 視頻分割 | 對(duì)視頻信息進(jìn)行背景和主體分離 |
video-generation | 視頻生成 | 對(duì)視頻進(jìn)行解析匹配視頻信息進(jìn)行生成 |
video-editing | 視頻編輯 | 對(duì)視頻進(jìn)行解析轉(zhuǎn)化為可編輯狀態(tài) |
video-embedding | 視頻表征 | 對(duì)視頻特征進(jìn)行多模態(tài)匹配 |
video-search | 視頻檢索 | 對(duì)視頻解析根據(jù)規(guī)則提取部分信息 |
reid-and-tracking | 目標(biāo)跟蹤及重識(shí)別 | 可對(duì)圖片和視頻進(jìn)行目標(biāo)識(shí)別可重復(fù)識(shí)別 |
video-evaluation | 視頻審核評(píng)估 | 根據(jù)規(guī)則對(duì)視頻解析并給出評(píng)估結(jié)果 |
video-ocr | 視頻文本識(shí)別 | 對(duì)視頻中的文字內(nèi)容進(jìn)行識(shí)別 |
video-captioning | 視頻到文本 | 將視頻中的音頻轉(zhuǎn)化為文本信息 |
virtual-try-on | 虛擬試衣 | 給定模特圖片和衣服圖片,合成模特穿上給定衣服的圖片 |
3d-reconstruction | 三維重建 | 對(duì)三維模型解析并重新構(gòu)建 |
3d-recognition | 三維識(shí)別 | 對(duì)三維模型進(jìn)行識(shí)別并進(jìn)行標(biāo)注 |
3d-editing | 三維編輯 | 對(duì)三維模型解析轉(zhuǎn)化為可編輯狀態(tài) |
3d-driven | 驅(qū)動(dòng)交互 | 對(duì)三維模型解析轉(zhuǎn)為為動(dòng)態(tài)效果 |
3d-rendering | 渲染呈現(xiàn) | 對(duì)三維模型進(jìn)行渲染并以圖像展示 |
ar-vr | 增強(qiáng)/虛擬現(xiàn)實(shí) | 對(duì)vr圖像信息進(jìn)行畫(huà)面增強(qiáng) |
自然語(yǔ)言處理
任務(wù)(英文) | 任務(wù)(中文) | 任務(wù)說(shuō)明 |
---|
sentence-similarity | 句子相似度 | 文本相似度服務(wù)提供不同文本之間相似度的計(jì)算,并輸出一個(gè)介于0到1之間的分?jǐn)?shù),分?jǐn)?shù)越大則文本之間的相似度越高 |
nli | 自然語(yǔ)言推理 | 判斷兩個(gè)句子(Premise, Hypothesis)或者兩個(gè)詞之間的語(yǔ)義關(guān)系 |
sentiment-classification | 情感分類(lèi) | 分析并給出文本的情感正負(fù)傾向 |
zero-shot-classification | 零樣本分類(lèi) | 只需要提供待分類(lèi)的句子和類(lèi)別標(biāo)簽即可給出句子類(lèi)別 |
relation-extraction | 關(guān)系抽取 | 非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)中找出主體與客體之間存在的關(guān)系,并將其表示為實(shí)體關(guān)系三元組 |
translation | 翻譯 | 將一種語(yǔ)言的文本翻譯成指定語(yǔ)言的文本 |
word-segmentation | 分詞 | 分詞,將連續(xù)的自然語(yǔ)言文本,切分成具有語(yǔ)義合理性和完整性的詞匯序列 |
part-of-speech | 詞性標(biāo)注 | 指為自然語(yǔ)言文本中的每個(gè)詞匯賦予一個(gè)詞性的過(guò)程,如名詞、動(dòng)詞、副詞等 |
named-entity-recognition | 命名實(shí)體識(shí)別 | 指識(shí)別自然語(yǔ)言文本中具有特定意義的實(shí)體,通用領(lǐng)域如人名、地名、機(jī)構(gòu)名等 |
text-error-correction | 文本糾錯(cuò) | 準(zhǔn)確識(shí)別輸入文本中出現(xiàn)的拼寫(xiě)錯(cuò)別字及其段落位置信息,并針對(duì)性給出正確的建議文本內(nèi)容 |
task-oriented conversation | 任務(wù)型對(duì)話(huà) | 主要指機(jī)器人為滿(mǎn)足用戶(hù)某一需求而產(chǎn)生的多輪對(duì)話(huà),機(jī)器人通過(guò)理解、澄清等方式確定用戶(hù)意圖,繼而通過(guò)答復(fù)、調(diào)用API等方式完成該任務(wù) |
open-domain conversation | 開(kāi)放型對(duì)話(huà) | 無(wú)目的、無(wú)領(lǐng)域約束能夠在開(kāi)放域內(nèi)進(jìn)行有意義的對(duì)話(huà) |
text-generation | 文本生成 | 模型接受各種形式的信息作為輸入,包括文本或者非文本結(jié)構(gòu)化信息等,生成可讀的文字表述。 |
table-question-answering | 表格問(wèn)答 | 給定一張表格和一個(gè)query,query是詢(xún)問(wèn)表格里面的一些信息,模型給出答案 |
sentence-embedding | 句向量 | 將輸入文本從字符轉(zhuǎn)化成向量表示 |
fill-mask | 完形填空 | 輸入一段文本,同時(shí)將里面的部分詞mask掉,模型通過(guò)理解上下文預(yù)測(cè)被mask的詞 |
multilingual-fill-mask | 多語(yǔ)言完形填空 | 輸入各種語(yǔ)言的文本,同時(shí)將里面的部分詞mask掉,模型通過(guò)理解上下文預(yù)測(cè)被mask的詞 |
text-summarization | 文本摘要 | 自動(dòng)抽取輸入文本中的關(guān)鍵信息并生成指定長(zhǎng)度的摘要 |
question-answering | 問(wèn)答 | 給定一長(zhǎng)段文字,然后再給一個(gè)問(wèn)題,然后理解長(zhǎng)段文字之后,對(duì)這個(gè)問(wèn)題進(jìn)行解答。 |
passage-ranking | 篇章排序 | 給出大量的候選段落,然后再給一個(gè)問(wèn)題,模型從大量的候選段落找出能回答問(wèn)題的那個(gè)段落 |
語(yǔ)音處理
任務(wù)(英文) | 任務(wù)(中文) | 任務(wù)說(shuō)明 |
---|
auto-speech-recognition | 語(yǔ)音識(shí)別 | 將人類(lèi)的語(yǔ)音信號(hào)轉(zhuǎn)換成文本或者指令 |
text-to-speech | 語(yǔ)音合成 | 將文本轉(zhuǎn)換成人類(lèi)聽(tīng)的到的聲音 |
acoustic-noise-suppression | 語(yǔ)音降噪 | 對(duì)語(yǔ)音信號(hào)進(jìn)行處理,消除信號(hào)當(dāng)中的噪聲 |
acoustic-echo-cancellation | 回聲消除 | 在信號(hào)處理領(lǐng)域用來(lái)抵消回波信號(hào)的方法 |
keyword-spotting | 語(yǔ)音喚醒 | 對(duì)指定的關(guān)鍵詞進(jìn)行識(shí)別 |
audio-claassification | 音頻分類(lèi) | 對(duì)音頻按照事件如“哭聲”“爆炸聲”“音樂(lè)”等事件類(lèi)型進(jìn)行識(shí)別和分類(lèi) |
voice-activity-detection | 語(yǔ)音端點(diǎn)檢測(cè) | 檢測(cè)人類(lèi)說(shuō)話(huà)聲音的語(yǔ)音起始位置以及中間片段 |
多模態(tài)技術(shù)
任務(wù)(英文) | 任務(wù)(中文) | 任務(wù)說(shuō)明 |
---|
image-captioning | 圖像描述 | 根據(jù)圖片生成一段文本描述 |
visual-grounding | 視覺(jué)定位 | 根據(jù)描述,在圖片中定位出物體框 |
text-to-image-synthesis | 文本生成圖片 | 根據(jù)描述,生成符合描述的圖片 |
multi-modal-embedding | 多模態(tài)表征 | 抽取模態(tài)的向量表征,這些向量在同一個(gè)空間中(目前主要是圖片和文本) |
visual-question-answering | 視覺(jué)問(wèn)答 | 根據(jù)圖片和問(wèn)題,給出文本答案 |
visual-entailment | 視覺(jué)蘊(yùn)含 | 根據(jù)圖片和一段假設(shè),判斷二者的蘊(yùn)含關(guān)系 |
image-text-retrieval | 圖文檢索 | 根據(jù)圖片/文本直接搜索文本/圖片的數(shù)據(jù) |
ModelScope的安裝
ModelScope Library目前支持tensorflow,pytorch深度學(xué)習(xí)框架進(jìn)行模型訓(xùn)練、推理, 在Python 3.7+, Pytorch 1.8+, Tensorflow1.15,Tensorflow 2.x上測(cè)試可運(yùn)行。
注意:語(yǔ)音相關(guān)的功能僅支持 python3.7, tensorflow1.15.4的Linux環(huán)境使用。 其他功能可以在linux、mac x86等環(huán)境上安裝使用。
T1、基于Anaconda安裝
第一步,python環(huán)境配置
conda create -n modelscope python=3.7
conda activate modelscope
第二步,安裝相關(guān)DL框架
pip3 install torch torchvision torchaudio
pip install --upgrade tensorflow
第三步,安裝ModelScope library
NLP | 如僅需體驗(yàn)NLP功能,可執(zhí)行如下命令安裝依賴(lài): pip install "modelscope[nlp]" -f https://modelscope.oss-cn-beijing./releases/repo.html |
CV | 如僅需體驗(yàn)CV功能,可執(zhí)行如下命令安裝依賴(lài): pip install "modelscope[cv]" -f https://modelscope.oss-cn-beijing./releases/repo.html |
多模態(tài) | 如僅需體驗(yàn)多模態(tài)功能,可執(zhí)行如下命令安裝依賴(lài): pip install "modelscope[multi-modal]" -f https://modelscope.oss-cn-beijing./releases/repo.html |
語(yǔ)音 | 如僅需體驗(yàn)語(yǔ)音功能,請(qǐng)執(zhí)行如下命令: pip install "modelscope[audio]" -f https://modelscope.oss-cn-beijing./releases/repo.html |
第四步,測(cè)試
python -c "from modelscope.pipelines import pipeline;print(pipeline('word-segmentation')('今天天氣不錯(cuò),適合 出去游玩'))"
T2、直接在基于PAI-DSW的Jupyterlab內(nèi)建模
ModelScope的使用方法
1、在線(xiàn)體驗(yàn)?zāi)P?/strong>
模型庫(kù):https://www./models

2、創(chuàng)建模型或數(shù)據(jù)集并共享至ModelScope社區(qū)
管方文檔:
https:///docs/%E6%A8%A1%E5%9E%8B%E5%BA%93%E4%BB%8B%E7%BB%8D
第一步,登錄賬號(hào),點(diǎn)擊創(chuàng)建模型或數(shù)據(jù)集

第二步,填寫(xiě)基礎(chǔ)信息
1)基礎(chǔ)信息包括您的模型英文名稱(chēng)、中文名、所有者、許可證類(lèi)型、是否公開(kāi)和模型描述。
許可證類(lèi)型決定您的模型遵循對(duì)應(yīng)的開(kāi)源協(xié)議。
是否公開(kāi)決定您的模型是否能被其他用戶(hù)檢索查看,若設(shè)置為非公開(kāi)模型,則其他用戶(hù)無(wú)法查看,僅您自己查看。您也可以創(chuàng)建后在設(shè)置頁(yè)面進(jìn)行權(quán)限的修改配置。
模型描述建議介紹您的模型的特性和應(yīng)用場(chǎng)景,將展現(xiàn)在模型列表頁(yè)方便用戶(hù)搜索查詢(xún)。
2)上傳README文檔。若您已有README文檔,可直接在此處上傳。若您沒(méi)有README文檔,系統(tǒng)將為您自動(dòng)創(chuàng)建一個(gè)README文檔。 為了讓模型介紹更容易被理解和檢索,我們推薦您按照模型卡片規(guī)范進(jìn)行書(shū)寫(xiě),具體可查看如何寫(xiě)好用的模型卡片。


第三步, 點(diǎn)擊創(chuàng)建模型
系統(tǒng)將根據(jù)您上傳的README.md文件進(jìn)行解析,并展示在模型介紹頁(yè)面。
右側(cè)的demo根據(jù)task進(jìn)行支持,當(dāng)前支持的task類(lèi)型將逐步開(kāi)放,若您在readme中按照要求填寫(xiě)task和demo的示例代碼等信息,系統(tǒng)將自動(dòng)渲染出來(lái)。
若您沒(méi)有README文檔,可在模型文件中找到README.md并點(diǎn)擊編輯進(jìn)行在線(xiàn)編輯。

完成創(chuàng)建后,平臺(tái)將為您分配一個(gè)存儲(chǔ)地址,如下:
git lfs install
git clone http://... /swingtest/text-generation.git
可通過(guò)頁(yè)面或者git的方式將文件添加至該模型庫(kù)中,也可通過(guò)頁(yè)面上傳相關(guān)的模型文件。
第四步,使用python SDK的方式添加模型
其中ACCESS_TOKEN可以通過(guò)用賬號(hào)密碼登錄網(wǎng)站, 前往【個(gè)人中心】->【訪(fǎng)問(wèn)令牌】獲取
from modelscope.hub.api import HubApi
# 1、登錄
api = HubApi()
api.login(YOUR_ACCESS_TOKEN)
# 2、創(chuàng)建模型
api.create_model(
model_id="damo/cv_unet_image-matting_damo",
visibility=ModelVisibility.PUBLIC,
license=Licenses.APACHE_V2,
chinese_name="這是我的第一個(gè)模型",
)
以上例子中,創(chuàng)建出模型的完整模型id為"damo/cv_unet_image-matting_damo",可以在Model/Pipeline種使用。
3、具體案例應(yīng)用
CV之ModelScope:基于ModelScope框架的人臉人像數(shù)據(jù)集利用DCT-Net算法實(shí)現(xiàn)人像卡通化圖文教程之詳細(xì)攻略
CV之ModelScope:基于ModelScope框架的人臉人像數(shù)據(jù)集利用DCT-Net算法實(shí)現(xiàn)人像卡通化圖文教程之詳細(xì)攻略_一個(gè)處女座的程序猿的博客-CSDN博客
NLP之ModelScope:基于ModelScope框架的afqmc數(shù)據(jù)集利用StructBERT預(yù)訓(xùn)練模型的文本相似度算法實(shí)現(xiàn)文本分類(lèi)任務(wù)圖文教程之詳細(xì)攻略
NLP之ModelScope:基于ModelScope框架的afqmc數(shù)據(jù)集利用StructBERT預(yù)訓(xùn)練模型的文本相似度算法實(shí)現(xiàn)文本分類(lèi)任務(wù)圖文教程之詳細(xì)攻略_一個(gè)處女座的程序猿的博客-CSDN博客