【原】AI：ModelScope(一站式開(kāi)源的模型即服務(wù)共享平臺(tái))的簡(jiǎn)介、安裝、使用方法之詳細(xì)攻略

處女座的程序猿 2022-10-21 發(fā)布于上海

展開(kāi)全文

導(dǎo)讀：ModelScope旨在打造下一代開(kāi)源的模型即服務(wù)共享平臺(tái)，匯集了行業(yè)領(lǐng)先的預(yù)訓(xùn)練模型，減少了開(kāi)發(fā)者的重復(fù)研發(fā)成本。個(gè)人認(rèn)為，相比于AI公司經(jīng)常賣(mài)一款軟件產(chǎn)品或者賣(mài)一個(gè)算法需求，而ModelScope更偏向于某種功能(model端到端)實(shí)現(xiàn)，初級(jí)AI從業(yè)者也能很容易實(shí)現(xiàn)大模型，有點(diǎn)低代碼的感覺(jué)。當(dāng)前ModelScope的功能，相比于CV、NLP的豐富內(nèi)容，它在DS方面、可視化方面、解釋性方面的就相對(duì)較少，同時(shí)，產(chǎn)品定位 To B和To C的功能域劃分，也不算是很清晰，當(dāng)然這也是該領(lǐng)域一個(gè)共同困擾。首次，當(dāng)然可以先初級(jí)版本開(kāi)源，其次，平臺(tái)可以集大智慧，最后，模型迭代實(shí)現(xiàn)功能升級(jí)。對(duì)比國(guó)外也有類(lèi)似平臺(tái)或服務(wù)產(chǎn)品，六年的快速發(fā)展，如今實(shí)現(xiàn)估值十多億美元。而在國(guó)內(nèi)，隨著人工智能場(chǎng)景的無(wú)處不在，也有著上千萬(wàn)的開(kāi)發(fā)者，國(guó)內(nèi)人工智能領(lǐng)域活躍度也異?？涨?，且有達(dá)摩院品牌的加持，ModelScope，六年的時(shí)間，會(huì)走到哪里呢？是否會(huì)迎來(lái)一個(gè)面向機(jī)器學(xué)習(xí)社區(qū)的新生態(tài)？一個(gè)嶄新的獨(dú)角獸？讓我們拭目以待吧……

ModelScope的簡(jiǎn)介

匯聚機(jī)器學(xué)習(xí)領(lǐng)域中最先進(jìn)的開(kāi)源模型，為開(kāi)發(fā)者提供簡(jiǎn)單易用的模型構(gòu)建、訓(xùn)練、部署等一站式產(chǎn)品服務(wù)，讓模型應(yīng)用更簡(jiǎn)單。
ModelScope旨在打造下一代開(kāi)源的模型即服務(wù)共享平臺(tái)，為泛AI開(kāi)發(fā)者提供靈活、易用、低成本的一站式模型服務(wù)產(chǎn)品，讓模型應(yīng)用更簡(jiǎn)單！
我們希望在匯集行業(yè)領(lǐng)先的預(yù)訓(xùn)練模型，減少開(kāi)發(fā)者的重復(fù)研發(fā)成本，提供更加綠色環(huán)保、開(kāi)源開(kāi)放的AI開(kāi)發(fā)環(huán)境和模型服務(wù)，助力綠色“數(shù)字經(jīng)濟(jì)”事業(yè)的建設(shè)。 ModelScope平臺(tái)將以開(kāi)源的方式提供多類(lèi)優(yōu)質(zhì)模型，開(kāi)發(fā)者可在平臺(tái)上免費(fèi)體驗(yàn)與下載使用。
若您也和我們有相同的初衷，歡迎關(guān)注我們，我們鼓勵(lì)并支持個(gè)人或企業(yè)開(kāi)發(fā)者與我們聯(lián)系，平臺(tái)將為您構(gòu)建更好的支持服務(wù)，共同為泛AI社區(qū)做出貢獻(xiàn)。

官網(wǎng)：https:///home

官網(wǎng)文檔：https:///docs/%E6%A6%82%E8%A7%88%E4%BB%8B%E7%BB%8D

1、ModelScope 社區(qū)簡(jiǎn)介

ModelScope 社區(qū)是什么

基于達(dá)摩院機(jī)器智能、大模型、xr實(shí)驗(yàn)室等一些前沿技術(shù)所誕生的模型即服務(wù)共享平臺(tái)。提供開(kāi)源數(shù)據(jù)集、開(kāi)源模型、模型工具等，用社區(qū)的方式免費(fèi)開(kāi)發(fā)給廣大個(gè)人、企業(yè)用戶(hù)使用。它提供了模型管理檢索、模型下載、模型調(diào)優(yōu)和訓(xùn)練模型推理。目前版本優(yōu)先開(kāi)放了模型調(diào)優(yōu)訓(xùn)練和推理，后續(xù)會(huì)開(kāi)放模型部署及模型應(yīng)用服務(wù)。

提供什么服務(wù)

? 開(kāi)源開(kāi)發(fā)框架：是一套Python的SDK，通過(guò)簡(jiǎn)單地集成方式可以快速的實(shí)現(xiàn)模型效果，比如一行代碼實(shí)現(xiàn)模型推理，幾行代碼實(shí)現(xiàn)模型調(diào)優(yōu)。

? 開(kāi)源模型庫(kù)：社區(qū)會(huì)提供一個(gè)開(kāi)源模型庫(kù)里面包含了全行業(yè)的SOTA模型。

? 開(kāi)源數(shù)據(jù)集：社區(qū)會(huì)提供達(dá)摩院沉淀的電商領(lǐng)域數(shù)據(jù)集以及一些通用領(lǐng)域的數(shù)據(jù)集，結(jié)合業(yè)內(nèi)一些經(jīng)典數(shù)據(jù)集配合工具自動(dòng)對(duì)外開(kāi)放

? 實(shí)訓(xùn)框架：集成了PAI機(jī)器學(xué)習(xí)框架及DSW，可以實(shí)現(xiàn)在線(xiàn)的模型訓(xùn)練和推理工作，未來(lái)DSW中也會(huì)集成ModelScope社區(qū)整套的開(kāi)發(fā)環(huán)境，可以讓初階用戶(hù)快速的通過(guò)PAI和DSW實(shí)現(xiàn)模型把玩。同時(shí)還支持本地環(huán)境直接獲取模型和復(fù)制相應(yīng)的模型代碼，在本地實(shí)現(xiàn)模型調(diào)優(yōu)和推理工作。

? 文檔教程：社區(qū)提供了全套的文檔和教程可以更好幫助開(kāi)發(fā)者使用社區(qū)相關(guān)服務(wù)。

? 開(kāi)發(fā)者社區(qū)：社區(qū)提供了開(kāi)發(fā)者交流、溝通及反饋的能力板塊。

ModelScope 社區(qū)愿景

社區(qū)希望支持廣大開(kāi)發(fā)者通過(guò)社區(qū)平臺(tái)學(xué)習(xí)和實(shí)踐AI，從社區(qū)中可以獲取所需的模型信息。對(duì)于初階開(kāi)發(fā)者可以在社區(qū)中使用模型，對(duì)于中高階開(kāi)發(fā)者可以通過(guò)社區(qū)調(diào)優(yōu)評(píng)測(cè)模型并用于自己的個(gè)性化業(yè)務(wù)場(chǎng)景。

同時(shí)社區(qū)也非常歡迎各類(lèi)開(kāi)發(fā)者加入社區(qū)并分享自身研發(fā)或沉淀的模型，通過(guò)在社區(qū)內(nèi)不斷學(xué)習(xí)實(shí)踐及自由交流形成AI領(lǐng)域的意見(jiàn)領(lǐng)袖或行業(yè)先鋒，為中國(guó)AI開(kāi)源宏偉事業(yè)貢獻(xiàn)力量。

2、對(duì)開(kāi)發(fā)者好處

免費(fèi)使用平臺(tái)提供的預(yù)訓(xùn)練模型，支持免費(fèi)下載運(yùn)行；
一行命令實(shí)現(xiàn)模型預(yù)測(cè)，簡(jiǎn)單快速驗(yàn)證模型效果；
用自己的數(shù)據(jù)對(duì)模型進(jìn)行調(diào)優(yōu)，定制自己的個(gè)性化模型；
學(xué)習(xí)系統(tǒng)性的知識(shí)，結(jié)合實(shí)訓(xùn)，有效提升模型研發(fā)能力；
分享和貢獻(xiàn)你的想法、評(píng)論與模型，讓更多人認(rèn)識(shí)你，在社區(qū)中成長(zhǎng)；

3、ModelScope提供的服務(wù)

千億參數(shù)大模型全面開(kāi)放
多領(lǐng)域SOTA“百模”開(kāi)源
10行代碼實(shí)現(xiàn)模型finetune
1行代碼實(shí)現(xiàn)模型推理

豐富的預(yù)訓(xùn)練SOTA模型	覆蓋NLP、CV、Audio等多領(lǐng)域的具有競(jìng)爭(zhēng)力的SOTA模型，更有行業(yè)領(lǐng)先的多模態(tài)大模型，全部免費(fèi)開(kāi)放下載以及使用。
多元開(kāi)放的數(shù)據(jù)集	匯集行業(yè)和學(xué)術(shù)熱門(mén)的公開(kāi)數(shù)據(jù)集，更有阿里巴巴集團(tuán)貢獻(xiàn)的專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)集等你來(lái)探索。
一行代碼使用模型推理能力	提供基于模型的本地推理接口，以及線(xiàn)上模型推理預(yù)測(cè)服務(wù)，方便開(kāi)發(fā)者快速驗(yàn)證與使用。
十行代碼快速構(gòu)建專(zhuān)屬行業(yè)模型	十行代碼實(shí)現(xiàn)對(duì)預(yù)訓(xùn)練模型的調(diào)優(yōu)訓(xùn)練（finetune），方便開(kāi)發(fā)者基于行業(yè)數(shù)據(jù)集快速構(gòu)建專(zhuān)屬行業(yè)模型。
即開(kāi)即用的在線(xiàn)開(kāi)發(fā)平臺(tái)	一鍵開(kāi)啟在線(xiàn)notebook實(shí)訓(xùn)平臺(tái)，集成官方鏡像免除環(huán)境安裝困擾，鏈接澎湃云端算力，體驗(yàn)便捷的交互式編程。
靈活的模型框架與部署方式	兼容主流AI框架，更好地實(shí)現(xiàn)模型遷移；多種模型訓(xùn)練與服務(wù)部署方式，提供更多自主可控的選擇。
豐富的教學(xué)內(nèi)容與技術(shù)資源	提供友好的優(yōu)質(zhì)的教程內(nèi)容與開(kāi)放的社區(qū)氛圍，幫助開(kāi)發(fā)者學(xué)習(xí)成長(zhǎng)。（內(nèi)容持續(xù)更新中，敬請(qǐng)關(guān)注）

4、 ModelScope 社區(qū)平臺(tái)覆蓋多個(gè)領(lǐng)域的模型任務(wù)——CV、NLP、Audio、Multi-Modal

官方文檔：
https://www./docs/%E4%BB%BB%E5%8A%A1%E7%9A%84%E4%BB%8B%E7%BB%8D

ModelScope 社區(qū)平臺(tái)提供了覆蓋多個(gè)領(lǐng)域的模型任務(wù)，包括自然語(yǔ)言處理（NLP）、計(jì)算機(jī)視覺(jué)（CV)、語(yǔ)音（Audio)、多模態(tài)（Multi-Modal）等，并提供相關(guān)任務(wù)的推理、訓(xùn)練等服務(wù)。

計(jì)算機(jī)視覺(jué)（CV)：計(jì)算機(jī)視覺(jué)是指機(jī)器感知環(huán)境的能力。這一技術(shù)類(lèi)別中的經(jīng)典任務(wù)有圖像形成、圖像處理、圖像提取和圖像的三維推理。
自然語(yǔ)言處理（NLP）：自然語(yǔ)言處理是人工智能和語(yǔ)言學(xué)領(lǐng)域的分支學(xué)科。自然語(yǔ)言處理融合了計(jì)算機(jī)科學(xué)，語(yǔ)言學(xué)和機(jī)器學(xué)習(xí)的交叉學(xué)科，利用計(jì)算機(jī)技術(shù)對(duì)語(yǔ)言進(jìn)行處理和加工的科學(xué)，包括對(duì)詞法、句法、語(yǔ)義等信息的識(shí)別、分類(lèi)、抽取、生成等技術(shù)。
語(yǔ)音處理（Audio)：語(yǔ)音處理指機(jī)器從大量的語(yǔ)音數(shù)據(jù)中提取語(yǔ)音特征，學(xué)習(xí)和發(fā)現(xiàn)其中蘊(yùn)含的規(guī)律的過(guò)程。
多模態(tài)（Multi-Modal）: 多模態(tài)主要是指讓機(jī)器能夠理解和處理自然界或人工定義的多種模態(tài)信息，如聲音、語(yǔ)言、視覺(jué)信息和表格、點(diǎn)云信息等。多模態(tài)技術(shù)的目的是打通模態(tài)之間溝通的橋梁和通過(guò)信息互補(bǔ)提升理解各自模態(tài)的能力。常見(jiàn)任務(wù)有視覺(jué)問(wèn)答，表格問(wèn)答，圖片描述以及目前火熱的根據(jù)描述生成圖片。

當(dāng)前，ModelScope 社區(qū)平臺(tái)支持的任務(wù)類(lèi)型按照領(lǐng)域分為如下的任務(wù)類(lèi)型，該任務(wù)列表將持續(xù)更新擴(kuò)展。若您有新的任務(wù)類(lèi)型和模型，建議提PR給我們，我們歡迎社區(qū)成員共同來(lái)貢獻(xiàn)和維護(hù)相應(yīng)的任務(wù)列表！

計(jì)算機(jī)視覺(jué)

任務(wù)（英文）	任務(wù)（中文）	任務(wù)說(shuō)明
ocr-detection	文字檢測(cè)	將圖像中的文字檢測(cè)出來(lái)并返回檢測(cè)點(diǎn)坐標(biāo)位置
ocr-recognition	文字識(shí)別	將圖像中的文字識(shí)別出來(lái)并返回文本內(nèi)容
face-detection	人臉檢測(cè)	對(duì)圖像中的人臉進(jìn)行檢測(cè)并返回人臉坐標(biāo)位置
face-recognition	人臉識(shí)別	對(duì)圖像中的人臉進(jìn)行檢測(cè)并返回人臉坐標(biāo)位置
human-detection	人體檢測(cè)	對(duì)圖像中的人體關(guān)鍵點(diǎn)進(jìn)行檢測(cè)并返回關(guān)鍵點(diǎn)標(biāo)簽與坐標(biāo)位置
body-2d-keypoints	人體2D關(guān)鍵點(diǎn)	檢測(cè)圖像中人體2D關(guān)鍵點(diǎn)位置
human-object-interaction	人物交互關(guān)系	對(duì)圖像中的肢體關(guān)鍵點(diǎn)和物品進(jìn)行檢測(cè)和識(shí)別對(duì)坐標(biāo)信息進(jìn)行處理
face-image-generation	人臉生成	對(duì)圖像中的人臉進(jìn)行區(qū)域位置檢測(cè)并生成虛擬人臉
image-classification	單標(biāo)簽圖像分類(lèi)	對(duì)圖像中的不同特征根據(jù)類(lèi)別進(jìn)行區(qū)分
image-multilabel-classification	多標(biāo)簽圖像分類(lèi)	解析圖像特征支持多個(gè)類(lèi)別區(qū)分
image-object-detection	通用目標(biāo)檢測(cè)	對(duì)輸入圖像中的較通用物體定位及類(lèi)別判斷
image-object-detection	目標(biāo)檢測(cè)-自動(dòng)駕駛場(chǎng)景	對(duì)自動(dòng)駕駛中的場(chǎng)景進(jìn)行目標(biāo)檢測(cè)，圖像中的人、車(chē)輛及交通信息等進(jìn)行實(shí)時(shí)解析并進(jìn)行標(biāo)注
portrait-matting	人像摳圖	對(duì)輸入的圖像將人體部分摳出并對(duì)背景進(jìn)行透明化處理
image-segmentation	通用圖像分割	識(shí)別圖像主體與圖像背景進(jìn)行分離
image-protrait-enhancement	人像增強(qiáng)	對(duì)圖像中的人像主體進(jìn)行細(xì)節(jié)增強(qiáng)
skin-retouching	人像美膚	對(duì)圖像中的人像皮膚進(jìn)行細(xì)節(jié)美化
image-super-resolution	圖像超分辨	對(duì)圖像進(jìn)行倍數(shù)放大且不丟失畫(huà)面質(zhì)量
image-colorization	圖像上色	對(duì)黑白圖像進(jìn)行區(qū)域解析并對(duì)其進(jìn)行類(lèi)別上色
image-color-enhancement	圖像顏色增強(qiáng)	對(duì)圖像中色彩值進(jìn)行解析并對(duì)其進(jìn)行規(guī)則處理
image-denoising	圖像降噪	對(duì)圖像中的噪點(diǎn)進(jìn)行處理降低
image-to-image-translation	圖像翻譯	將一張圖片上的文字翻譯成目標(biāo)語(yǔ)言并生成新的圖片
image-to-image-generation	以圖生圖	根據(jù)輸入圖像生成新的類(lèi)似圖像
image-style-transfer	風(fēng)格遷移	對(duì)圖像或視頻的色彩風(fēng)格進(jìn)行另一種風(fēng)格轉(zhuǎn)化
image-portrait-stylization	人像卡通化	對(duì)輸入的圖像進(jìn)行卡通化處理，實(shí)現(xiàn)風(fēng)格變化
image-embedding	圖像表征	對(duì)輸入圖像特征進(jìn)行多模態(tài)匹配
image-search	搜索推薦	根據(jù)輸入圖像進(jìn)行范圍匹配
image-evaluation	審核評(píng)估	對(duì)圖像進(jìn)行解析并自動(dòng)給出一個(gè)評(píng)估信息
video-processing	視頻處理	對(duì)視頻信息進(jìn)行自動(dòng)運(yùn)算處理
live_category	直播商品類(lèi)目識(shí)別	實(shí)時(shí)解析識(shí)別直播畫(huà)面中的商品類(lèi)別進(jìn)行信息展示
action_recognition	行為識(shí)別	對(duì)視頻中的動(dòng)作行為進(jìn)行識(shí)別并返回類(lèi)型
video_category	短視頻內(nèi)容分類(lèi)	解析短視頻語(yǔ)義進(jìn)行場(chǎng)景分類(lèi)
video-detecction	視頻檢測(cè)	對(duì)視頻信息進(jìn)行內(nèi)容解析
video-segmentation	視頻分割	對(duì)視頻信息進(jìn)行背景和主體分離
video-generation	視頻生成	對(duì)視頻進(jìn)行解析匹配視頻信息進(jìn)行生成
video-editing	視頻編輯	對(duì)視頻進(jìn)行解析轉(zhuǎn)化為可編輯狀態(tài)
video-embedding	視頻表征	對(duì)視頻特征進(jìn)行多模態(tài)匹配
video-search	視頻檢索	對(duì)視頻解析根據(jù)規(guī)則提取部分信息
reid-and-tracking	目標(biāo)跟蹤及重識(shí)別	可對(duì)圖片和視頻進(jìn)行目標(biāo)識(shí)別可重復(fù)識(shí)別
video-evaluation	視頻審核評(píng)估	根據(jù)規(guī)則對(duì)視頻解析并給出評(píng)估結(jié)果
video-ocr	視頻文本識(shí)別	對(duì)視頻中的文字內(nèi)容進(jìn)行識(shí)別
video-captioning	視頻到文本	將視頻中的音頻轉(zhuǎn)化為文本信息
virtual-try-on	虛擬試衣	給定模特圖片和衣服圖片，合成模特穿上給定衣服的圖片
3d-reconstruction	三維重建	對(duì)三維模型解析并重新構(gòu)建
3d-recognition	三維識(shí)別	對(duì)三維模型進(jìn)行識(shí)別并進(jìn)行標(biāo)注
3d-editing	三維編輯	對(duì)三維模型解析轉(zhuǎn)化為可編輯狀態(tài)
3d-driven	驅(qū)動(dòng)交互	對(duì)三維模型解析轉(zhuǎn)為為動(dòng)態(tài)效果
3d-rendering	渲染呈現(xiàn)	對(duì)三維模型進(jìn)行渲染并以圖像展示
ar-vr	增強(qiáng)/虛擬現(xiàn)實(shí)	對(duì)vr圖像信息進(jìn)行畫(huà)面增強(qiáng)

自然語(yǔ)言處理

任務(wù)（英文）	任務(wù)（中文）	任務(wù)說(shuō)明
sentence-similarity	句子相似度	文本相似度服務(wù)提供不同文本之間相似度的計(jì)算，并輸出一個(gè)介于0到1之間的分?jǐn)?shù)，分?jǐn)?shù)越大則文本之間的相似度越高
nli	自然語(yǔ)言推理	判斷兩個(gè)句子（Premise, Hypothesis）或者兩個(gè)詞之間的語(yǔ)義關(guān)系
sentiment-classification	情感分類(lèi)	分析并給出文本的情感正負(fù)傾向
zero-shot-classification	零樣本分類(lèi)	只需要提供待分類(lèi)的句子和類(lèi)別標(biāo)簽即可給出句子類(lèi)別
relation-extraction	關(guān)系抽取	非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)中找出主體與客體之間存在的關(guān)系，并將其表示為實(shí)體關(guān)系三元組
translation	翻譯	將一種語(yǔ)言的文本翻譯成指定語(yǔ)言的文本
word-segmentation	分詞	分詞，將連續(xù)的自然語(yǔ)言文本，切分成具有語(yǔ)義合理性和完整性的詞匯序列
part-of-speech	詞性標(biāo)注	指為自然語(yǔ)言文本中的每個(gè)詞匯賦予一個(gè)詞性的過(guò)程，如名詞、動(dòng)詞、副詞等
named-entity-recognition	命名實(shí)體識(shí)別	指識(shí)別自然語(yǔ)言文本中具有特定意義的實(shí)體，通用領(lǐng)域如人名、地名、機(jī)構(gòu)名等
text-error-correction	文本糾錯(cuò)	準(zhǔn)確識(shí)別輸入文本中出現(xiàn)的拼寫(xiě)錯(cuò)別字及其段落位置信息，并針對(duì)性給出正確的建議文本內(nèi)容
task-oriented conversation	任務(wù)型對(duì)話(huà)	主要指機(jī)器人為滿(mǎn)足用戶(hù)某一需求而產(chǎn)生的多輪對(duì)話(huà)，機(jī)器人通過(guò)理解、澄清等方式確定用戶(hù)意圖，繼而通過(guò)答復(fù)、調(diào)用API等方式完成該任務(wù)
open-domain conversation	開(kāi)放型對(duì)話(huà)	無(wú)目的、無(wú)領(lǐng)域約束能夠在開(kāi)放域內(nèi)進(jìn)行有意義的對(duì)話(huà)
text-generation	文本生成	模型接受各種形式的信息作為輸入，包括文本或者非文本結(jié)構(gòu)化信息等，生成可讀的文字表述。
table-question-answering	表格問(wèn)答	給定一張表格和一個(gè)query，query是詢(xún)問(wèn)表格里面的一些信息，模型給出答案
sentence-embedding	句向量	將輸入文本從字符轉(zhuǎn)化成向量表示
fill-mask	完形填空	輸入一段文本，同時(shí)將里面的部分詞mask掉，模型通過(guò)理解上下文預(yù)測(cè)被mask的詞
multilingual-fill-mask	多語(yǔ)言完形填空	輸入各種語(yǔ)言的文本，同時(shí)將里面的部分詞mask掉，模型通過(guò)理解上下文預(yù)測(cè)被mask的詞
text-summarization	文本摘要	自動(dòng)抽取輸入文本中的關(guān)鍵信息并生成指定長(zhǎng)度的摘要
question-answering	問(wèn)答	給定一長(zhǎng)段文字，然后再給一個(gè)問(wèn)題，然后理解長(zhǎng)段文字之后，對(duì)這個(gè)問(wèn)題進(jìn)行解答。
passage-ranking	篇章排序	給出大量的候選段落，然后再給一個(gè)問(wèn)題，模型從大量的候選段落找出能回答問(wèn)題的那個(gè)段落

語(yǔ)音處理

任務(wù)（英文）	任務(wù)（中文）	任務(wù)說(shuō)明
auto-speech-recognition	語(yǔ)音識(shí)別	將人類(lèi)的語(yǔ)音信號(hào)轉(zhuǎn)換成文本或者指令
text-to-speech	語(yǔ)音合成	將文本轉(zhuǎn)換成人類(lèi)聽(tīng)的到的聲音
acoustic-noise-suppression	語(yǔ)音降噪	對(duì)語(yǔ)音信號(hào)進(jìn)行處理，消除信號(hào)當(dāng)中的噪聲
acoustic-echo-cancellation	回聲消除	在信號(hào)處理領(lǐng)域用來(lái)抵消回波信號(hào)的方法
keyword-spotting	語(yǔ)音喚醒	對(duì)指定的關(guān)鍵詞進(jìn)行識(shí)別
audio-claassification	音頻分類(lèi)	對(duì)音頻按照事件如“哭聲”“爆炸聲”“音樂(lè)”等事件類(lèi)型進(jìn)行識(shí)別和分類(lèi)
voice-activity-detection	語(yǔ)音端點(diǎn)檢測(cè)	檢測(cè)人類(lèi)說(shuō)話(huà)聲音的語(yǔ)音起始位置以及中間片段

多模態(tài)技術(shù)

任務(wù)（英文）	任務(wù)（中文）	任務(wù)說(shuō)明
image-captioning	圖像描述	根據(jù)圖片生成一段文本描述
visual-grounding	視覺(jué)定位	根據(jù)描述，在圖片中定位出物體框
text-to-image-synthesis	文本生成圖片	根據(jù)描述，生成符合描述的圖片
multi-modal-embedding	多模態(tài)表征	抽取模態(tài)的向量表征，這些向量在同一個(gè)空間中（目前主要是圖片和文本）
visual-question-answering	視覺(jué)問(wèn)答	根據(jù)圖片和問(wèn)題，給出文本答案
visual-entailment	視覺(jué)蘊(yùn)含	根據(jù)圖片和一段假設(shè)，判斷二者的蘊(yùn)含關(guān)系
image-text-retrieval	圖文檢索	根據(jù)圖片/文本直接搜索文本/圖片的數(shù)據(jù)

ModelScope的安裝

ModelScope Library目前支持tensorflow，pytorch深度學(xué)習(xí)框架進(jìn)行模型訓(xùn)練、推理，在Python 3.7+, Pytorch 1.8+, Tensorflow1.15，Tensorflow 2.x上測(cè)試可運(yùn)行。
注意：語(yǔ)音相關(guān)的功能僅支持 python3.7, tensorflow1.15.4的Linux環(huán)境使用。其他功能可以在linux、mac x86等環(huán)境上安裝使用。

T1、基于Anaconda安裝

第一步，python環(huán)境配置

conda create -n modelscope python=3.7
conda activate modelscope

第二步，安裝相關(guān)DL框架

pip3 install torch torchvision torchaudio
pip install --upgrade tensorflow

第三步，安裝ModelScope library

NLP	如僅需體驗(yàn)NLP功能，可執(zhí)行如下命令安裝依賴(lài)： pip install "modelscope[nlp]" -f https://modelscope.oss-cn-beijing./releases/repo.html
CV	如僅需體驗(yàn)CV功能，可執(zhí)行如下命令安裝依賴(lài)： pip install "modelscope[cv]" -f https://modelscope.oss-cn-beijing./releases/repo.html
多模態(tài)	如僅需體驗(yàn)多模態(tài)功能，可執(zhí)行如下命令安裝依賴(lài)： pip install "modelscope[multi-modal]" -f https://modelscope.oss-cn-beijing./releases/repo.html
語(yǔ)音	如僅需體驗(yàn)語(yǔ)音功能，請(qǐng)執(zhí)行如下命令： pip install "modelscope[audio]" -f https://modelscope.oss-cn-beijing./releases/repo.html

第四步，測(cè)試

python -c "from modelscope.pipelines import pipeline;print(pipeline('word-segmentation')('今天天氣不錯(cuò)，適合 出去游玩'))"

T2、直接在基于PAI-DSW的Jupyterlab內(nèi)建模

ModelScope的使用方法

1、在線(xiàn)體驗(yàn)?zāi)Ｐ?/strong>

模型庫(kù)：https://www./models

2、創(chuàng)建模型或數(shù)據(jù)集并共享至ModelScope社區(qū)

管方文檔：
https:///docs/%E6%A8%A1%E5%9E%8B%E5%BA%93%E4%BB%8B%E7%BB%8D

第一步，登錄賬號(hào)，點(diǎn)擊創(chuàng)建模型或數(shù)據(jù)集

第二步，填寫(xiě)基礎(chǔ)信息

1）基礎(chǔ)信息包括您的模型英文名稱(chēng)、中文名、所有者、許可證類(lèi)型、是否公開(kāi)和模型描述。

許可證類(lèi)型決定您的模型遵循對(duì)應(yīng)的開(kāi)源協(xié)議。
是否公開(kāi)決定您的模型是否能被其他用戶(hù)檢索查看，若設(shè)置為非公開(kāi)模型，則其他用戶(hù)無(wú)法查看，僅您自己查看。您也可以創(chuàng)建后在設(shè)置頁(yè)面進(jìn)行權(quán)限的修改配置。
模型描述建議介紹您的模型的特性和應(yīng)用場(chǎng)景，將展現(xiàn)在模型列表頁(yè)方便用戶(hù)搜索查詢(xún)。

2）上傳README文檔。若您已有README文檔，可直接在此處上傳。若您沒(méi)有README文檔，系統(tǒng)將為您自動(dòng)創(chuàng)建一個(gè)README文檔。為了讓模型介紹更容易被理解和檢索，我們推薦您按照模型卡片規(guī)范進(jìn)行書(shū)寫(xiě)，具體可查看如何寫(xiě)好用的模型卡片。

第三步，點(diǎn)擊創(chuàng)建模型

系統(tǒng)將根據(jù)您上傳的README.md文件進(jìn)行解析，并展示在模型介紹頁(yè)面。
右側(cè)的demo根據(jù)task進(jìn)行支持，當(dāng)前支持的task類(lèi)型將逐步開(kāi)放，若您在readme中按照要求填寫(xiě)task和demo的示例代碼等信息，系統(tǒng)將自動(dòng)渲染出來(lái)。
若您沒(méi)有README文檔，可在模型文件中找到README.md并點(diǎn)擊編輯進(jìn)行在線(xiàn)編輯。

完成創(chuàng)建后，平臺(tái)將為您分配一個(gè)存儲(chǔ)地址，如下：

git lfs install
git clone http://... /swingtest/text-generation.git

可通過(guò)頁(yè)面或者git的方式將文件添加至該模型庫(kù)中，也可通過(guò)頁(yè)面上傳相關(guān)的模型文件。

第四步，使用python SDK的方式添加模型

其中ACCESS_TOKEN可以通過(guò)用賬號(hào)密碼登錄網(wǎng)站, 前往【個(gè)人中心】->【訪(fǎng)問(wèn)令牌】獲取

from modelscope.hub.api import HubApi

# 1、登錄
api = HubApi()
api.login(YOUR_ACCESS_TOKEN)


# 2、創(chuàng)建模型
api.create_model(
    model_id="damo/cv_unet_image-matting_damo",
    visibility=ModelVisibility.PUBLIC,
    license=Licenses.APACHE_V2,
    chinese_name="這是我的第一個(gè)模型",
)

以上例子中，創(chuàng)建出模型的完整模型id為"damo/cv_unet_image-matting_damo"，可以在Model/Pipeline種使用。