談點(diǎn)技術(shù)——關(guān)于Tag
本來不懂技術(shù)的我,因?yàn)?/SPAN>05月23日就tag這個(gè)熱門話題發(fā)表過一點(diǎn)個(gè)人意見——《自由,抑或無序?!》,并有幸得到了herock | keso 等朋友的認(rèn)可和推薦,其中最可貴的是duduwolf同志在【網(wǎng)摘短評(píng)】妥協(xié)用戶有時(shí)候也可認(rèn)為是對(duì)用戶的不負(fù)責(zé)任一文中給出了深度的意見。一周之后終于有時(shí)間就此話題繼續(xù)思考下去,于是寫在這里以便能得到大家的批評(píng)指教!
不敢妄談技術(shù)的我,今天附庸風(fēng)雅談一下自己對(duì)tag在技術(shù)層面的一點(diǎn)理解,希望不會(huì)貽笑大方。就像我在《自由,抑或無序?!》中所提到的,“用技術(shù)手段實(shí)現(xiàn)一勞永逸的服務(wù)策略必將淪為可恥的行為,只有融入服務(wù)商真正的心血、智慧并進(jìn)行過有效加工的服務(wù)才是最終被最廣大用戶期待、推崇和信賴的服務(wù)”——我所批評(píng)的只是像blogbus.com這種采用了簡(jiǎn)陋的技術(shù)導(dǎo)致用戶體驗(yàn)變?cè)愕?/SPAN>BSP(當(dāng)然,那些沒有勇敢采用tag技術(shù)的BSP并非因此而值得表?yè)P(yáng)),而推崇一種能夠?qū)?/SPAN>tag技術(shù)進(jìn)行靈活運(yùn)用、深度加工、并在一定程度上規(guī)避了因用戶濫用 / 誤用 / 個(gè)性化使用tag而導(dǎo)致的信息質(zhì)量降低的做法。 又犯了累贅的毛病,現(xiàn)在直接切入正題。
有一種技術(shù),現(xiàn)在已經(jīng)被一些網(wǎng)站提上研發(fā)計(jì)劃,并且盧亮曾經(jīng)有文專門談及,可能就是我接下來要說的東西,只因?yàn)槲覍?duì)技術(shù)不夠敏感,隱約感到其中存在差別,所以在此仍然大概的說一下。 因?yàn)椴煌挠脩魝€(gè)體之間存在的客觀差異性,在用戶進(jìn)行網(wǎng)摘操作的時(shí)候,難免會(huì)填寫不同的tag內(nèi)容。其中,一種用戶是嫌麻煩、沒有認(rèn)識(shí)到它的價(jià)值、不認(rèn)同它的意義而棄用甚至濫用tag;第二種用戶是因?yàn)閷?duì)所摘錄內(nèi)容的理解不到位而誤用tag;第三種是因?yàn)椴煌挠脩魝€(gè)體之間因?yàn)槲幕?、觀念、思維方式等存在的天然差別而過于個(gè)性化的選用tag。所有這些情況都將導(dǎo)致應(yīng)用tag進(jìn)行內(nèi)容聚合的結(jié)果的質(zhì)量下降,即便在將來因?yàn)橛行У挠脩艚逃欢ǔ潭壬蠝p少了濫用和誤用的現(xiàn)象,過于個(gè)性化的選用仍將導(dǎo)致同樣問題的存在。 我設(shè)想的解決方案: 首先,基于語言科學(xué)由人工設(shè)計(jì)一定數(shù)量的基本tag并進(jìn)行分類整理,建立起一個(gè)基本覆蓋所有漢語詞匯和英語熱門詞匯的tag集; 其次,結(jié)合進(jìn)用戶所提交的個(gè)性化tag并引進(jìn)機(jī)器自動(dòng)分類的方法,進(jìn)行動(dòng) 態(tài)的學(xué)習(xí)更新; 第三,人工+機(jī)器智能相結(jié)合建立“tag—分類”的全面對(duì)應(yīng)關(guān)系; 第四,用戶提交tag的時(shí)候由系統(tǒng)自動(dòng)進(jìn)行判斷——tag內(nèi)容與摘要內(nèi)容進(jìn)行適用性判斷,tag與分類進(jìn)行關(guān)聯(lián)性判斷; 第五,判斷完成后網(wǎng)摘信息對(duì)應(yīng)到相應(yīng)的分類條目,此分類信息與用戶提交的tag關(guān)聯(lián)保存; 第六,用戶使用tag進(jìn)行查詢的時(shí)候(包括tag圖的方式),網(wǎng)摘信息中所使用的tag與查詢所使用的tag有重合且網(wǎng)摘所用tag 與摘要內(nèi)容不存在矛盾的信息在最前;查詢所用的tag 僅與網(wǎng)摘信息中的摘要內(nèi)容存在重合的信息在第二位;查詢所用tag 與網(wǎng)摘所用的tag 沒有重合,但有部分被歸屬到相同分類下的信息在第三位。 這個(gè)思路應(yīng)該是對(duì)盧亮提到的新聞聚類、分類的初級(jí)理解,但運(yùn)用到網(wǎng)摘技術(shù)中,因?yàn)槊織l網(wǎng)摘都由用戶進(jìn)行了內(nèi)容摘要,并進(jìn)行了或者優(yōu)秀、低效,或者正確、錯(cuò)誤的一次處理,這在很大程度上方便了搜索引擎的二次判斷處理。 這種比較繁瑣的做法應(yīng)該對(duì)應(yīng)用tag進(jìn)行信息提交,并應(yīng)用tag進(jìn)行信息聚合、查詢的功能質(zhì)量和效率都有所提高。至少比時(shí)下只對(duì)網(wǎng)摘信息數(shù)據(jù)庫(kù)進(jìn)行一一對(duì)應(yīng)的查詢要發(fā)達(dá)得多,但這種模糊查詢帶來了一定的技術(shù)成本和系統(tǒng)成本,對(duì)網(wǎng)摘服務(wù)提供商來講是否值得開發(fā)就要考慮性價(jià)比的問題了。但是,我一直認(rèn)為:各博客服務(wù)提供商、網(wǎng)絡(luò)書簽服務(wù)提供商要勇敢承擔(dān)起信息篩選、濾噪甚至是標(biāo)準(zhǔn)化的艱巨工作,在廣大用戶真正養(yǎng)成良好的使用習(xí)慣之前,這很有可能成為區(qū)別實(shí)力派網(wǎng)站和邊緣化網(wǎng)站的重要區(qū)隔。
希望有一天,能讓下面的四句打油詩(shī)可以言之有物: TAG實(shí)可貴,信息價(jià)更高??v為質(zhì)量故,自由亦不拋! |
|