日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

基于WEB 的數(shù)據(jù)挖掘綜述

 Long_way 2007-05-30

                                                            周 競(jìng) 揚(yáng)
                             MG0133041
                            南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系分布式與并行系統(tǒng)實(shí)驗(yàn)室
                             江蘇 南京 210093
摘 要 基于WEB 的數(shù)據(jù)挖掘是當(dāng)前相當(dāng)熱門的方向之一本文對(duì)此作了一個(gè)比較全面的
綜述概括了基于WEB 的數(shù)據(jù)挖掘的主要概念和特點(diǎn)說(shuō)明各類WEB 挖掘尤其
是基于WEB 使用的挖掘所常用的技術(shù)最后簡(jiǎn)單介紹了XML 在基于WEB 數(shù)據(jù)
挖掘中的應(yīng)用
關(guān)鍵字 基于WEB 的數(shù)據(jù)挖掘 基于WEB 使用的數(shù)據(jù)挖掘 半結(jié)構(gòu)化 XML

Abstract: As web mining is one of the hottest research fields presently, this survey introduces itsbasic concepts and characteristics, including semi-structured data model. Three types ofweb mining and their applications are discussed in this paper, especially the web usagemining. Using XML in web mining is also stated in the last of the article.
Keywords : Web Mining Web Usage Mining Semi-structured XML

       我們現(xiàn)在已經(jīng)生活在一個(gè)相當(dāng)數(shù)字化的時(shí)代中,通信、計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)正極大地影響著整個(gè)人類社會(huì)。然而,海量信息既給人們帶來(lái)方便也帶來(lái)了許多問(wèn)題使我們 驚嘆信息爆炸的同時(shí),又不得不面對(duì)知識(shí)貧乏的苦惱信息過(guò)量難以消化信息真假難以辨別,信息安全難以保證,信息形式相異難以統(tǒng)一處理。人們開(kāi)始考慮:“如何 才能不被信息淹沒(méi),而是從中及時(shí)發(fā)現(xiàn)有用的知識(shí)、提高信息利用率。”面對(duì)這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并得到長(zhǎng)足的發(fā)展,顯示出了強(qiáng)大的生命力.
        所謂數(shù)據(jù)挖掘Data Mining 就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中提取隱含在其中的、事先未知的、但又是潛在有用的信息和知識(shí)的過(guò)程[1] 。數(shù)據(jù)挖掘的誕生是人們對(duì)數(shù)據(jù)庫(kù)技術(shù)進(jìn)行長(zhǎng)期研究和開(kāi)發(fā)的結(jié)果,而數(shù)據(jù)挖掘技術(shù)發(fā)展的同時(shí)它又反過(guò)來(lái)促使數(shù)據(jù)庫(kù)技術(shù)進(jìn)入了一個(gè)更高級(jí)的階段:傳統(tǒng)的數(shù)據(jù)環(huán) 境基本上是數(shù)據(jù)操作型的傳統(tǒng)的信息系統(tǒng)只負(fù)責(zé)數(shù)據(jù)的增刪及修改操作而在數(shù)據(jù)庫(kù)的基礎(chǔ)上可實(shí)現(xiàn)的工作就是OLTP (OnLine Transaction Process 聯(lián)機(jī)事務(wù)處理)?,F(xiàn)在由于數(shù)據(jù)積累的不斷增多,人們需要分析型的數(shù)據(jù)環(huán)境,于是就出現(xiàn)了由數(shù)據(jù)庫(kù)導(dǎo)出的數(shù)據(jù)倉(cāng)庫(kù),以此為基礎(chǔ)則可以實(shí)現(xiàn)OLAP (OnLine Analysis Process 聯(lián)機(jī)分析處理):隨著海量數(shù)據(jù)搜集的可能計(jì)算機(jī)處理技術(shù)的增強(qiáng)和先進(jìn)數(shù)據(jù)挖掘算法的提出,數(shù)據(jù)挖掘技術(shù)不僅能對(duì)過(guò)去的數(shù)據(jù)進(jìn)行查詢和遍歷,而且能夠找出過(guò) 去數(shù)據(jù)之間潛在有價(jià)值的聯(lián)系并以一定的形式表現(xiàn)出來(lái),從而極大的滿足了人們對(duì)知識(shí)的迫切需求。
        數(shù)據(jù)挖掘基于的原始數(shù)據(jù)是形成知識(shí)的源泉,它既可以是結(jié)構(gòu)化的如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。本文將著重討論一種針對(duì)半結(jié)構(gòu)化數(shù)據(jù)的挖掘—基于WEB 的數(shù)據(jù)挖掘,主要介紹了它的基本概念以及經(jīng)常采用的技術(shù)最后簡(jiǎn)單說(shuō)明了XML 在其中的應(yīng)用。
一、 基于WEB 的數(shù)據(jù)挖掘的主要概念
1、 什么是基于WEB 的數(shù)據(jù)挖掘
        當(dāng)前網(wǎng)絡(luò)發(fā)展迅速,各種網(wǎng)站比比皆是。但在競(jìng)爭(zhēng)日益激烈的網(wǎng)絡(luò)經(jīng)濟(jì)中,只有贏得用戶,才能最終贏得競(jìng)爭(zhēng)的優(yōu)勢(shì)。作為一個(gè)網(wǎng)站的管理員或擁有者,應(yīng)該知道用 戶都在他的網(wǎng)站上干什么,知道網(wǎng)站哪些部分最為用戶喜愛(ài),哪些讓用戶感到厭煩,什么地方出了安全漏洞,什么樣的改動(dòng)帶來(lái)了顯著的用戶滿意度,提高什么樣的 改動(dòng)反而丟失了用戶等等。“知己知彼”,才能“百戰(zhàn)不殆”。而基于WEB 數(shù)據(jù)挖掘技術(shù)正能滿足這些需求。
        就基于WEB 數(shù)據(jù)挖掘的確切定義,到目前為止還沒(méi)有很明確而權(quán)威的說(shuō)法。國(guó)外有認(rèn)為:基于WEB 數(shù)據(jù)挖掘,就是利用數(shù)據(jù)挖掘技術(shù)自動(dòng)地從網(wǎng)絡(luò)文檔以及服務(wù)中發(fā)現(xiàn)和抽取信息的過(guò)程。國(guó)內(nèi)則眾說(shuō)紛紜,有認(rèn)為是在大量已知數(shù)據(jù)樣本的基礎(chǔ)上得到數(shù)據(jù)對(duì)象間的內(nèi)在特性,并以此為依據(jù)在WEB 中進(jìn)行有目的的信息提取過(guò)程。同時(shí),也有學(xué)者將網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘歸入網(wǎng)絡(luò)信息檢索與網(wǎng)絡(luò)信息內(nèi)容的開(kāi)發(fā)等等。總之,基于WEB 的數(shù)據(jù)挖掘(Web Mining) 正是從萬(wàn)維網(wǎng)(World Wide Web )上獲取原始數(shù)據(jù)中從中挖掘出隱含其中且潛在可用的知識(shí)最終應(yīng)用于商業(yè)運(yùn)作以滿足管理者的需要。
2 、基于WEB 數(shù)據(jù)挖掘的分類
根據(jù)挖掘的對(duì)象不同我們可以把基于WEB 的數(shù)據(jù)挖掘分為三大類:
 基于WEB 內(nèi)容的挖掘(Web Content Mining)
基于WEB 結(jié)構(gòu)的挖掘(Web Structure Mining)
基于WEB 使用的挖掘(Web Usage Mining)
(1)基于WEB 內(nèi)容的挖掘
        所謂基于WEB 內(nèi)容的挖掘?qū)嶋H上就是從WEB 文檔及其描述中獲取知識(shí), WEB 文檔文件挖掘以及基于概念索引或Agent 技術(shù)的資源搜索也應(yīng)該歸于此類。Web 信息資源類型眾多,目前WWW 信息資源已經(jīng)成為網(wǎng)絡(luò)信息資源的主體,然而除了大量的人們可以直接從網(wǎng)上抓取、建立索引、實(shí)現(xiàn)查詢服務(wù)的資源之外,相當(dāng)一部分信息是隱藏著的數(shù)據(jù)(如由用 戶的提問(wèn)而動(dòng)態(tài)生成的結(jié)果,存在于數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù),或是某些私人數(shù)據(jù))無(wú)法被索引,從而無(wú)法提供對(duì)它們有效的檢索方式,這就迫使我們把這些內(nèi)容挖掘出 來(lái)。若從信息資源的表現(xiàn)形式來(lái)看,WEB 信息內(nèi)容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等種種形式的數(shù)據(jù)組成的,因而我們所說(shuō)的基于WEB 內(nèi)容的挖掘也是一種針對(duì)多媒體數(shù)據(jù)的挖掘。
2 、基于WEB 結(jié)構(gòu)的挖掘
       這一類型的挖掘是從萬(wàn)維網(wǎng)的整體結(jié)構(gòu)和網(wǎng)頁(yè)上的相互鏈接中發(fā)現(xiàn)知識(shí)的過(guò)程,它主要挖掘WEB 潛在的鏈接結(jié)構(gòu)模式。這種思想源于引文分析,即通過(guò)分析一個(gè)網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象來(lái)建立WEB 自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁(yè)歸類并且可以由此獲得有關(guān)不同網(wǎng)頁(yè)間相似度及關(guān)聯(lián)度的信息。WEB 結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn),而且對(duì)網(wǎng)絡(luò)資源檢索結(jié)果的排序有很大意義。
3、 基于WEB 使用的挖掘
        基于WEB 使用的挖掘,也稱為WEB 日志挖掘(Web Log Mining)。與前兩種挖掘方式以網(wǎng)上的原始數(shù)據(jù)為挖掘?qū)ο蟛煌?,基于WEB 使用的挖掘面對(duì)的是在用戶和網(wǎng)絡(luò)交互的過(guò)程中抽取出來(lái)的第二手?jǐn)?shù)據(jù)。這些數(shù)據(jù)包括:網(wǎng)絡(luò)服務(wù)器訪問(wèn)記錄、代理服務(wù)器日志記錄、用戶注冊(cè)信息以及用戶訪問(wèn)網(wǎng)站時(shí)的行為動(dòng)作等等。WEB 使用挖掘?qū)⑦@些數(shù)據(jù)一一紀(jì)錄到日志文件中,然后對(duì)積累起來(lái)的日志文件進(jìn)行挖掘,從而了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。我們前面所舉的例子正屬于這一種類型。
        表1[2]從五個(gè)方面對(duì)三種挖掘形式做了比較其中的具體內(nèi)容下文將會(huì)作進(jìn)一步介紹。
          基于WEB 內(nèi)容的挖掘:非結(jié)構(gòu)化 半結(jié)構(gòu)化\文本文檔 超文本文檔\Bag of words n-grams 詞短語(yǔ) 概念或?qū)嶓w 關(guān)系型數(shù)據(jù)\TFIDF 和變體機(jī)器學(xué)習(xí)統(tǒng)計(jì)學(xué)(包括自然語(yǔ)言處理)\歸類 聚類發(fā)掘 抽取規(guī)則 發(fā)掘文本模式 建立模式.
           基于WEB 結(jié)構(gòu)的挖掘:半結(jié)構(gòu)化 數(shù)據(jù)庫(kù)形式的網(wǎng)站 鏈接結(jié)構(gòu)\超文本 文檔鏈接\邊界標(biāo)志圖 OEM 關(guān)系型數(shù)據(jù) 圖形\Proprietary 算法 ILP (修改后)的關(guān)聯(lián)規(guī)則\發(fā)掘高頻的子結(jié)構(gòu) 發(fā)掘網(wǎng)站體系結(jié)構(gòu) 歸類 聚類.
          基于WEB 使用的挖掘:交互形式\服務(wù)器日志記錄 瀏覽器日志記錄\關(guān)系型表 圖形\Proprietary 算法 機(jī)器學(xué)習(xí) 統(tǒng)計(jì)學(xué) (修改后的)關(guān)聯(lián)規(guī)則\站點(diǎn)建設(shè) 改進(jìn)與管理 銷建立用戶模式.
3、 基于WEB 數(shù)據(jù)挖掘的特點(diǎn)
(1) 、什么是半結(jié)構(gòu)化
       所謂半結(jié)構(gòu)化是相對(duì)于結(jié)構(gòu)化和非結(jié)構(gòu)化而言的。我們稱傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)為完全結(jié)構(gòu)化的數(shù)據(jù),而同時(shí)還存在著一些諸如一本書(shū)、一張圖片等完全無(wú)結(jié)構(gòu)的非結(jié) 構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化則是介于兩者之間,具有隱含模式、信息結(jié)構(gòu)不規(guī)則、無(wú)嚴(yán)格類型約束等特點(diǎn)。半結(jié)構(gòu)化數(shù)據(jù)模式有如下特征[4]
      先有數(shù)據(jù),后有模式;
      半結(jié)構(gòu)化數(shù)據(jù)的模式是用于描述數(shù)據(jù)的結(jié)構(gòu)信息,而不是對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行強(qiáng)制性的約束;
     半結(jié)構(gòu)化數(shù)據(jù)的模式是非精確的,它只可能描述數(shù)據(jù)的一部分結(jié)構(gòu),也可能根據(jù)數(shù)據(jù)處理的不同階段的視角不同而異;
     半結(jié)構(gòu)化數(shù)據(jù)的模式,可能規(guī)模很大甚至超過(guò)源數(shù)據(jù)的規(guī)模,而且會(huì)由于數(shù)據(jù)的不斷更新而處于動(dòng)態(tài)變化過(guò)程中。
(2)、 WEB 數(shù)據(jù)的特點(diǎn)
        Web 上的數(shù)據(jù)最大特點(diǎn)就是半結(jié)構(gòu)化。但是Web 上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫(kù)中的數(shù)據(jù)不同,傳統(tǒng)的數(shù)據(jù)庫(kù)都有一定的數(shù)據(jù)模型,可以根據(jù)模型來(lái)具體描述特定的數(shù)據(jù)而且按照一定的組織有規(guī)律的集中或者分布存放,結(jié)構(gòu)性很強(qiáng);而Web 上的數(shù)據(jù)非常復(fù)雜,沒(méi)有特定的模型描述每一站點(diǎn)的數(shù)據(jù),都各自獨(dú)立設(shè)計(jì)并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性,因而Web 上的數(shù)據(jù)不是強(qiáng)結(jié)構(gòu)性的。但與此同時(shí)Web 頁(yè)面又是有描述層次的,單個(gè)網(wǎng)站也是按照各自的結(jié)構(gòu)構(gòu)架的,從而具有一定的結(jié)構(gòu)性。因此我們認(rèn)為Web 上存在的數(shù)據(jù)既不是完全結(jié)構(gòu)化的也不是完全非結(jié)構(gòu)化的,而是介于兩者之間,一般稱之為半結(jié)構(gòu)化數(shù)據(jù)。
        半結(jié)構(gòu)化是Web 上數(shù)據(jù)的最大特點(diǎn),顯然面向Web 的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉(cāng)庫(kù)或者其他結(jié)構(gòu)化數(shù)據(jù)集的數(shù)據(jù)挖掘要復(fù)雜得多。
4、使用基于WEB 數(shù)據(jù)挖掘能得到什么
        Web Mining 技術(shù)已經(jīng)應(yīng)用于解決多方面的問(wèn)題,比如基于WEB 內(nèi)容和結(jié)構(gòu)的挖掘極大的幫助了我們從浩瀚的網(wǎng)絡(luò)資源中更加快速而準(zhǔn)確的獲取所需要的資料,而基于使用的數(shù)據(jù)挖掘之威力,更是在商業(yè)運(yùn)作上發(fā)揮的淋漓盡致,具體表現(xiàn)在:
(1) 對(duì)網(wǎng)站的修改能有目的有依據(jù)穩(wěn)步的提高用戶滿意度
發(fā)現(xiàn)系統(tǒng)性能瓶頸,找到安全漏洞,查看網(wǎng)站流量模式,找到網(wǎng)站最重要的部分,發(fā)現(xiàn)用戶的需要和興趣,對(duì)需求強(qiáng)烈的地方提供優(yōu)化,根據(jù)用戶訪問(wèn)模式修改網(wǎng)頁(yè)之間的連接,把用戶想要的東西以更快且有效的方式提供給用戶,在正確的地方正確的時(shí)間把正確的信息提供給正確的人。
(2) 測(cè)定投資回報(bào)率
      測(cè)定廣告和促銷計(jì)劃的成功度
      找到最有價(jià)值的ISP 和搜索引擎
      測(cè)定合作和結(jié)盟網(wǎng)站對(duì)自身的價(jià)值
(3) 提供個(gè)性化網(wǎng)站
          對(duì)大多數(shù)WEB 應(yīng)用來(lái)說(shuō),讓用戶感到真?zhèn)€網(wǎng)站是完全為他自己定制的個(gè)性化網(wǎng)站,是WEB 站點(diǎn)成功的秘訣。針對(duì)不同的用戶完全按照其個(gè)人的興趣和愛(ài)好(數(shù)據(jù)挖掘算法得到的用戶訪問(wèn)模式)向用戶動(dòng)態(tài)的提供要瀏覽的建議自動(dòng)提供個(gè)性化的網(wǎng)站。
        下面我們將就基于WEB 使用的挖掘,進(jìn)一步討論它所經(jīng)常采用的技術(shù)。
二、基于WEB 使用挖掘中的技術(shù)問(wèn)題
1、 Web Usage Mining 中非技術(shù)問(wèn)題
       在基于使用的挖掘中,出于商業(yè)目的考量網(wǎng)站的擁有者或者管理者經(jīng)常會(huì)對(duì)網(wǎng)站的某些方面提出一些分析,比如:流量分析(點(diǎn)擊量)、廣告分析、網(wǎng)站出入口分析、訪問(wèn)路徑分析、用戶來(lái)源分析、瀏覽器和平臺(tái)分析等等。
       就這些方面作進(jìn)一步的智能分析,我們可以從中真正與數(shù)據(jù)挖掘相關(guān)的問(wèn)題:
(1) 網(wǎng)頁(yè)相關(guān)性分析
       哪些網(wǎng)頁(yè)具有密切的關(guān)系,如果很多人具有a.html-〉b.html-〉c.html 這樣的訪問(wèn)模式,則我們可以認(rèn)定a.html 和c.html 之間有一定的關(guān)系,從而考慮是否在a.html 上直接加上c.html的鏈接。
(2) 用戶訪問(wèn)模式分析
        有哪一些網(wǎng)頁(yè)用戶只要訪問(wèn)了其中的一頁(yè),則可以斷定他也要訪問(wèn)其他的網(wǎng)頁(yè)即按不同的用戶訪問(wèn)模式,把網(wǎng)頁(yè)分組得到一個(gè)一個(gè)的興趣點(diǎn)。哪些用戶所訪問(wèn)的網(wǎng)頁(yè)組成比較類似(具有類似的興趣)即根據(jù)用戶行為的相似性,把用戶按行為模式分類。
(3) 用戶歸類
通過(guò)用戶填寫(xiě)的信息如何把用戶歸入某一特定的類別,然后可對(duì)同一類別中的用戶提供相似的服務(wù)。
2 、Web Usage Mining 中的技術(shù)問(wèn)題
(1) 數(shù)據(jù)處理
         如何得到分析和數(shù)據(jù)挖掘所用的數(shù)據(jù),主要采用兩種方法,一是直接使用Web Server的Log 文件,二是用網(wǎng)絡(luò)監(jiān)聽(tīng)的辦法,在數(shù)據(jù)包中提取出HTTP 請(qǐng)求和應(yīng)答。最后兩種數(shù)據(jù)源都要轉(zhuǎn)換成固定的格式存放在數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)內(nèi),供統(tǒng)計(jì)分析和數(shù)據(jù)挖掘使用。
(2) 統(tǒng)計(jì)分析
          在數(shù)據(jù)庫(kù)的基礎(chǔ)上,針對(duì)不同的數(shù)據(jù)運(yùn)行各種統(tǒng)計(jì)函數(shù)。
(3) 數(shù)據(jù)挖掘
           數(shù)據(jù)挖掘技術(shù)是實(shí)現(xiàn)智能分析得到隱藏在大量繁雜數(shù)據(jù)內(nèi)部知識(shí)的關(guān)鍵。通過(guò)對(duì)用戶訪問(wèn)網(wǎng)站的歷史數(shù)據(jù)(即我們通過(guò)數(shù)據(jù)處理得到的數(shù)據(jù))應(yīng)用各種數(shù)據(jù)挖掘技術(shù),得到高層知識(shí),提供給用戶作決策支持,或利用這些知識(shí)動(dòng)態(tài)生成網(wǎng)頁(yè),為用戶提供訪問(wèn)建議。
(4) 關(guān)聯(lián)規(guī)則Association Rules
         從服務(wù)器會(huì)話中發(fā)現(xiàn)請(qǐng)求網(wǎng)頁(yè)的相關(guān)性,可用于優(yōu)化網(wǎng)站組織,實(shí)現(xiàn)網(wǎng)絡(luò)代理中的預(yù)取功能等。
(5) 聚集Clustering
         使用分組(Usage Clusters )把具有相似瀏覽模式的用戶分成組,可用于電子商務(wù)應(yīng)用中市場(chǎng)分片(market segmentation) 和為用戶提供個(gè)性化服務(wù),而網(wǎng)頁(yè)分組(page clusters )按內(nèi)容的相似性把網(wǎng)頁(yè)分類,可用于搜索引擎和Web 瀏覽助手(Web assistance providers )為用戶提供推薦鏈接。
(6) 歸類Classification
          根據(jù)用戶的個(gè)人資料,將其歸入某一特定的類,可使用決策樹(shù)、naive Bayesian
classifiers、 k-最近鄰居等算法。
(7) 序列模式Sequential Patterns
        發(fā)現(xiàn)一個(gè)session 內(nèi)部的網(wǎng)頁(yè)間的時(shí)間相關(guān)性,可用于預(yù)測(cè)用戶的訪問(wèn)趨向而提供建議。
三、XML 技術(shù)在基于WEB 的數(shù)據(jù)挖掘中的應(yīng)用
1 、XML 技術(shù)簡(jiǎn)介
        XML (eXtsible Markup Language) 是SGML (Standard General MarkupLanguage )的一個(gè)子集,近年來(lái)為IBM Microsoft 等公司大力推崇。和HTML( Hyper Text Markup Language)類似,XML 也是一種標(biāo)示語(yǔ)言,可提供描述結(jié)構(gòu)化資料的格式,它們都可以用于可視化和用戶界面標(biāo)準(zhǔn)。
       當(dāng)前,Internet 只是文本和圖片的訪問(wèn)媒體,并沒(méi)有智能搜索、數(shù)據(jù)交換、自適應(yīng)表示和個(gè)人化的標(biāo)準(zhǔn)。為了超出設(shè)置信息訪問(wèn)和顯示標(biāo)準(zhǔn)的限制,Internet 必須設(shè)置信息理解標(biāo)準(zhǔn)(表示數(shù)據(jù)的通用方式)以便軟件能夠更好地搜索移動(dòng)顯示和處理上下文中隱藏的信息。由于 HTML 是一種描述如何表示 WEB 頁(yè)的格式,并不表示數(shù)據(jù),所以它并不能完成以上處理。而 XML 提供了一種獨(dú)立的運(yùn)行程序的方法來(lái)共享數(shù)據(jù)是用來(lái)自動(dòng)描述信息的一種新的標(biāo)準(zhǔn)語(yǔ)言,它通過(guò)計(jì)算機(jī)通信“把Internet 的功能由信息傳遞擴(kuò)大到人類其他多種多樣的活動(dòng)中去”[3]。
2、技術(shù)的特點(diǎn)及其在Web Mining 中的應(yīng)用
       它最大的特點(diǎn)在于其Tag 是具有語(yǔ)義的,可由用戶定義能夠反映一定的數(shù)據(jù)的含義。此外,XML 還具有簡(jiǎn)單易用、可擴(kuò)展性、開(kāi)發(fā)性、強(qiáng)標(biāo)準(zhǔn)化等特點(diǎn),非常適合應(yīng)用于WebMining 。從某種意義上說(shuō),XML 非常接近半結(jié)構(gòu)化的數(shù)據(jù)模型它可供操作的基礎(chǔ)要比HTML 好得多。圖二是HTML 和XML 的文檔比較,我們不難看出XML 的文檔描述的語(yǔ)義非常清楚,而且我們很容易就可以將之和關(guān)系數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng)起來(lái),能夠支持實(shí)施十分精確的查詢,以及其他高級(jí)操作。而HTML 文檔只是按顯示方式進(jìn)行描述的。由此可見(jiàn),XML 將為在WEB 上的數(shù)據(jù)查詢和模式抽取提供了一個(gè)重要的契機(jī)。
       XML 由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標(biāo)記語(yǔ)言,并能用一種被稱作分析程序的簡(jiǎn)明程序處理所有新創(chuàng)建的標(biāo)記語(yǔ)言。XML 解決了HTML 不能解決的兩個(gè)Web 問(wèn)題,即“Internet 發(fā)展速度快而接入速度慢”的問(wèn)題,以及可利用的信息多但難以找到自己需要的那部分信息”的問(wèn)題[3]。 XML 能增加結(jié)構(gòu)和語(yǔ)義信息可使計(jì)算機(jī)和服務(wù)器即時(shí)處理多種形式的信息。因此,運(yùn)用XML 的擴(kuò)展功能不僅能從WEB 服務(wù)器下載大量的信息,還能大大減少網(wǎng)絡(luò)業(yè)務(wù)量。
        以XML 為基礎(chǔ)的新一代WWW 環(huán)境是直接面對(duì)WEB 數(shù)據(jù)的,不僅可以很好地兼容原有的WEB 應(yīng)用而且可以更好地實(shí)現(xiàn)WEB 中的信息共享與交換。XML 可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML 的文檔描述與關(guān)系數(shù)據(jù)庫(kù)中的屬性一一對(duì)應(yīng)起來(lái),實(shí)施精確地查詢與模型抽取。
         當(dāng)用標(biāo)準(zhǔn)的HTML 無(wú)法完成某些WEB 應(yīng)用時(shí),XML 便能大顯身手這些應(yīng)用從大的方面講可以被分成以下四類:需要WEB 客戶端在兩個(gè)或更多異質(zhì)數(shù)據(jù)庫(kù)之間進(jìn)行通信的應(yīng)用;試圖將大部分處理負(fù)載從WEB 服務(wù)器轉(zhuǎn)到WEB 客戶端的應(yīng)用;需要WEB 客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用;需要智能WEB 代理根據(jù)個(gè)人用戶的需要裁減信息內(nèi)容的應(yīng)用。顯而易見(jiàn),這些應(yīng)用和WEB 的數(shù)據(jù)挖掘技術(shù)有著重要的聯(lián)系,基于WEB 的數(shù)據(jù)挖掘必須依靠它們來(lái)實(shí)現(xiàn)。
四、一些著名的Web Mining 產(chǎn)品簡(jiǎn)介
1、Net percerptions
       Net Perceotion 公司的Net Percerptions ,采用了一個(gè)叫做實(shí)時(shí)建議的技術(shù):讓它的產(chǎn)品對(duì)象(主要是網(wǎng)站)能夠根據(jù)用戶以往的瀏覽行為(比如以前的購(gòu)買記錄) 在其他用戶(稱做Community 中)找出與他有相類似瀏覽行為的,根據(jù)這些用戶的瀏覽行為來(lái)預(yù)測(cè)該用戶以后的瀏覽行為,從而為用戶提供個(gè)性化的瀏覽建議。這種技術(shù)利用了網(wǎng)站用戶的瀏覽行為有相似的一面,因此其預(yù)言有很高的準(zhǔn)確性。并且它是實(shí)時(shí)運(yùn)行的,隨著瀏覽量的增加會(huì)變得越來(lái)越聰明。
2、 CommerceTrends
        WebTrends 公司的CommerceTrends 被宣稱為第一個(gè)用于VRM (Visitor Relationship Management) 的平臺(tái),它能夠讓電子商務(wù)網(wǎng)站更好地理解其網(wǎng)站訪問(wèn)者的行為,幫助網(wǎng)站采取一些行動(dòng)來(lái)將這些訪問(wèn)者變?yōu)轭櫩?,將一次性的顧客變?yōu)殚L(zhǎng)期的忠實(shí)顧客。 CommerceTrends 提供了完全的“browser-based” 方法,使得不同的部門(從市場(chǎng)部門到分析家)能在任何時(shí)間得到他所想得到的個(gè)性化報(bào)表。同時(shí)它還利用了強(qiáng)大的數(shù)據(jù)倉(cāng)庫(kù)技術(shù),這樣就不僅僅將原始數(shù)據(jù)存在數(shù)據(jù)庫(kù)里而是“Sessionizes ”了原始數(shù)據(jù)。
3. DBMiner
        加拿大Simon Fraser 大學(xué)數(shù)據(jù)庫(kù)系統(tǒng)研究實(shí)驗(yàn)室Database SystemResearchLaboratory
的知識(shí)發(fā)現(xiàn)研究組在數(shù)據(jù)挖掘技術(shù)領(lǐng)域經(jīng)過(guò)多年的研究開(kāi)發(fā)了名為DBMiner 的知識(shí)發(fā)現(xiàn)系統(tǒng)原型。它將機(jī)器學(xué)習(xí)方法學(xué)和數(shù)據(jù)庫(kù)技術(shù)結(jié)合起來(lái),用于在大型數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)中交互地挖掘多層次的知識(shí)。該系統(tǒng)獨(dú)特之處在于緊密集成了聯(lián)機(jī)分析處理OLAP 和多種數(shù)據(jù)挖掘功能,包括特征化、關(guān)聯(lián)、分類和聚類。
五 結(jié)束語(yǔ)
          基于WEB 的數(shù)據(jù)挖掘是當(dāng)前熱門研究方向之一,而且其應(yīng)用范疇廣闊,潛力巨大;Web Mining 技術(shù)也在不斷提出和改進(jìn)之中。但是Web Mining 技術(shù)還有很多缺陷和不足。我們還需要半結(jié)構(gòu)化數(shù)據(jù)模型、Web 數(shù)據(jù)的過(guò)濾和轉(zhuǎn)換等方面作進(jìn)一步研究,才能進(jìn)一步發(fā)揮Web Mining 的無(wú)限威力

References
[1] Jiawei Han and Micheline Kamber Data Mining: Concepts and Techniques 2000 Morgan
Kaufmann Publishers
[2] 張 燕 淺談網(wǎng)絡(luò)信息挖掘
[3] 徐振航 劉莉芹 XML 與面向Web 的數(shù)據(jù)挖掘技術(shù)
[4] 王 靜 孟小峰 半結(jié)構(gòu)化數(shù)據(jù)的模式研究綜述 計(jì)算機(jī)科學(xué) 2001 Vol. 28
[5] 於 丹 數(shù)據(jù)挖掘走向Internet 微電腦世界
[6] 王聰修 網(wǎng)絡(luò)數(shù)據(jù)挖掘
[7] What is Web Mining Lily BBS
[8] 李志鋒 網(wǎng)頁(yè)數(shù)據(jù)分析 天極網(wǎng) 2001.2
[9] Web Mining: 第二代網(wǎng)絡(luò)信息處理技術(shù) Lily BBS
[10] 構(gòu)造未來(lái)Web 頁(yè)面的工具語(yǔ)言XML Lily BBS


    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多