日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

國外學(xué)者對商業(yè)智能的研究 CIO俱樂部

 鈴兒響叮當(dāng) 2006-02-18
國外學(xué)者對商業(yè)智能的研究
 
 
 
 
2006-2-15 10:10:00
 
   
   
 
1、 Howard Dresner對商業(yè)智能的定義
商業(yè)智能(Business Intelligence,簡稱BI)的概念最早是Gartner Group的Howard
Dresner于1996年提出來的。當(dāng)時(shí)將商業(yè)智能定義為一類由數(shù)據(jù)倉庫(或數(shù)據(jù)集市)、查詢報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以幫助企業(yè)決策為目的技術(shù)及其應(yīng)用。當(dāng)時(shí)的預(yù)測說:到2000年,信息民主(注:指組織內(nèi)信息共享的無差別性)將在具有前瞻性思維的企業(yè)中浮現(xiàn)。借助商業(yè)智能,員工、咨詢員、客戶、供應(yīng)商以及公眾能夠有效地運(yùn)用信息。其實(shí),商業(yè)智能所涉及的技術(shù)與應(yīng)用,在Howard Dresner命名之前就有,起初被稱為主管信息系統(tǒng)(EIS),在羽化成商業(yè)智能之前叫決策支持系統(tǒng)(DSS)。
 
2、 Eric Thomsen對OLAP及商業(yè)智能的論斷
 
Eric Thomsen是DSS Lab的首席科學(xué)家,他提出了基于決策支持系統(tǒng)的OLAP的設(shè)計(jì)和實(shí)現(xiàn)。OLAP是創(chuàng)建商業(yè)智能系統(tǒng)的重要技術(shù),其技術(shù)的應(yīng)用非常廣泛。Eric Thomsen在其代表作《OLAP解決方案:創(chuàng)建多維信息系統(tǒng)(OLAP Solutions: Building Multidimensional Information Systems)》第二版中有關(guān)于一些相關(guān)概念的論述:數(shù)據(jù)倉庫(DW)/決策支持系統(tǒng)(DSS)/商業(yè)智能(BI)/聯(lián)機(jī)分析處理(OLAP)/基于分析的面向決策的處理(ABDOP)——數(shù)據(jù)倉庫(DW)的焦點(diǎn)還是十分有限的。決策支持這個(gè)術(shù)語是以最終用戶為中心的,在談到OLAP和數(shù)據(jù)倉庫時(shí)作為ABDOP的補(bǔ)充。從這以后,數(shù)據(jù)倉庫和決策支持的范圍有了很大的擴(kuò)展,但是還沒有達(dá)到ABDOP的全部內(nèi)容。商業(yè)智能也開始流行起來,也覆蓋了相同的范圍,不過一般來說,它更加關(guān)注于最終用戶信息獲取的問題。經(jīng)??吹饺藗儗?shù)據(jù)倉庫和決策支持或者商業(yè)智能聯(lián)合起來指代所稱的ABDOP的全部范圍,卻沒有真正給整個(gè)范圍起一個(gè)名字。
 
Eric Thomsen采用蘇格拉底啟發(fā)式方式講解和論述了決策的階段,從而闡述了商業(yè)智能(或其平行概念)的研究內(nèi)容和方法:
 
認(rèn)為,通過觀察如何證實(shí)一個(gè)被挑戰(zhàn)的決策是否正確,就可以很好地了解到指定決策究竟需要些什么信息。
 
決策的目標(biāo)是什么?如果沒有目標(biāo),任何決策都是沒有差別的。在尋求最優(yōu)決策的過程中,可能用到的算法包括線性編程和蒙特卡洛模擬協(xié)助在各種選擇、外部因素、偶然事件中進(jìn)行決策思考的工具就是決策分析工具。
 
如何證明決策可以達(dá)到預(yù)定的目標(biāo)?惟一能夠證實(shí)決策是正確的方法是顯示一些預(yù)測結(jié)果。進(jìn)行預(yù)測用到的工具包括了統(tǒng)計(jì)分析和數(shù)據(jù)挖掘。
 
預(yù)測又是從何而來?這時(shí)候需要一個(gè)推理的過程。預(yù)測是模式、關(guān)系、解釋的延伸。他們需要至少一個(gè)用來延伸的假設(shè)。所有的預(yù)測都需要兩個(gè)描述和一個(gè)假設(shè)。用于發(fā)現(xiàn)模式的算法包括回歸、決策樹、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)元網(wǎng)絡(luò),用于發(fā)現(xiàn)模式的工具也是統(tǒng)計(jì)和數(shù)據(jù)挖掘。
 
如何捍衛(wèi)描述?如果描述是不正確的,不管推理如何,預(yù)測都將是錯(cuò)誤的。因此,在原始數(shù)據(jù)收集過程中應(yīng)該采用最好的質(zhì)量控制方法。
 
派生數(shù)據(jù)是否正確?如果原始數(shù)據(jù)和推理邏輯都是正確的,預(yù)測還是錯(cuò)誤的,問題就出在派生數(shù)據(jù)上。派生數(shù)據(jù)包括了各種匯總、分配、差別、比率、排序和乘積,例如每周的產(chǎn)品銷售量、每天的入庫總額、產(chǎn)品的總成本、部門收入、管理費(fèi)用、銷售產(chǎn)品的成本、市場份額、產(chǎn)量和利潤等。OLAP工具所關(guān)注的就是創(chuàng)建派生變量。
 
3、 Tom Soukup 和 Ian Davidson對商業(yè)智能和可視化數(shù)據(jù)挖掘的闡述
 
在《可視化數(shù)據(jù)挖掘:數(shù)據(jù)可視化和數(shù)據(jù)挖掘的技術(shù)與工具(Visual Data Mining : Techniques and Tools for Data Visualization and Mining)》中指出:
 
商業(yè)智能解決方案將業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換成明確的、基于事實(shí)的、能夠執(zhí)行的信息,并且使得業(yè)務(wù)人員能夠發(fā)現(xiàn)客戶趨勢,創(chuàng)建客戶忠誠度,增強(qiáng)與供應(yīng)商的關(guān)系,減少金融風(fēng)險(xiǎn),以及揭示新的銷售商機(jī)。商業(yè)智能的目標(biāo)是了解變化的意義——從而理解甚至預(yù)見變化本身。它使你能夠訪問當(dāng)前的、可靠的和易消化的信息,并能夠從各個(gè)側(cè)面及不同的維度靈活地瀏覽信息和建立模型。商業(yè)智能方案回答的是“如果……怎么辦(What if …)”之類的問題,而不是“發(fā)生了什么?(What happened ?)”。簡而言之,商業(yè)智能解決方案是提高和維持競爭優(yōu)勢的一條有效的條件。
 
數(shù)據(jù)可視化和數(shù)據(jù)挖掘是兩種技術(shù),它們常常被常用來創(chuàng)建和部署成功的商業(yè)智能解決方案。通過應(yīng)用可視化和數(shù)據(jù)挖掘技術(shù),業(yè)務(wù)人員能夠充分地探索業(yè)務(wù)數(shù)據(jù),從而發(fā)現(xiàn)潛在的、以前未知的趨勢、行為和異常。
 
提出了一套行之有效的創(chuàng)建數(shù)據(jù)可視化和執(zhí)行可視化數(shù)據(jù)挖掘的方法,包括8個(gè)步驟:①驗(yàn)證和規(guī)劃數(shù)據(jù)可視化與數(shù)據(jù)挖掘項(xiàng)目;②識(shí)別最重要的業(yè)務(wù)問題;③選擇數(shù)據(jù)集;④轉(zhuǎn)換數(shù)據(jù)集;⑤驗(yàn)證數(shù)據(jù)集;⑥選擇可視化或挖掘工具;⑦分析可視化或挖掘模型;⑧驗(yàn)證和展示可視化或挖掘模型。
 
4、 Bill Inmon對數(shù)據(jù)倉庫的定義
 
數(shù)據(jù)倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
 
面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。
 
集成的。數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
 
相對穩(wěn)定的。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
 
反映歷史變化。數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
 
企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個(gè)工程,是一個(gè)過程。
 
5、 E.F. Codd對OLAP的貢獻(xiàn)
 
60 年代末,E.F. Codd 所提出的關(guān)系數(shù)據(jù)模型促進(jìn)了關(guān)系數(shù)據(jù)庫及聯(lián)機(jī)事務(wù)處理(OLTP )的發(fā)展。數(shù)據(jù)不再以文件方式同應(yīng)用程序捆綁在一起,而是分離出來,以關(guān)系表方式供大家共享。數(shù)據(jù)量從80年代的兆字節(jié)及千兆字節(jié)過渡到現(xiàn)在的兆兆字節(jié)和千兆兆字節(jié),同時(shí)用戶的查詢需求也越來越復(fù)雜,涉及的己不僅是查詢或操縱一張關(guān)系表中的一條或幾條記錄,而且要對多張表中千萬條記錄的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析或信息綜合。關(guān)系數(shù)據(jù)庫系統(tǒng)已不能全部滿足這一要求。這兩類應(yīng)用― 操作型應(yīng)用和分析型應(yīng)用,特別是在性能上難以兩全,盡管為了提高性能,人們常常在關(guān)系數(shù)據(jù)庫中放寬了對冗余的限制,引入了統(tǒng)計(jì)及綜合數(shù)據(jù),但這些統(tǒng)計(jì)綜合數(shù)據(jù)的應(yīng)用邏輯卻是分散雜亂的,非系統(tǒng)化的,因此分析功能有限,不靈活,維護(hù)困難。在國外,不少軟件廠商采取了發(fā)展其前端產(chǎn)品來彌補(bǔ)RDBMS 支持的不足。它們通過專門的數(shù)據(jù)綜合引擎,輔之以更加直觀的數(shù)據(jù)訪問界面。力圖統(tǒng)一分散的公共應(yīng)用邏輯,在短時(shí)間內(nèi)相應(yīng)非數(shù)據(jù)處理專業(yè)人員的復(fù)雜查詢要求。1993年,E.F. Codd 將這類技術(shù)定義為“OLAP ”。鑒于Codd 關(guān)系數(shù)據(jù)庫之父的影響。OLAP 的提出引起了很大反響,OLAP 作為一類產(chǎn)品同OLAP 明顯區(qū)別開來。
 
聯(lián)機(jī)分析處理專門設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對決策人員和高層管理人員的決策支持,可以應(yīng)分析人員要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢處理,并且以一種直觀易懂的形式將查詢結(jié)果提供決策人員,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營狀況,了解市場需求,制訂正確方案,增加效益。
 
6、 國外學(xué)者對數(shù)據(jù)挖掘的定義及其研究方法的概括
 
Gartner Group :“數(shù)據(jù)挖掘是通過仔細(xì)分析大量數(shù)據(jù)來揭示有意義的新的關(guān)系、模式和趨勢的過程。它使用模式認(rèn)知技術(shù)、統(tǒng)計(jì)技術(shù)和數(shù)學(xué)技術(shù)。”
 
The META Group的Aaron Zornes :“數(shù)據(jù)挖掘是一個(gè)從大型數(shù)據(jù)庫中提取以前不知道的可操作性信息的知識(shí)挖掘過程。”
 
SAS研究所:“在大量相關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”。
 
Bhavani :“使用模式識(shí)別技術(shù)、統(tǒng)計(jì)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢的過程”。
 
Hand et al :“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價(jià)值信息的過程”。
 
Fayyad :數(shù)據(jù)挖掘是一個(gè)確定數(shù)據(jù)中有效的,新的,可能有用的并且最終能被理解的模式的重要過程。
 
Zekulin :數(shù)據(jù)挖掘是一個(gè)從大型數(shù)據(jù)庫中提取以前未知的,可理解的,可執(zhí)行的信息并用它來進(jìn)行關(guān)鍵的商業(yè)決策的過程。
 
Ferruzza :數(shù)據(jù)挖掘是用在知識(shí)發(fā)現(xiàn)過程,來辯識(shí)存在于數(shù)據(jù)中的未知關(guān)系和模式的一些方法。
 
Jonn :數(shù)據(jù)挖掘是發(fā)現(xiàn)數(shù)據(jù)中有益模式的過程。
 
Parsay :數(shù)據(jù)挖掘是我們?yōu)槟切┪粗男畔⒛J蕉芯看笮蛿?shù)據(jù)集的一個(gè)決策支持過程。
 
數(shù)據(jù)挖掘的功能大致有兩種,預(yù)測檢驗(yàn)功能和描述功能。數(shù)據(jù)挖掘的任務(wù)主要有4項(xiàng):①概念描述,即對數(shù)據(jù)進(jìn)行濃縮,給出某類對象內(nèi)涵的緊湊表示。②發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,通過分析給出兩個(gè)或多個(gè)變量間存在的相關(guān)性規(guī)律。③聚類,即簇聚同類對象,使在抽象空間中屬于同一類別的個(gè)體距離盡可能小,反之盡量大。④偏差檢測,尋找觀察結(jié)果與參照值間的差別,這些偏差往往包含很多潛在有意義的知識(shí)信息。
 
應(yīng)用較普遍的數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)方法有:
 
遺傳算法。其基本原理是:類比生物進(jìn)化過程,每一代同時(shí)存在許多不同的種群個(gè)體(染色體)。這些染色體的適應(yīng)性以適應(yīng)性函數(shù)f(x)表征,染色體的保留與淘汰取決于它們對環(huán)境的適應(yīng)能力,優(yōu)勝劣汰。適應(yīng)性函數(shù)f(x)的構(gòu)成與目標(biāo)函數(shù)密切相關(guān),往往是目標(biāo)函數(shù)的變種。?遺傳算子主要有3種:選擇(復(fù)制)算子、交叉(重組)算子和變異(突變)算子。遺傳算法可起到產(chǎn)生優(yōu)良后代的作用,經(jīng)過若干代遺傳,將會(huì)得到滿足要求的后代(問題的解)。
 
粗集方法。其基本原理是:將數(shù)據(jù)庫中的行元素看成對象,將列元素看成屬性。設(shè)R為等價(jià)關(guān)系,定義為不同對象在某個(gè)(或幾個(gè))屬性上取值相同。那些滿足等價(jià)關(guān)系的對象構(gòu)成集合,稱為該等價(jià)關(guān)系R的等價(jià)類。設(shè)E為條件屬性上的等價(jià)類,設(shè)Y為決策屬性上的等價(jià)類,則E 和Y存在3種情況:Y包含E稱為下近似;Y與E的交非空,稱為上近似;Y與E的交為空,稱為無關(guān)。對下近似建立確定性規(guī)則,對上近似建立不確定規(guī)則(含可信度),對無關(guān)情況則不存在規(guī)則。
 
決策樹方法。決策樹方法是以信息論原理為基礎(chǔ),利用信息論中互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個(gè)結(jié)點(diǎn)。然后再根據(jù)字段的不同取值建立樹的分支,在每個(gè)分支集中重復(fù)建立樹的下層結(jié)點(diǎn)和分支。這種方法實(shí)際上是依循信息論原理對數(shù)據(jù)庫中存在的大量數(shù)據(jù)進(jìn)行信息量分析,在計(jì)算數(shù)據(jù)特征的互信息或信道容量的基礎(chǔ)上提取出反映類別的重要特征。
 
神經(jīng)網(wǎng)絡(luò)方法。其原理是:模擬人腦的神經(jīng)元結(jié)構(gòu),以MP模型和HEBB學(xué)習(xí)規(guī)則建立起前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)3大類多種神經(jīng)網(wǎng)絡(luò)模型?;谏窠?jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘工具對于非線性數(shù)據(jù)具有快速建模能力,其挖掘的基本過程是先將數(shù)據(jù)聚類,然后分類計(jì)算權(quán)值,神經(jīng)網(wǎng)絡(luò)的知識(shí)體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上。神經(jīng)網(wǎng)絡(luò)方法用于非線性數(shù)據(jù)和含噪聲的數(shù)據(jù)時(shí)具有更大的優(yōu)越性,比較適合于市場數(shù)據(jù)庫的分析和建模,通過對市場數(shù)據(jù)庫中行業(yè)數(shù)據(jù)的精密分析,為市場人員提供顧客、用戶、市場狀況和市場走勢等方面的分析結(jié)果。(KMCENTER)
 
 
 
(網(wǎng)頁編輯:秋月

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多