開放數(shù)據(jù)：質(zhì)量勝于數(shù)量

blackhappy 2019-03-17

展開全文

引用：
Sadiq, Shazia, and Marta Indulska. 'Open data: Quality over quantity.' International Journal of Information Management37.3 (2017): 150-154.

摘要

開放數(shù)據(jù)集的數(shù)據(jù)質(zhì)量存在不確定性，這對其可能產(chǎn)生的價(jià)值構(gòu)成威脅。現(xiàn)有的數(shù)據(jù)質(zhì)量管理方法通?；诮M織內(nèi)部的數(shù)據(jù)集，具有已知的元數(shù)據(jù)和數(shù)據(jù)語義的相關(guān)領(lǐng)域知識，然而用戶對開發(fā)數(shù)據(jù)不熟悉且缺乏元數(shù)據(jù)。本研究報(bào)告的目的是概述處理開放數(shù)據(jù)集的數(shù)據(jù)質(zhì)量所面臨的挑戰(zhàn)，并為未來的研究制定計(jì)劃，以解決這一風(fēng)險(xiǎn)，從開放數(shù)據(jù)投資中獲取價(jià)值。

1. 引言

開放數(shù)據(jù)是政府、組織、研究人員等免費(fèi)提供的數(shù)據(jù)，可以沒有版權(quán)限制地供任何人使用。過去數(shù)年間公開數(shù)據(jù)集的增加和數(shù)據(jù)市場的出現(xiàn)為政府、企業(yè)和企業(yè)家提供了前所未有的機(jī)會，他們可以利用數(shù)據(jù)的力量獲得經(jīng)濟(jì)、社會和科學(xué)收益。數(shù)據(jù)驅(qū)動型創(chuàng)新可以通過開放數(shù)據(jù)實(shí)現(xiàn)經(jīng)濟(jì)和社會收益。

雖然開放數(shù)據(jù)競賽已經(jīng)在初創(chuàng)企業(yè)和應(yīng)用程序方面取得了一些成功，但也有一些證據(jù)表明開放數(shù)據(jù)集的價(jià)值仍然未被完全開發(fā)，這主要是因?yàn)槭褂脭?shù)據(jù)前缺乏對數(shù)據(jù)質(zhì)量特征的了解。此外，元數(shù)據(jù)和數(shù)據(jù)集的潛在數(shù)據(jù)質(zhì)量是有缺陷的。比如，許多開放數(shù)據(jù)集的數(shù)據(jù)有重復(fù)、不一致和缺失的情況，并且通常缺少易于訪問的模式描述。案例有MusicBranz.org開放數(shù)據(jù)集，它由324個(gè)無模式CSV文件組成，數(shù)據(jù)量為35.1GB。由對開放數(shù)據(jù)集的分析表明開放數(shù)據(jù)中存在許多此類問題。比如，在公共交通數(shù)據(jù)中，公交車站名稱的數(shù)據(jù)一致性較低，這嚴(yán)重影響需要分組或搜索車站名稱的數(shù)據(jù)的使用，例如時(shí)間表和交通監(jiān)控。類似地，如圖1所示，美國槍支犯罪者數(shù)據(jù)庫中可以找出若干個(gè)數(shù)據(jù)質(zhì)量問題。

開放數(shù)據(jù)：質(zhì)量勝于數(shù)量

數(shù)據(jù)集的價(jià)值一定是與數(shù)據(jù)的潛在質(zhì)量有關(guān)的，但它們在概念上是不同的。例如，一份完整準(zhǔn)確的亞洲所有國家名單可能沒有太大價(jià)值。然而，來自公共交通工具的不完整和嘈雜的GPS數(shù)據(jù)可能對交通工程師和城市規(guī)劃者有很高的感知價(jià)值。在處理如此龐大和未知的數(shù)據(jù)集時(shí)，用戶可能會經(jīng)歷很長的查詢處理時(shí)間，并在此過程中意識到獲得的結(jié)果質(zhì)量很差?；蛘?，用戶可能沒有意識到數(shù)據(jù)質(zhì)量不夠，從而影響根據(jù)查詢結(jié)果做出的任何后續(xù)決策。

盡管存在這些問題，越來越多的人傾向于將大量的外部和內(nèi)部數(shù)據(jù)收集到所謂的數(shù)據(jù)池中，這些數(shù)據(jù)池通常被稱為企業(yè)數(shù)據(jù)管理平臺，用于存儲、組織和分析來自多個(gè)不同來源（包括開放數(shù)據(jù)源）的數(shù)據(jù)。盡管人們對大數(shù)據(jù)現(xiàn)象的興趣越來越高，但多年的信息系統(tǒng)使用研究經(jīng)驗(yàn)表明，“更多使用更好”的假設(shè)顯然不正確。隨著開放數(shù)據(jù)集和數(shù)據(jù)源數(shù)量以指數(shù)級的速度持續(xù)增長，這給數(shù)據(jù)消費(fèi)者留下大量未經(jīng)探索、不熟悉的數(shù)據(jù)集，他們可能會也可能不會產(chǎn)生有價(jià)值的見解。因此，各組織開始面臨“暗數(shù)據(jù)”綜合癥，很大一部分信息資產(chǎn)未得到充分利用。如果沒有科學(xué)可靠的知識能夠有效地評估數(shù)據(jù)的基本質(zhì)量特征，組織和政府將積累大量低價(jià)值的數(shù)據(jù)、落入分析陷阱，投資ROI值（投資回報(bào)率）低的數(shù)據(jù)風(fēng)險(xiǎn)很大。

在本文中，我們首先概述了數(shù)據(jù)質(zhì)量評估的最新進(jìn)展，強(qiáng)調(diào)了應(yīng)用這些技術(shù)評估開放數(shù)據(jù)空間中具有典型特征的數(shù)據(jù)集的質(zhì)量所面臨的挑戰(zhàn)，并思考這些挑戰(zhàn)如何破壞從開放數(shù)據(jù)使用中產(chǎn)生價(jià)值的能力，提出未來研究的計(jì)劃，以便對開放數(shù)據(jù)的“使用質(zhì)量”動態(tài)進(jìn)行必要的了解。

2. 數(shù)據(jù)質(zhì)量評估

研究人員和從業(yè)者已經(jīng)對數(shù)據(jù)質(zhì)量進(jìn)行了廣泛的研究。數(shù)據(jù)質(zhì)量維度如準(zhǔn)確性、完整性、一致性，是數(shù)據(jù)質(zhì)量定義和測量的基本概念。在大多數(shù)（如果不是全部的）數(shù)據(jù)質(zhì)量管理項(xiàng)目中，評估數(shù)據(jù)集的質(zhì)量是一項(xiàng)基本任務(wù)。數(shù)據(jù)質(zhì)量通常根據(jù)特定的要求進(jìn)行評估。過去20年的數(shù)據(jù)質(zhì)量研究都是基于這一適用性的基本原則。因此現(xiàn)有的數(shù)據(jù)質(zhì)量管理方法自然是自上而下的，其中，數(shù)據(jù)質(zhì)量要求是根據(jù)充分理解的使用要求以自上而下的方式確定的，并使用良好的數(shù)據(jù)治理實(shí)踐加以實(shí)施。

Batini等人（2009）對現(xiàn)有的數(shù)據(jù)質(zhì)量評估和需求識別方法進(jìn)行了全面分析，認(rèn)為這些方法通常包括三個(gè)核心方面：數(shù)據(jù)和過程分析，數(shù)據(jù)質(zhì)量需求分析，數(shù)據(jù)質(zhì)量分析。數(shù)據(jù)和流程分析包括檢查數(shù)據(jù)模式、進(jìn)行訪談和與數(shù)據(jù)用戶會面，以完全了解數(shù)據(jù)、相關(guān)約束和規(guī)則，以及創(chuàng)建或使用數(shù)據(jù)的流程。數(shù)據(jù)質(zhì)量需求分析通常包括對數(shù)據(jù)用戶和管理員的調(diào)查，以確定質(zhì)量問題，旨在確定關(guān)鍵數(shù)據(jù)集、定義數(shù)據(jù)質(zhì)量度量和設(shè)置質(zhì)量目標(biāo)。數(shù)據(jù)集探索、評估和分析一般根據(jù)定義好的數(shù)據(jù)質(zhì)量度量進(jìn)行，然后數(shù)據(jù)質(zhì)量分析與這些活動相關(guān)。

對數(shù)據(jù)質(zhì)量評估和需求識別的顯著貢獻(xiàn)有如下這些：Lee.Strong、Kahn和Wang提出了一種由PSP/IQ模型（信息質(zhì)量的產(chǎn)品和服務(wù)性能模型）、信息質(zhì)量評估（IQA）方法和信息質(zhì)量（IQ）差距分析技術(shù)三個(gè)部分組成的數(shù)據(jù)質(zhì)量評估和改進(jìn)方法，通過用戶調(diào)查對信息質(zhì)量進(jìn)行評估。同樣，Naumann和Rolker提出了一種基于IQ分?jǐn)?shù)來源的新的IQ標(biāo)準(zhǔn)分類，即對用戶、數(shù)據(jù)源和評估信息的查詢過程的感知。評估方法中，個(gè)人用戶的體驗(yàn)和他們對某些標(biāo)準(zhǔn)的理解都是主觀的。例如，“可解釋性”和“簡要表達(dá)”標(biāo)準(zhǔn)都是“用戶抽樣”的評估方法。然而在某些應(yīng)用的上下文中，簡要表達(dá)受到行業(yè)規(guī)則的約束，因此數(shù)據(jù)的可解釋性程度取決于單個(gè)用戶的感知。

很明顯，這些方法中的大多數(shù)（如果不是全部）都遵循以用戶為中心、自上而下的方法，在這些方法中，探索數(shù)據(jù)之前要先從用戶那里獲得需求。這種方法涵蓋了很多方面，但一定要與特定公司的組織設(shè)置和數(shù)據(jù)治理環(huán)境綁定在一起，使它們對外部不熟悉的數(shù)據(jù)集的評估無效。在當(dāng)前的數(shù)據(jù)環(huán)境中，用戶面臨著新的、未開發(fā)的、潛在的大型數(shù)據(jù)集，這些數(shù)據(jù)集可以說具有相關(guān)性和對業(yè)務(wù)的感知價(jià)值。在這種情況下，應(yīng)用自上而下的方法是不可行的。用戶需要獲得探索性功能的授權(quán)，這將允許他們調(diào)查數(shù)據(jù)集的質(zhì)量，并自然而然地調(diào)查其使用的影響。現(xiàn)有的兩個(gè)領(lǐng)域考慮了自下而上的數(shù)據(jù)質(zhì)量評估方法——數(shù)據(jù)探查和數(shù)據(jù)剖析。

過去十多年間有很多關(guān)于數(shù)據(jù)探查的研究用統(tǒng)計(jì)方法揭露了數(shù)據(jù)的事實(shí)。通過這些事實(shí)來制定質(zhì)量標(biāo)準(zhǔn)，進(jìn)而評估質(zhì)量，再通過數(shù)據(jù)清理提高數(shù)據(jù)質(zhì)量。Dasu和Johnson（2003）提供了一份當(dāng)時(shí)數(shù)據(jù)勘探統(tǒng)計(jì)方法的綜合清單，盡管他們強(qiáng)調(diào)了將這些方法用于數(shù)據(jù)質(zhì)量問題檢測的可能性，但對任意數(shù)據(jù)集探索方法或指南仍然很缺乏。

數(shù)據(jù)剖析是數(shù)據(jù)探查的一個(gè)相關(guān)概念，它具有重要的商業(yè)工具市場。Gartner（Friedman，2013）估計(jì)，到2012年底，該市場的收入達(dá)到9.6億美元。大約50%的市場由幾家大型的成熟供應(yīng)商主導(dǎo)，如IBM、Informatica、Pitney Bowes、SAP和SAS。剩下的50%被分配給了大量的供應(yīng)商，包括Microsoft、Oracle、Talend、Ataccama、Human Inference和Experian QAS等等。這些剖析工具集中關(guān)注很多功能，包括數(shù)據(jù)的分布統(tǒng)計(jì)分析、冗余檢查、故障檢測、功能依賴性分析、列相關(guān)性分析、有效性檢查等。這些工具通常不附帶如何將剖析報(bào)告用于確定可操作的數(shù)據(jù)質(zhì)量要求的指南。

雖然根據(jù)特定維度，比如數(shù)據(jù)質(zhì)量剖析(Abedjan, Golab, & Naumann, 2015)、統(tǒng)計(jì)方法(Dasu & Johnson, 2003)以及通過發(fā)現(xiàn)數(shù)據(jù)依賴性約束 (Fan & Geerts, 2012)來評估數(shù)據(jù)質(zhì)量來進(jìn)行數(shù)據(jù)質(zhì)量測量的研究已經(jīng)有了一些成果，但這些解決方案僅針對特定的維度（如一致性或新鮮度），只根據(jù)一個(gè)維度不足以準(zhǔn)確完整地描述跨越大量維度的整個(gè)數(shù)據(jù)的質(zhì)量(Jayawardene et al., 2013)。此外，這些解決方案通常以數(shù)據(jù)分布（Dasu&Johnson，2003年）、閾值（Song&Chen，2011年）和概率（K_hler，Link，&Zhou，2015年）等與某些元數(shù)據(jù)的可用性相關(guān)假設(shè)為基礎(chǔ)，這些假設(shè)可能不適用于開放數(shù)據(jù)集。

3. The need for change

以前有很多成功的評估并有效地將數(shù)據(jù)用于商業(yè)結(jié)果的方法，開放式數(shù)據(jù)的創(chuàng)建、訪問和使用的特定設(shè)置會使許多方法不可用。然而，“垃圾進(jìn)，垃圾出”這句古老的格言仍然存在重大的風(fēng)險(xiǎn)，對有效使用開放數(shù)據(jù)實(shí)現(xiàn)創(chuàng)新和提高生產(chǎn)力方面有負(fù)面影響或令人望而卻步的延遲。我們認(rèn)為，要實(shí)現(xiàn)信息社會開放數(shù)據(jù)的價(jià)值主張，就必須把注意力集中在三個(gè)關(guān)鍵的研究領(lǐng)域。

3.1. Shared understanding of data quality dimensions

最近有幾項(xiàng)研究分析了選定開放數(shù)據(jù)集的數(shù)據(jù)質(zhì)量，盡管數(shù)據(jù)質(zhì)量維度和指標(biāo)不同 (Rekatsinas, Dong, Getoor, & Srivastava, 2015)，他們指出了與上文所寫類似的問題。評估數(shù)據(jù)質(zhì)量之前，其在上下文中的使用在很大程度上是未知的，需要有用通用的方式聲明要評估的數(shù)據(jù)質(zhì)量維度的能力。盡管數(shù)據(jù)質(zhì)量維度的概念是非?；A(chǔ)的，但有證據(jù)表明，在幾十年的數(shù)據(jù)質(zhì)量研究中，基本定義已經(jīng)有了很多重疊和矛盾，從而對在通用級別上對數(shù)據(jù)質(zhì)量維度進(jìn)行推理產(chǎn)生障礙。Jayawardene et al. (2013) 已經(jīng)將來自學(xué)術(shù)界、從業(yè)者和產(chǎn)業(yè)界的大量定義整合到了一個(gè)由廣泛的使用案例和示例庫（來源于學(xué)術(shù)界和產(chǎn)業(yè)界文獻(xiàn)）支持的33種數(shù)據(jù)質(zhì)量模式(Sadiq, Jayawardene, &Indulska, 2015) 的庫中，并對其完整性和應(yīng)用性進(jìn)行了驗(yàn)證。盡管綜合的數(shù)據(jù)質(zhì)量維度對過去20年的數(shù)據(jù)質(zhì)量研究和實(shí)踐進(jìn)行了統(tǒng)一，但在數(shù)據(jù)提供者和消費(fèi)者組成的龐大而多樣的群體中發(fā)展共同理解仍然是一項(xiàng)重要的工作。對如何定義數(shù)據(jù)質(zhì)量以及如何使用數(shù)據(jù)質(zhì)量進(jìn)行推理缺乏共同理解，會妨礙協(xié)同處理開放數(shù)據(jù)社區(qū)內(nèi)零碎和孤立的行為的數(shù)據(jù)質(zhì)量的工作。此外，我們初步的研究工作表明，人們對各種國際開放數(shù)據(jù)門戶數(shù)據(jù)集中數(shù)據(jù)質(zhì)量問題的規(guī)模和影響缺乏了解。因此，我們認(rèn)為在努力解決問題之前需要進(jìn)行一項(xiàng)全球研究，使用一致的比較基準(zhǔn)，以探索問題的嚴(yán)重程度。

3.2對質(zhì)量感知的支持

使用開放數(shù)據(jù)相關(guān)的最大風(fēng)險(xiǎn)之一是對數(shù)據(jù)的固有質(zhì)量缺乏認(rèn)識。人們使用開放數(shù)據(jù)的目的經(jīng)常與搜集數(shù)據(jù)時(shí)的計(jì)劃不一樣，因此一個(gè)數(shù)據(jù)集對實(shí)現(xiàn)某一個(gè)目的來說質(zhì)量可能是足夠好的，但它不一定適合完成另一個(gè)目的。開放數(shù)據(jù)的消費(fèi)者通常不是生產(chǎn)者，因此沒有明確的數(shù)據(jù)清理策略，而這通常會導(dǎo)致錯(cuò)誤的數(shù)據(jù)處理和轉(zhuǎn)換方式 (Arocena et al., 2016)。因此，開放數(shù)據(jù)的消費(fèi)者可能會投入大量精力，想從數(shù)據(jù)中產(chǎn)生有價(jià)值的結(jié)果，但最后只能得到不充分的結(jié)果，或者他們甚至可能沒有意識到數(shù)據(jù)本身的質(zhì)量很差，并且依據(jù)錯(cuò)誤的結(jié)果做出判斷。我們認(rèn)為，迫切需要一些探索性的工具和方法讓用戶了解在其期望的用途方面數(shù)據(jù)的缺點(diǎn)。已經(jīng)有一些質(zhì)量感知的查詢系統(tǒng) (Yeganeh et al., 2014)、探索和可視化方法 (Ehsan, Sharaf, & Chrysanthis, 2016)和理解數(shù)據(jù)和模式屬性(Kruse, Papenbrock, Harmouch, & Naumann, 2016)的方法被開發(fā)出來了。然而，在向用戶提供足夠的質(zhì)量感知支持之前，技術(shù)和經(jīng)驗(yàn)研究人員仍面臨許多公開的挑戰(zhàn)。

3.3加強(qiáng)“質(zhì)量-使用”關(guān)系

數(shù)據(jù)質(zhì)量、使用意圖和數(shù)據(jù)的有效使用之間的關(guān)系在學(xué)術(shù)文獻(xiàn)中還未被探索。我們認(rèn)為，有必要進(jìn)行理論開發(fā)和經(jīng)驗(yàn)測試，以確定影響開放數(shù)據(jù)使用有效性的環(huán)境和因素，進(jìn)而從開放數(shù)據(jù)中獲得價(jià)值。探索這些因素的研究將為實(shí)際的開放數(shù)據(jù)項(xiàng)目提供有價(jià)值的指導(dǎo)。雖然最近的一些工作涉及信息系統(tǒng)環(huán)境中的有效使用(Burton Jones & Grange, 2012)，但它們的重點(diǎn)是系統(tǒng)而不是數(shù)據(jù)的有效使用。這些系統(tǒng)還包含組織所知的數(shù)據(jù)，而不是開放（不熟悉）的數(shù)據(jù)，因此，目前關(guān)于信息系統(tǒng)環(huán)境有效使用的理論無法解釋開放數(shù)據(jù)的有效使用。

4結(jié)論

在本文中，出于缺乏理解、甚至沒有能力理解可用開放數(shù)據(jù)潛在的質(zhì)量，我們對其數(shù)量提出了質(zhì)疑，我們概述了三個(gè)需要研究和開發(fā)的領(lǐng)域，以進(jìn)一步構(gòu)建有效使用開放數(shù)據(jù)的知識體系。這些挑戰(zhàn)需要跨研究社區(qū)的信息系統(tǒng)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、社會科學(xué)和商業(yè)，以及管理開放數(shù)據(jù)的機(jī)構(gòu)等等跨學(xué)科團(tuán)隊(duì)的支持。

致謝

此文由南京大學(xué)軟件學(xué)院18級碩士嚴(yán)格翻譯轉(zhuǎn)述。

參考文獻(xiàn)

Abedjan, Z., Golab, L., & Naumann, F. (2015). Profiling relational data: A survey. The VLDB Journal The International Journal on Very Large Data Bases, 24(4), 557–581.

Abiteboul, S., Dong, L., Etzioni, O., Srivastava, D., Weikum, G., Stoyanovich, J., et al.(2015). The elephant in the room: Getting value from Big Data. Proceedings of the 18th international workshop on web and databases.

Arocena, P. C., Glavic, B., Mecca, G., Miller, R. J., Papotti, P., & Santoro, D. (2016).

Benchmarking data curation systems. IEEE Data Engineering Bulletin, 39(2), 47–62, 2016.

Batini, C., Cappiello, C., Francalanci, C., & Maurino, A. (2009). Methodologies for data quality assessment and improvement. ACM Computing Surveys (CSUR), 41(3), 16.

Belkin, R., & Patil, D. J. (2016). Everything we wish we’d known about building data products (Accessed 16 February). http:///review/everything-we-wish-wed-known-about-

building-data-products/

Burton-Jones, A., & Grange, C. (2012). From use to effective use: A representation theory perspective. Information Systems Research, 24(3), 632–658.

Curry, M. (2010). The value density of information.. September 14, (Accessed 16 February 2016). https://mikecurr55./2010/09/14/the-value-density-of-information/

DATA.GOV. (2015). Gun offenders. December 17. http://catalog./dataset/gun-offenders

Dasu, T., & Johnson, T. (2003). . Exploratory data mining and data cleaning (Vol. 479)John Wiley & Sons.

Duus, R., & Cooray, M. (2016). The future will be built on open data – Here’s why..February 6, (Accessed February 16). http:///the-future-will-be-built-on-open-data-heres-

why-52785

Ehsan, H., Sharaf, M. A., & Chrysanthis, P. K. (2016). MuVE: Efficient multi-objective view recommendation for visual data exploration. ICDE.

Elbaz, G. (2012). Data markets: The emerging data economy.. September 30, (Accessed 16 February). http:///2012/09/30/data-markets-the-emerging-data-economy/English, L. P. (2009). Information quality applied: Best practices for improving Business information processes and systems. Wiley Publishing.

Fan, W., & Geerts, F. (2012). Foundations of data quality management. Synthesis Lectures on Data Management, 4(5), 1–217.

Friedman, T. (2013). Magic quadrant for data quality tools. Gartner Group. ISO. (2011). ISO/TS 8000-1 Data quality part 1: Overview. ISO.

Jayawardene, V., Sadiq, S., & Indulska, M. (2013). The curse of dimensionality in data quality. ACIS 2013: 24th Australasian conference on information systems.

Johnston, H. R., & Carrico, S. R. (1988). Developing capabilities to use information strategically. MIS Quarterly, 37–48.

Juran, J. M., Gryna, F. M., & Bingham, R. S., Jr. (1974). Quality control handbook, 1974. McGraw-Hill Book Company. Chapters 9:22.

K?hler, H., Link, S., & Zhou, X. (2015). Possible and certain sql keys. Proceedings of the VLDB Endowment, 8(11), 1118–1129.

Kruse, S., Papenbrock, T., Harmouch, H., & Naumann, F. (2016). Data anamnesis: Admitting raw data into an organization. Bulletin of the Technical Committee on Data Engineering, IEEE Computing Society, 39(June (2)).

Lee, Y. W., Strong, D. M., Kahn, B. K., & Wang, R. Y. (2002). AIMQ: A methodology for information quality assessment. Information & Management, 40(2), 133.

Loshin, D. (2001). Enterprise knowledge management: The data quality approach. San Francisco, Calif and London: Morgan Kaufmann and Brace Harcourt.

McGilvray, D. (2008). Executing data quality projects: Ten steps to quality data and trusted information TM. Elsevier.

Naumann, F., & Rolker, C. (2000). Assessment methods for information quality criteria.

O’Reilly, C. A. (1982). Variations in decision makers’ use of information sources: The impact of quality and accessibility of information. Academy of Management Journal, 25(4), 756–771.

(2014) . Deciding with data. Australia: PricewaterhouseCoopers. September. https://www.pwc.

com.au/consulting/assets/publications/data-drive-innovation-sep14.pdf

Queensland Government.(2016). Queensland Government data.. Last accessed on 25th October 2016. https://data./case-studies

Redman, T. C., & Blanton, A. (1997). Data quality for the information age. Artech House Inc.

Rekatsinas, T., Dong, X. L., Getoor, L., & Srivastava, D. (2015). Finding quality in quantity: The challenge of discovering valuable sources for integration. CIDR.

Sadiq, S., Yeganeh, N. K., & Indulska, M. (2011). 20 years of data quality research: themes, trends and synergies. Proceedings of the twenty-second Australasian database conference-volume 115.

Sadiq, S., Jayawardene, V., & Indulska, M. (2015). Data quality patterns. (Accessed 16 February 2016). http://dke./DataQualityPatterns/

Sadiq, S. (2013). Handbook of data quality. Springer.

Seddon, P. B. (1997). A respecification and extension of the DeLone and McLean model of IS success. Information Systems Research, 8(3), 240–253.

Silver, N. (2012). The signal and the noise: Why so many predictions fail-but some don’t. Penguin.

Song,S., & Chen, L. (2011). Differential dependencies: Reasoning and discovery. ACM Transactions on Database Systems (TODS), 36(3), 16.

Stamford, Conn. (2014). Gartner says beware of the data lake fallacy.. July 28. http://www./newsroom/id/2809117

Tittel, E. (2014). The dangers of dark data and how to minimize your exposure..September 24, (Accessed 16 February, 2016). http://www./article/2686755/data-analytics/the-dangers-of-

dark-data-and-how-to-minimize-your-exposure.html

Yeganeh, N. K., Sadiq, S., & Sharaf, M. A. (2014). A framework for data quality aware query systems. Information Systems, 46, 24–44.

Zhang, R., Jayawardene, V., Indulska, M., Sadiq, S., & Zhou, X. (2014). A data driven approach for discovering data quality requirements. In ICIS 2014: 35^th international conference on information systems.

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： blackhappy > 《我的圖書館》

舉報(bào)/認(rèn)領(lǐng)