原文鏈接:http:///?p=26341豆瓣讀書是豆瓣網(wǎng)的一個(gè)子版塊。本文數(shù)據(jù)來源于豆瓣讀書網(wǎng)站(查看文末了解數(shù)據(jù)獲取方式),分析內(nèi)容將基于豆瓣讀書的圖書評(píng)分和評(píng)論信息。主題將緊緊圍繞以下幾點(diǎn):有哪些書籍值得推薦?一般書籍的價(jià)格是多少?一本書的評(píng)分和評(píng)論數(shù)量之間是否存在某種關(guān)系? 熱門書籍分布截至爬取之日,熱門書評(píng)數(shù)量實(shí)時(shí)增長,分別是: ①:評(píng)分>=8.0且評(píng)論超過10w+的書籍;②:只有評(píng)論超過10w+的書;③:按書評(píng)數(shù)量排名TOP8; 經(jīng)過對(duì)比,我發(fā)現(xiàn)一些值得一讀再讀的名著總是在列表中,而且列表中的大部分書籍都是開卷即有益的好書。降低標(biāo)準(zhǔn)后,也出現(xiàn)了一些有益的書籍(《平凡的世界》之類的)。 點(diǎn)擊標(biāo)題查閱往期內(nèi)容 ![]() R語言關(guān)聯(lián)規(guī)則模型(Apriori算法)挖掘雜貨店的交易數(shù)據(jù)與交互可視化 左右滑動(dòng)查看更多 由此可以得出結(jié)論,數(shù)據(jù)分析算法應(yīng)該是綜合多種數(shù)據(jù)得到的權(quán)重模型,所以評(píng)論量大或者評(píng)分高的書不一定值得一讀,綜合考慮得到的結(jié)果可以 被認(rèn)為是公平的。比如郭敬明的《夢(mèng)里花落知多少》,路遙的《平凡的世界》。 書籍的價(jià)格一般都是在什么范圍?對(duì)于讀書愛好者來說,這是一個(gè)比較關(guān)心的問題。 從上圖我們可以發(fā)現(xiàn),大部分書籍的價(jià)格在20-40之間,其他價(jià)格區(qū)間的書籍相對(duì)較少。計(jì)算機(jī)專業(yè)書籍的價(jià)格在60-90之間,低于10元價(jià)格范圍的書籍部分是電子書。我們驚訝地發(fā)現(xiàn)有很多書的價(jià)格超過100元! 可以發(fā)現(xiàn),這些百元以上的書籍,大部分都是史料書籍。價(jià)格高的原因之一是這些書一般分為很多卷,研究意義重大,耗費(fèi)大量人力。 熱門書籍評(píng)價(jià)指標(biāo)Apriori關(guān)聯(lián)規(guī)則分析接下來,我們研究3個(gè)關(guān)鍵評(píng)價(jià)指標(biāo):評(píng)分、評(píng)分?jǐn)?shù)量和評(píng)論數(shù)量之間的關(guān)系。Apriori是常用的關(guān)聯(lián)規(guī)則挖掘方法之一,可以找出3個(gè)評(píng)價(jià)指標(biāo)之間的隱藏關(guān)聯(lián)。 使用平行多維圖來觀察流行書籍評(píng)分、評(píng)分?jǐn)?shù)量和評(píng)論數(shù)量的流行關(guān)聯(lián)規(guī)則。我們發(fā)現(xiàn)大部分書籍的評(píng)分在8.0-8.9之間,評(píng)分?jǐn)?shù)量在20萬-70萬之間。 評(píng)論最多的書有追風(fēng)箏人、解憂的雜貨店、白夜行等,評(píng)分在8.1以上?;旧?,具有更多評(píng)論的作品具有更高的評(píng)分。但是,有些超高分(9分以上)的作品,評(píng)論數(shù)量卻沒有想象中的多! 本文章中的所有信息(包括但不限于分析、預(yù)測、建議、數(shù)據(jù)、圖表等內(nèi)容)僅供參考,__拓端數(shù)據(jù)(__tecdat__)__不因文章的全部或部分內(nèi)容產(chǎn)生的或因本文章而引致的任何損失承擔(dān)任何責(zé)任。 數(shù)據(jù)獲取 |
|