大數(shù)據(jù)時代，企業(yè)如何利用數(shù)據(jù)實現(xiàn)精準化和個性化管理及服務 | 最佳實踐分享

yi321yi 2021-02-18

展開全文

本文原題：《大數(shù)據(jù)時代背景教育企業(yè)的精準化和個性化管理及服務實踐》，以教育行業(yè)項目的建設為例，介紹了如何通過數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)管理和服務的全方位大數(shù)據(jù)管理，為每個學生進行精準畫像，從而實現(xiàn)精準化個性化服務、前置性預警引導服務等，為領導提供數(shù)據(jù)支持和決策參考，最終實現(xiàn)管理提升。該分享值得各個行業(yè)企業(yè)參考。

1 項目概述

1.1 項目背景

隨著時代的不斷進步，科技的迅速發(fā)展，當前人們的生活已經發(fā)生了巨大的改變，越來越多的科學技術成果出現(xiàn)在人們的生活當中，給人們的生活、學習、還有工作都帶來了極大的便捷。現(xiàn)在人們的生活模式已經發(fā)生了翻天覆地的改變，為了不斷的適應社會的具體狀況，人們也在不斷的對自身做出相應的調整，這樣的狀況在我國的高校中也是如此。

當前的社會被人們稱為大數(shù)據(jù)時代，在這樣的時代當中大數(shù)據(jù)為人們更好的認識這個世界提供了幫助，同時也為改變這個世界提供了全新的方法與技術體系。對于高校來說，是一個知識最密集、網絡信息技術運用充分、思想最活躍的前沿征地，為此我們要對高校的發(fā)展給予高度的重視。

大數(shù)據(jù)時代已經來臨，教育行業(yè)作為社會大眾共享的無形財富，其開放己成為數(shù)據(jù)整合和共享應用的前提條件?！笆?期間有望形成和諧健康的行業(yè)生態(tài)?；A設施提供商、大數(shù)據(jù)服務商、數(shù)據(jù)挖掘與分析提供商、數(shù)據(jù)應用服務提供商、數(shù)據(jù)安全提供商、教育行政部門以及教育大數(shù)據(jù)標準研制單位等諸多角色通過合理分工、有效協(xié)同，推進高校大數(shù)據(jù)的持續(xù)有序發(fā)展。

數(shù)字化校園歷經建設多年，沉淀在數(shù)字化校園系統(tǒng)中的數(shù)據(jù)未釋放數(shù)據(jù)的價值來指導高校進行科學決策與科學管理。所以，數(shù)據(jù)建設勢必要提上高校信息化建設日程。高校信息化已數(shù)據(jù)作為切入點進行整體規(guī)劃。高校信息化在高校建設中，已經從網絡化到數(shù)字化，從數(shù)字化到智慧化演進，作為智慧化最突出的標志之一，數(shù)據(jù)化已經成為高校智慧校園建設的任務。如何利用數(shù)據(jù)的采集，分析，計算，挖掘來支撐高校的信息化戰(zhàn)略已成為未來戰(zhàn)略的必然趨勢。

1.2 需求分析

隨著當今時代的不斷發(fā)展，人們逐漸發(fā)現(xiàn)以往傳統(tǒng)的高校學生工作管理模式已經不能夠滿足人們具體的生活需要，高校要想發(fā)展的更好，要想給學生們提供一個良好的教育環(huán)境，那么一定要對自身的管理模式機型進行改變，因為只有這樣高校才能夠長期穩(wěn)定的發(fā)展下去?，F(xiàn)在的高校在對自身的管理模式進行改變的時候，深受社會大數(shù)據(jù)時代背景的影響，同時這也是高校自身在進行改進的時候必須參考的一個數(shù)據(jù)。

教育管理體制改革需求

在我國教育管理體制的不斷改革與發(fā)展中，各大高校的招生規(guī)模越來越大，所設立的專業(yè)也越來越多，相對于高校招生量來說，其管理人員的數(shù)量卻沒有增加，更沒有信息化管理意識。雖然一些高校也為學校擴招工作作了一系列的準備工作，加大了高校輔導員等等的管理隊伍建設，但管理人員的增長水平遠遠達不到高校學生管理工作的需求，以至于使很多管理人員一身兼多職，這樣不僅不能夠保證高校的教學質量，而且還使學生的管理工作難以以達到理想狀態(tài)，這些都是制約高校健康發(fā)展的重要因素。

大數(shù)據(jù)時代里，高校學生管理工作難度加大 21世紀是信息化的世紀、是網絡化的世紀，大數(shù)據(jù)時代的到來不僅給高校的學生管理工作帶來了很大的便利性，同時也讓其面臨著巨大的壓力的挑戰(zhàn)，使學校管理工作的難度越來越大，這就要求高校學生管理的模式能夠與時俱進，這樣才能夠掌握學生們的思想變化，適應學生們的生活方式。

學生管理精準化需求

大數(shù)據(jù)時代對高校學生的管理工作有非常巨大的幫助，高校為了更好的適應時代的發(fā)展，對自身學生工作的管理模式已經做出了巨大的改變。在當今的社會當中隨著計算機信息技術的不斷發(fā)展，互聯(lián)網的最初狀態(tài)已經發(fā)生了翻天覆地的變化，高校已經不再運用以往傳統(tǒng)的管理模式來進行學生的管理工作，而是在學生的管理工作中加入了當今先進的科學技術手段，目前高校已經把社交網絡技術、計算機信息技術、電子商務技術、互聯(lián)網技術等應用到自身的學生管理工作當中，這些先進技術的引進大大的提高了高校學生管理工作的工作效率。

學生管理工作模式變革需求

隨著社會的發(fā)展和高等教育的深刻變革，學生工作的理念和方法也悄然發(fā)生著變化，從最早的２０世紀八十年代較為單一的傳統(tǒng)工作模式到“以學生為中心”“以學習為中心”的注重學生成長發(fā)展的學生工作模式，學生工作理念正逐步實現(xiàn)從管理到管理服務并重到服務的轉變。今天，學生工作面臨的對象是一個在移動互聯(lián)網時代成長起來的群體，網絡已經成為他們生活的一部分，如網絡閱讀、網絡學習、網絡購物、網絡娛樂等，他們已經成為網絡文化形成參與的主體，且呈現(xiàn)出個性化發(fā)展的特征。面對這樣一個青年大學生群體，靠傳統(tǒng)的隨機抽樣或經驗去了解他們的工作模式已失去了優(yōu)勢，一種新的依托大數(shù)據(jù)技術開展學生工作的模式應運而生。

1.3 建設目標

在大數(shù)據(jù)時代,教育政策的制定不再是簡單的經驗模仿,更不是政策制定者以自己有限的理解、假想、推測來取代全面的調查、論證和科學的判斷,而是強調更精細化地捕捉各個層面的變化數(shù)據(jù),以及由數(shù)據(jù)展現(xiàn)的復雜相關與因果關系,將教育治理與政策決策帶來的危機化為機遇。

在管理決策方面 , 學工大數(shù)據(jù)不論是在幫助決策者更為清晰地了解現(xiàn)狀,及時掌握更為全面、更有價值的信息方面,還是在制定、實施、調整具體的學生管理政策過程中,都具有舉足輕重的作用。

本項目的建設將對重點圍繞學生管理工作需求，采集學生在學校期間的學習、生活、作息、消費、運動、圖書借閱等多位維度的數(shù)據(jù)，包含數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)治理、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)管理和服務的全方位大數(shù)據(jù)管理平為每個學生進行精準畫像，這樣讓學生管理這對管理對象能夠深入的了解，便于為每個學生提供精準化和個性化的服務，同時實現(xiàn)之前從后置性應急管理轉變?yōu)榍爸眯灶A警引導等服務，促進教學管理改革，提高對學校整體狀況的把控，為領導提供數(shù)據(jù)支持和決策參考。

實現(xiàn)精細化管理到精準化服務的模式轉變，學生工作事無巨細，涉及學生成長的方方面面，在大數(shù)據(jù)時代，在工作模式和方法上，會對學生工作進行管理上的變革，運用大數(shù)據(jù)技術將學生工作從精細化管理轉向精準化服務。學生工作精準化服務主要體現(xiàn)在兩方面：一是學生工作者要掌握學生精準特征。青年大學生，作為年輕的成人，他們思維活躍、個性獨立，呈現(xiàn)出思想多元化、需求多樣化的特征，再加上大學生面臨著前所未有的全球化、國際化、互聯(lián)互通、復雜多變的社會環(huán)境，大學生的學習行為、生活習慣、思維模式、價值觀念都發(fā)生了深刻的變化，成長過程中也會碰到諸多現(xiàn)實困惑，這就要求學生工作者利用大數(shù)據(jù)的技術全面精準地了解學生的特點和需求。二是為學生提供私人定制的成長服務。每個學生都是獨立個體，因其教育背景、生源地、家庭狀況等的差異性，會導致不同個體或群體的需求，采用團體輔導、個體輔導、朋輩輔導等方式為學生提供精準化服務。當然，學生工作者重在“輔”和“導”，要得到學生的配合和支持，需要他們主動提供自己的各類數(shù)據(jù)，與學生工作者一起診斷，認知自己，進而實現(xiàn)自我管理、自我成長。

學工大數(shù)據(jù)作為高校的大數(shù)據(jù)服務平臺和高校智慧校園的一個子集，將為未來的高校大數(shù)據(jù)服務平臺和智慧校園提供豐富的數(shù)據(jù)源和基礎。

2 建設方案

2.1 總體架構

2.1.1 數(shù)據(jù)采集和清洗

數(shù)據(jù)源：包括的高校的業(yè)務系統(tǒng)（學工、人事、財務、教務、一卡通、科研、后勤、公寓、）等結構化數(shù)據(jù)、硬件的設備數(shù)據(jù)（防火墻設備的日志、上網行為審計的學生上網相關數(shù)據(jù)、以及音視頻、無線WIFI）等非結構化數(shù)據(jù)、互聯(lián)網的數(shù)據(jù)（智聯(lián)、前程無憂等招聘網站的崗位招聘信息）半結構化數(shù)據(jù)。

學生業(yè)務系統(tǒng)數(shù)據(jù)調研情況表

數(shù)據(jù)采集層：

1、針對結構化數(shù)據(jù)，采用業(yè)界穩(wěn)定成熟的Sqoop工具。Sqoop是一款強大的開源的工具，主要用于在Hive、Hbase與傳統(tǒng)的關系數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞?？梢詫⒁粋€關系型數(shù)據(jù)庫中的數(shù)據(jù)導進到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導進到關系型數(shù)據(jù)庫中，在項目實施過程中使用頻率最高；

2、針對非結構化數(shù)據(jù)，采用業(yè)務穩(wěn)定成熟的Flume（一個分布式、高可靠和高可用的海量日志聚合系統(tǒng)，支持從各類數(shù)據(jù)發(fā)送方采集數(shù)據(jù)，同時也提供對數(shù)據(jù)的簡單處理里能，并可以將處理后的數(shù)據(jù)定制化地寫入各種數(shù)據(jù)接收方） kafka（是一個分布式的、可分區(qū)的、多副本的實時消息發(fā)布和訂閱系統(tǒng)，提供可擴展、高吞吐、低延遲、高可靠的消息分發(fā)服務），這個主要實現(xiàn)對智能設備和軟件系統(tǒng)產生的日志信息這類型數(shù)據(jù)，另外針對各種文件類型的數(shù)據(jù)，例如word文檔、視頻、圖片等等。采用http、ftp等協(xié)議，這類數(shù)據(jù)采集完成后直接將數(shù)據(jù)存儲到HDFS中。

3、針對半結構化數(shù)據(jù)，主要使用采用爬蟲系統(tǒng)、kafka消息隊列系統(tǒng)、spark數(shù)據(jù)解析和HDFS數(shù)據(jù)存儲（可以選擇使用Elasticsearch）來配合完成。

數(shù)據(jù)預處理：采集到大數(shù)據(jù)平臺的數(shù)據(jù)由于原有系統(tǒng)設計約束不健全或是業(yè)務人員錄入等原因造成數(shù)據(jù)可能存在缺失、噪聲、重復、錯誤等問題，需要對于存儲到平臺中數(shù)據(jù)需要做預處理（清洗、集成（數(shù)據(jù)往往分布在不同的數(shù)據(jù)源中，數(shù)據(jù)集成就是將來自多個數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲中的過程）），這部分工作需要業(yè)務部門的人員配合梳理，同時還需要對之前分散的數(shù)據(jù)按照前端應用分析集成面向主題數(shù)據(jù)，建立針對應用的主題數(shù)據(jù)庫（采用MYSQL的分布式架構MYCAT部署和存儲數(shù)據(jù)）。

1、對于缺失值：采用人工填寫替換（將缺失的屬性值用同一個常量替換）、邏輯補值（例如根據(jù)身份證號識別出生年月日、出生地等信息）、業(yè)務系統(tǒng)填寫（從其他業(yè)務系統(tǒng)中找出響應的數(shù)值）、以業(yè)務知識或經驗推測、重新提?。ㄈ绻承┲笜朔浅Ｖ匾秩笔矢?、那就需要和業(yè)務人員了解和溝通，是否通過其他渠道可以取到相關數(shù)據(jù)）、放棄（對于缺失維度較大的數(shù)據(jù)，采取放棄的做法）；

2、重復數(shù)據(jù)：采用時間（數(shù)據(jù)錄入的時間先后順序取舍）、人工刪除、業(yè)務邏輯去重；

3、錯誤數(shù)據(jù)：不合理值修正（例如學生的年齡200歲、學生的成績異常1000分，必須指定在某個區(qū)間內）、格式錯誤修正（包括時間、日期、數(shù)值、全半角等顯示格式不一致，指定統(tǒng)一的格式進行轉換）、前后文矛盾修正（例如學生的身份證號是1101031980XXXXXXXX，然后年齡填18歲）、人工修正。

數(shù)據(jù)標準：為確保實現(xiàn)高校數(shù)據(jù)的集成和共享和實現(xiàn)校本數(shù)據(jù)的積累，重點參照教育部出臺的《高等學校管理信息標準》“學生管理數(shù)據(jù)子集”中的規(guī)范，結合學校實際情況，建立大學生基礎信息編碼規(guī)范和數(shù)據(jù)子集規(guī)范，統(tǒng)一學生編碼，確保學生的編碼唯一；統(tǒng)一部門編碼，保證部門編碼的唯一；統(tǒng)一所有業(yè)務系統(tǒng)的數(shù)據(jù)編碼，保證業(yè)務數(shù)據(jù)的準確；同時制訂編碼和數(shù)據(jù)的管理、更新、維護規(guī)范。

數(shù)據(jù)質量：數(shù)據(jù)質量監(jiān)控實現(xiàn)數(shù)據(jù)質量的自動檢查、監(jiān)控、報告等功能，包括數(shù)據(jù)質量檢查規(guī)則庫（包括唯一性、重復性、及時性、完整性、準確性、規(guī)范性、一致性等維度）、規(guī)則執(zhí)行引擎（按照指定好的規(guī)則按時執(zhí)行，例如每天、時間0：00-06：00）、數(shù)據(jù)質量報告（對于檢查出的問題及時提交給用戶業(yè)務部門）、報告推送等功能。核心是規(guī)則庫，與業(yè)務無關的規(guī)則由技術人員獨立開發(fā)，與業(yè)務相關的規(guī)則需要技術人員和業(yè)務人員共同確定檢查規(guī)則，然后編寫規(guī)則腳本。規(guī)則執(zhí)行引擎可以定時批量執(zhí)行檢查規(guī)則，及時發(fā)現(xiàn)數(shù)據(jù)質量問題，將數(shù)據(jù)質量報告第一時間推送給業(yè)務部門和指定相關人員，便于及時糾正問題數(shù)據(jù)。

數(shù)據(jù)質量報告

2.1.2 數(shù)據(jù)存儲和檢索

數(shù)據(jù)存儲：對于采集到平臺內的數(shù)據(jù)進行統(tǒng)一存儲，

1、結構化數(shù)據(jù)：對于從傳統(tǒng)關系數(shù)據(jù)庫（mysql、Oracle等）采集過來的結構化數(shù)據(jù)則存放在Hive（建立在Hadoop基礎上的開源數(shù)據(jù)倉庫，提供類似SQL的HQL（Hive Query Language）語言對存儲在Hadoop中的大規(guī)模數(shù)據(jù)進行存儲、查詢和分析操作）庫中；

2、非結構化數(shù)據(jù)（音視頻、圖片、Word這類型的文件類型的數(shù)據(jù)）存放在HDFS（Hadoop分布式文件系統(tǒng)（Hadoop Distributed File System），提供高吞吐量的數(shù)據(jù)訪問能力，適合用于大規(guī)模海量數(shù)據(jù)的存儲）中；

3、半結構化數(shù)據(jù)（設備的日志、WIFI、一卡通流水）則存放在HBase（是一種構建在HDFS之上的分布式、面向列的存儲系統(tǒng)，提供海量數(shù)據(jù)存儲功能，適合實時讀寫、隨機訪問超大規(guī)模數(shù)據(jù)集的應用場景）中。

數(shù)據(jù)檢索：面對結構化的數(shù)據(jù)存儲檢索，將使用Impala標準數(shù)據(jù)檢索框架對hive數(shù)據(jù)格式存放在HDFS中的數(shù)據(jù)進行高速檢索，并且使用Impala的MPP查詢架構對存放信息進行高速查詢，同時還采用ElasticSearch分布式全文檢索框架，用作對大量索引的高速檢索，其中涉及到大數(shù)據(jù)分析中的語義分析功能（例如：分詞器），可以對非結構化文件生成結構化索引，達到轉換查詢的目的。

2.1.3 分布式計算和挖掘

分布式計算：對于實時性要求較低的計算和分析，采用MapReduce分布式離線框架計算引擎（MapReduce是一種分布式計算模型。它提供了快速并行處理海量數(shù)據(jù)的能力，主要用解決海量數(shù)據(jù)的批量計算問題。MR由 Map和Reduce兩個過程組成。Map過程將一個分片數(shù)據(jù)根據(jù)用戶定義的Map邏輯處理后，經由MapReduce框架處理，形成輸出結果，供后續(xù)Reduce過程使用。Reduce過程即將Map的結果作為輸入，根據(jù)用戶定義的Reduce邏輯，將數(shù)據(jù)處理并匯總，輸出最后的結果。在開發(fā)過程中，用戶只需實現(xiàn)map()和reduce()兩個函數(shù)，即可實現(xiàn)分布式計算。）；

對于實時性要求較高的應用類計算和分析，采用Spark基于內存的迭代式運算(Spark是基于內存計算的的大數(shù)據(jù)分布式計算框架。它是基于MapReduce算法實現(xiàn)的分布式計算平臺，具有MapReduce所有優(yōu)點。不同于MapReduce的是，Spark計算任務的中間結果和最終結果都可以保存在內存中，從而計算過程不再讀寫分布式文件系統(tǒng)。因此，Spark更加適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce算法)，適合于例如對一卡通數(shù)據(jù)的分析和各類食堂、圖書館、洗澡堂等推薦功能應用場景。

算法引擎：采用Apache Mahout（是個可擴展的機器學習和數(shù)據(jù)挖掘庫）內常見的需要用到的功能算法有時序分析、主成分分析、關聯(lián)和推薦、、統(tǒng)計、分類、聚類、回歸、特征工程、判別、信念網絡、圖計算等算法；

運維監(jiān)控：對大數(shù)據(jù)環(huán)境系統(tǒng)的分布式組件、硬件資源進行實時監(jiān)控和運維管理，采用Cloudera Manager組件，是一個擁有集群自動化安裝、中心化管理、集群監(jiān)控、報警功能的一個工具（軟件）,使得安裝集群從幾天的時間縮短在幾個小時內，運維人員從數(shù)十人降低到幾人以內，極大的提高集群管理的效率

（1）管理：對集群進行管理，如添加、刪除節(jié)點等操作。

（2）監(jiān)控：監(jiān)控集群的健康情況，對設置的各種指標和系統(tǒng)運行情況進行全面監(jiān)控。

（3）診斷：對集群出現(xiàn)的問題進行診斷，對出現(xiàn)的問題給出建議解決方案。

（4）集成：對hadoop的多組件進行整合。

其他服務組件：包括分布式協(xié)調服務采用ZooKeeper（提供分布式、高可用性的協(xié)調服務，幫助系統(tǒng)避免單點故障，建立可靠的應用服務）組件對Hive、HBase、HDFS中的master組件功能提供HA功能，工作流調度引擎采用oozie工具，實現(xiàn)大數(shù)據(jù)環(huán)境下個各類資源之間的調度功能，資源調度則采用YARN（可以為各類應用程序進行資源管理和調度），實時對分布式環(huán)境下的CPU、內存、硬盤、網絡等資源進行監(jiān)控，按照前端應用的需求動態(tài)分配這些資源。

2.2 基礎支撐平臺

大數(shù)據(jù)底層基礎支持平臺統(tǒng)一采用VMware的虛擬化軟件來構建整體云計算架構，基礎支撐平臺虛擬化是實現(xiàn)業(yè)務虛擬化的基礎和關鍵，上層的應用支撐和業(yè)務服務都要依賴與基礎架構平臺，以滿足資源可靠性、可用性及可服務性需求。目前階段部署和實施，滿足的當前的業(yè)務應用，后期再逐步的完善功能。

基礎支撐平臺進行虛擬化設計后，可將學校的服務器、存儲、網絡等硬件層設備形成計算資源池、存儲資源池和網絡資源池。在服務器虛擬化的支撐下，為現(xiàn)階段運行、未來擴建的各應用系統(tǒng)提供系統(tǒng)級高可用、容錯、系統(tǒng)在線遷移、存儲在線遷移、資源動態(tài)負載均衡、虛擬機自動備份等功能，同時借助云資源管理服務，資源池在不同組織間的動態(tài)調配等能力。

2.2.1 虛擬資源需求

運行大數(shù)據(jù)平臺共需15臺VM，每臺VM的配置如下，分別用于安裝和部署如下功能組件：

2.2.2 物理服務器

配置4臺物理服務器，作業(yè)虛擬化的計算和存儲資源池，每臺配置如下：CPU：2E5-2600系統(tǒng) (2.5GHz/12c)；內存：192GB DDR4；存儲：71.2TB SAS硬盤；RAID：1GB緩存，支持1/0/5/6；網卡：四千兆，雙端口SFP 萬兆網卡 2個萬兆光模塊；

計算資源：21284=768核＞280核

內存資源：1924=768GB＞560GB

存儲資源：612004/1000≈29TB＞27TB

2.2.3 網絡資源

1、建議部署Hadoop組件（HDFS\HIVE\HBASE\YRAN\ZK等）的每臺VM配置雙千兆網卡，有條件最好是配置萬兆網路或是鏈路聚合功能，保障一條網絡鏈路出現(xiàn)故障后，網絡任可正常服務和性能要求。

2、對于前端的WEB服務器（部署HA集群），建議每臺VM配置單千兆網卡即可；

3、大數(shù)據(jù)環(huán)境系統(tǒng)所有VM建議都在一個網段。

大數(shù)據(jù)平臺網絡拓撲圖

2.2.4 存儲資源

存儲資源如果有條件，可以采用單獨磁盤陣列，或是采用服務器內的硬盤（可以采用SSD（作為緩存） HDD（數(shù)據(jù)容量）混合模式）作為存儲的資源。

2.3 建設效果

2.3.1 精準畫像

所謂用戶畫像，即通過多維的數(shù)據(jù)整體描述用戶的特征，那么學生的畫像就是通過采集學生在校期間的學習、生活、運動、作息、上網等多個維度的數(shù)據(jù)量化后，給每個學生都賦上特征屬性標簽（學生的作息規(guī)律、努力程度、經濟情況、社交關系等），進行全方位的分析，可以用于揭示學生在校學習、成長和生活軌跡，從而為學校針對學生進行個性化和精準化的管理和引導提供重要依據(jù)。

2.3.2 社交網絡

社交網絡的構建是通過分析學生之間校園行為軌跡相似性來實現(xiàn)的，主要是通過統(tǒng)計學生在地點共現(xiàn)（短時間內出現(xiàn)在同一地點，例如食堂、圖書館、澡堂等，通過WIFI和一卡通、門禁等數(shù)據(jù)的采集）的頻率，也就是說通過采集學生之間在某個時間點內同時出現(xiàn)的概率，概率越高，就認為是朋友關系，類似于微信的朋友圈等，分析共現(xiàn)的顯著性。同時通過大數(shù)據(jù)的挖掘與分析，給不同個體賦上獨特屬性標簽，如專業(yè)、性別、民族等，并以此分析出其個性化的社交需求，對其社交圈進行刻畫。

可以構建每個學生在班級、年級、院系的社交網絡關系圖，基于個人的社交網絡構建全校學生的設計網絡關系圖，越是處于中心人員，人際交往和社交關系比較好，越是邊緣或是連接點很少的，人際交往相對會差一些，用于發(fā)現(xiàn)校園內孤獨人群、進行心里健康輔導、以及一些重點人群監(jiān)控等，同時可以指定相應的社交關系網絡推薦或是信息推送服務等，例如可以為學生匹配和推薦行為習慣和興趣愛好相識的個體建立社交關系等，更好地服務于學生個體的社會交往需要。

2.3.3 成績預警

高校學生成績特別好、特別差和成績突變的學生是教育者最關心的人群，那么影響學生成績的因素除了第一課堂（學習成績、到課率、準點率、基礎知識掌握情況），還有第二課堂（學生參加活動、獎懲情況）、經濟消費、個人信息、生活規(guī)律和上網等幾個方面，針對成績預警，可以綜合這幾個維度進行全方位分析，提示教育者及早發(fā)現(xiàn)問題并進行干預，盡可能避免掛科問題。

1、基礎知識相關性：基于矩陣分解的降維技術，通過分析課程之間在基礎知識上的相關性來進行掛科預測。例如某學生在第一學年課程中修高等數(shù)學1成績不好掛科了，那么當他在修高等數(shù)學2的時候，系統(tǒng)就會提醒該學生有可能掛科；

2、基于學生努力程度：通過用學生在校的打水、出入圖書館、出入自習室的次數(shù)以及圖書借閱情況（例如成績好的學生借閱的都是專業(yè)方向的讀物，而成績差的同學喜歡借閱諸如小說的各類課外讀物）綜合來度量其努力程度，可以反映學生上自習或者上課的頻率，間接反映了學生花在學習上的時間。因而，去教學樓打水次數(shù)高的學生、頻繁去圖書館的同學成績較好。

3、基于學生的行為：選用學生上課監(jiān)控數(shù)據(jù)，準點率，出勤率、努力程度、作息、上網是否健康，并結合上學期成績，做加權求和，目的在于反應學生本學期的學習基礎與學習態(tài)度，評價學生學習是否健康，公式如下所示：

f（成績（包含德育成績））

其中f（x）為歸一化函數(shù)。再根據(jù)學生飲食是否健康。良好合理的健康飲食習慣是身體健康的保障；不良的飲食習慣則會導致人體正常的生理功能紊亂而感染疾病，嚴重時甚至會影響正常工作學習生活。因此飲食要按照科學的比例進行，公式如下：

飲食指數(shù)=（2×f（p_m） 2×f（t_d） f（S） f（p_n））/6

其中f（x）為歸一化函數(shù)，p_m，t_d，S，p_n分別為早餐評價，用餐標準差評價，消費差評價，宵夜評價。

還有作息時間是否規(guī)律、上網時長是否合理、準點率和出勤率是否正常以及歷史學科成績等分析，最終形成學生學業(yè)成績分析結果。這個算法背后的思想是通過分析學生的作息時間、行為軌跡、上課情況等各事物間的相關性來進行成績預測，例如：作息時間規(guī)律、出勤率高、去圖書館較頻繁、按時吃早餐等的同學成績較好。

2.3.4 精準資助

準確識別扶助對象是實施“精準資助”管理服務的前提，客觀、動態(tài)和多維度大數(shù)據(jù)整合庫，是實施“精準資助”的基礎。對貧困生判定的影響因子主要包括：（1）家庭基本信息，包括學生家庭成員組成、家庭成員信息、成員學歷、家庭年收入、負債金額等基本家庭信息。（2）歷史資助信息，學生以往獲得的資助信息（是否獲得資助、資助金額以及經濟困難情況）（3）一卡通（食堂、超市、醫(yī)院、開水室、自助打印、電費、洗衣房、浴室等）消費數(shù)據(jù)，包括一卡通平均單次消費金額、單次充值金額及充值間隔、月消費總額、逐月消費變化趨勢、消費時間段規(guī)律等。（4）消費趨勢，即獲得資助后消費習慣和軌跡改變的數(shù)據(jù)信息，如在獲得資助之后出現(xiàn)大額消費的數(shù)據(jù)信息。（5）調查問卷，收集來自于輔導員及周圍同學日常評價并轉換為量化數(shù)據(jù)。通過對以上數(shù)據(jù)的收集和處理分析，基于大數(shù)據(jù)分析的基礎上，建立精準資助模型：

精準資助模型

精準資助主要提供一下兩方面的功能：

一是識別虛假貧困生，通過大數(shù)據(jù)綜合分析學生的各類消費數(shù)據(jù)，能夠有效識別家庭經濟情況較好的學生申報貧困生名額冒領國家資助的現(xiàn)象，對于這類學生取消其資助資格；

二是發(fā)現(xiàn)潛在貧困生，對于一些貧困學生由于自尊心較強等因素，往往不會主動申請資助，這樣就使得這類學生難以通過傳統(tǒng)的方式來被學校管理這發(fā)現(xiàn)?，F(xiàn)在通過精準資助識別系統(tǒng)，能迅速地發(fā)現(xiàn)此類學生，并可以采取發(fā)放隱性補助的方式進行幫扶（例如每月定時向其一卡通內存入一定數(shù)額資金），同時，根據(jù)對貧困生的等級（一般、嚴重、特別），實施動態(tài)補助等方式。

很好地幫助困難資助管理工作者對學生資助信息實施動態(tài)管理。通過以上流程構建起數(shù)據(jù)收集、存儲、分析和數(shù)據(jù)挖掘為一體的大數(shù)據(jù)精準篩選、甄別和定位系統(tǒng)，客觀公正且及時、動態(tài)和準確地識別校園亟待資助和扶助對象。

3 核心組件

1、HDFS：是Hadoop應用程序中主要的分布式儲存系統(tǒng)， HDFS集群包含了一個NameNode（主節(jié)點），這個節(jié)點負責管理所有文件系統(tǒng)的元數(shù)據(jù)及存儲了真實數(shù)據(jù)的DataNode（數(shù)據(jù)節(jié)點，可以有很多）。HDFS針對海量數(shù)據(jù)所設計，所以相比傳統(tǒng)文件系統(tǒng)在大批量小文件上的優(yōu)化，HDFS優(yōu)化的則是對小批量大型文件的訪問和存儲。

2、MapReduce：是一個軟件框架，用以輕松編寫處理海量（TB級）數(shù)據(jù)的并行應用程序，以可靠和容錯的方式連接大型集群中上萬個節(jié)點（商用硬件）。

3、Hive：是Hadoop的一個數(shù)據(jù)倉庫系統(tǒng)，促進了數(shù)據(jù)的綜述（將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表）、即席查詢以及存儲在Hadoop兼容系統(tǒng)中的大型數(shù)據(jù)集分析。Hive提供完整的SQL查詢功能——HiveQL語言，同時當使用這個語言表達一個邏輯變得低效和繁瑣時，HiveQL還允許傳統(tǒng)的Map/Reduce程序員使用自己定制的Mapper和Reducer。hive類似CloudBase，基于hadoop分布式計算平臺上的提供data warehouse的sql功能的一套軟件。使得存儲在hadoop里面的海量數(shù)據(jù) 的匯總，即席查詢簡單化。

4、HBase：是Hadoop數(shù)據(jù)庫，一個分布式、可擴展的大數(shù)據(jù)存儲。它提供了大數(shù)據(jù)集上隨機和實時的讀/寫訪問，并針對了商用服務器集群上的大型表格做出優(yōu)化——上百億行，上千萬列。其核心是Google Bigtable論文的開源實現(xiàn)，分布式列式存儲。就像Bigtable利用GFS（Google File System）提供的分布式數(shù)據(jù)存儲一樣，它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。

5、ZooKeeper：是Google的Chubby一個開源的實現(xiàn)。它是一個針對大型分布式系統(tǒng)的可靠協(xié)調系統(tǒng)，提供的功能包括：配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。