splunk針對機器學習的一個計算占用1 core的痛點 ,splunk加入了 深度學習Deep learning Toolkit、ai ml dl 深度學習Deep learning Toolkit分為3中模式: 一、監(jiān)督式學習 二、無監(jiān)督式學習 三、半監(jiān)督式學習 目的是強化機器學習解決之前的痛點,是否有監(jiān)督(supervised),就看輸入數據是否有標簽(label)。輸入數據有標簽,則為有監(jiān)督學習,沒標簽則為無監(jiān)督學習。 其中重點說明了 1)監(jiān)督式 輸入數據被稱為“訓練數據”,每組訓練數據有一個明確的標識或結果,如對防垃圾郵件系統中“垃圾郵件”“非垃圾郵件”,在建立預測模型的時候,監(jiān)督式學習建立一個學習過程,將預 測結果與“訓練數據”的實際結果進行比較,不斷的調整預測模型,直到模型的預測結果達到一個預期的準確率。 監(jiān)督式學習的常見應用場景如分類問題和回歸問題。 常見算法有邏輯回歸(Logistic Regression)和反向傳遞神經網絡(Back Propagation Neural Network) 此處以高考為例,高考的題目在上考場前我們未必做過,但在高中三年我們做過很多很多題目,懂解題方法,因此考場上面對陌生問題也可以算出答案。 機器學習的思路也類似:我們能不能利用一些訓練數據(已經做過的題),使機器能夠利用它們(解題方法)分析未知數據(高考的題目)? 最簡單也最普遍的一類機器學習算法就是分類 (classification)。 對于分類,輸入的訓練數據有特征(feature),有標簽(label)。 所謂的學習,其本質就是找到特征和標簽間的關系(mapping)。 這樣當有特征而無標簽的未知數據輸入時,我們就可以通過已有的關系得到未知數據標簽。在上述的分類過程中,如果所有訓練數據都有標簽,則為有監(jiān)督學習(supervised learning)。如 果數據沒有標簽,顯然就是無監(jiān)督學習(unsupervised learning)了,也即聚類(clustering)。 2)無監(jiān)督式 我們有一些問題,但是不知道答案,我們要做的無監(jiān)督學習就是按照他們的性質把他們自動地分成很多組,每組的問題是具有類似性質的(比如數學問題會聚集在一組,英語問題會聚集在一 組,物理…)。 所有數據只有特征向量沒有標簽,但是可以發(fā)現這些數據呈現出聚群的結構,本質是一個相似的類型的會聚集在一起。 把這些沒有標簽的數據分成一個一個組合,就是聚類(Clustering)。 比如Google新聞,每天會搜集大量的新聞,然后把它們全部聚類,就會自動分成幾十個不同的組(比如娛樂,科技,政 治…),每個組內新聞都具有相似的內容結構。 無監(jiān)督學習還有一個典型的例子就是雞尾酒會問題(聲音的分離),在這個酒會上有兩種聲音,被兩個不同的麥克風在不同的地方接收到,而可以利用無監(jiān)督學習來分離這兩種不同的聲音。 注意到這里是無監(jiān)督學習的原因是,事先并不知道這些聲音中有哪些種類(這里的種類就是標簽的意思)。 目前分類算法的效果還是不錯的,但相對來講,聚類算法就有些慘不忍睹了。確實,無監(jiān)督學習本身的特點使其難以得到如分類一樣近乎完美的結果。 這也正如我們在高中做題,答案(標簽)是非常重要的,假設兩個完全相同的人進入高中,一個正常學習,另一人做的所有題目都沒有答案,那么想必第一個人高考會發(fā)揮更好,第二個人會 發(fā)瘋。 這時各位可能要問,既然分類如此之好,聚類如此之不靠譜,那為何我們還可以容忍聚類的存在? 因為在實際應用中,標簽的獲取常常需要極大的人工工作量,有時甚至非常困難。例如在自然語言處理(NLP)中,Penn Chinese Treebank在2年里只完成了4000句話的標簽…… 從splunk社區(qū)老楊哪里得知他的朋友們感覺splunk 的syslog不太友好,而且很多設備數據接入都是syslog數據類型無法清晰的分辨他們自己開發(fā)了一個splunk connect for syslog。 第三方Splunk Connect for Syslog(SC4S)是一個社區(qū)項目,致力于減輕將syslog數據源引入Splunk的痛苦。SC4S解決的主要痛點包括以下內容…… 社區(qū)中缺乏豐富的syslog專業(yè)知識 syslog服務器部署之間的不一致帶來了支持挑戰(zhàn) 標記了全部源類型“ syslog”的數據源限制了Splunk分析 Splunk索引器之間的數據分配不均會影響搜索性能 Splunk Connect for Syslog應該由需要通過syslog到Splunk加載數據源的任何Splunk客戶使用。 下載鏈接:https://github.com/splunk/splunk-connect-for-syslog 從百度安全人員哪里學習到了lookup的用途以及快速查找的用途,他們有一個痛點是針對tcp6的ip無法定位以及時間上他們用腳本的方式進行校準,還有一個很好用的slookup-file- editor_332,可以清楚的看到你創(chuàng)建的lookup表、以及講述了splunk SAS插件模板的好處可以參考思科的 SAS app。 更多的講述了splunk的8.0+的新功能、對字段的權限控制、自定義指標、工作負載管理等、針對app他們還提供了一個splunk-dashboards-app-beta_032(僅支持8.0版本)可以自定義開發(fā)復 制json 制作相同案例的APP DEMO(針對開發(fā)人員)。 介紹了安全的對接架構Splunk Enterprise Security、Splunk Phantom Splunk 、User Behavior Analytics、Splunk Business Flow。 以上僅個人記憶整理并不代表全部內容。 |
|
來自: BIGDATA云 > 《splunk數據趴》