日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

初識(shí)Elastic search—附《Elasticsearch權(quán)威指南—官方guide的譯文》

 小世界的野孩子 2022-03-10

本文作為Elastic search系列的開(kāi)篇之作,簡(jiǎn)要介紹其簡(jiǎn)要?dú)v史、安裝及基本概念和核心模塊。

  •  簡(jiǎn)史

Elastic search基于Lucene(信息檢索引擎,ES里一個(gè)index—索引,一個(gè)索引指向一個(gè)或者多個(gè)分片—shards,一個(gè)分片就是一個(gè)Lucene實(shí)例。Lucene的作者——Doug Cutting同是也是hadoop的作者)。

ES的誕生于04年,Shay Banon——據(jù)傳剛失業(yè)又新婚,禍不單行(港蓉蒸蛋糕,蒸的嗎),在Lucene的基礎(chǔ)上為他去倫敦學(xué)廚師的老婆做的食譜搜索。一不小心,搞出了ES,然而老婆大人的食譜搜索卻遙遙無(wú)期,估計(jì)Shay在家鍵盤(pán)跪爛。

然后呢,官網(wǎng)出了個(gè)Kibana (ELK—Elasticsearch, logstash, kibana三劍客之一,另外Elastic認(rèn)證了解一下——截止目前國(guó)內(nèi)考過(guò)的不足500人),一個(gè)web應(yīng)用程序,用圖表啊、地圖啊等面板來(lái)可視化數(shù)據(jù)(圖像天然具有親和力,詳見(jiàn) Guide, 初步的安裝及說(shuō)明詳見(jiàn)附錄5),如下圖:

  • 安裝

windows上安裝Elastic search 請(qǐng)參考附注2 鏈接(需要安裝IK分詞器,以更好的支持漢語(yǔ)分詞;安裝elasticsearch-head ,簡(jiǎn)單的可視化的web客戶(hù)端,可支持基本的查詢(xún)操作或者通過(guò)DSL檢索結(jié)果——為支持它,需要裝Node.js; node.js 又需要集成 npmgrunt

elasticsearch-head 效果如下圖:

  • 核心概念

  Elastic Search是一個(gè)實(shí)時(shí)分布式搜索和分析引擎,處理大數(shù)據(jù)相當(dāng)?shù)纳瞄L(zhǎng)。Stackoverflow、Github、Wiki以及英國(guó)衛(wèi)報(bào)等在全文檢索、代碼搜索(Github超過(guò)1300億行)、地理位置查詢(xún)、社交網(wǎng)絡(luò)實(shí)時(shí)數(shù)據(jù)等領(lǐng)域均廣泛深入的使用了ES,國(guó)內(nèi)的字節(jié)跳動(dòng)、騰訊、阿里、百度均有相關(guān)應(yīng)用。目前認(rèn)為其核心概念包括:

  • Score

就是根據(jù)一套規(guī)則和算法,滿(mǎn)足搜索條件的文檔,其中相關(guān)信息的匹配度(或稱(chēng)之為相關(guān)度),打分越高,則匹配度越高,搜索結(jié)果按打分高低(匹配度)倒敘展示。如下圖的一個(gè)搜索結(jié)果:

 

 具體的Score,涉及到Norm(歸一化)和Boost(可以設(shè)置field和document的Boot—相當(dāng)于權(quán)重的概念)

  • 集群(Cluster)、節(jié)點(diǎn)(Node)和分片(shards)

集群即多臺(tái)物理機(jī)構(gòu)成,每個(gè)物理機(jī)包含多個(gè)節(jié)點(diǎn)(其中只有一個(gè)Master Node),每個(gè)節(jié)點(diǎn)包含多個(gè)分片,每個(gè)分片可以有0個(gè)或多個(gè)復(fù)制分片做必要的數(shù)據(jù)冗余。其分布式特性,通過(guò)底層的如下操作自動(dòng)完成:

(1)將你的文檔分區(qū)到不同的容器或者分片(shards)中,它們可以存在于一個(gè)或多個(gè)節(jié)點(diǎn)中。

(2)將分片均勻的分配到各個(gè)節(jié)點(diǎn),對(duì)索引和搜索做負(fù)載均衡。 冗余每一個(gè)分片,防止硬件故障造成的數(shù)據(jù)丟失。

(3)將集群中任意一個(gè)節(jié)點(diǎn)上的請(qǐng)求路由到相應(yīng)數(shù)據(jù)所在的節(jié)點(diǎn)。

(4)無(wú)論是增加節(jié)點(diǎn),還是移除節(jié)點(diǎn),分片都可以做到無(wú)縫的擴(kuò)展和遷移。

  • 索引(Index)

Elastic Search使用倒排索引(Inverted Index)來(lái)做快速的全文搜索(不同于一般數(shù)據(jù)庫(kù)的索引,用B-Tree來(lái)實(shí)現(xiàn))。具體倒排索引原理,可能需要單獨(dú)的一篇博客來(lái)說(shuō)明

  • 分詞(analysis)

分析(analysis)是這樣一個(gè)過(guò)程:

(1)首先,表征化一個(gè)文本塊為適用于倒排索引單獨(dú)的詞(term)

(2)然后標(biāo)準(zhǔn)化這些詞為標(biāo)準(zhǔn)形式,提高它們的“可搜索性”或“查全率”

 

這個(gè)工作是分析器(analyzer)完成的。一個(gè)分析器(analyzer)包含如下三個(gè)功能:

  (1)字符過(guò)濾器

  首先字符串經(jīng)過(guò)字符過(guò)濾器(character filter),它們的工作是在表征化(譯者注:這個(gè)詞叫做斷詞更合適)前處理字符串。 字符過(guò)濾器能夠去除HTML標(biāo)記,或者轉(zhuǎn)換 "&" 為 "and" 。

  (2)分詞器

  下一步,分詞器(tokenizer)被表征化(斷詞)為獨(dú)立的詞。一個(gè)簡(jiǎn)單的分詞器(tokenizer)可以根據(jù)空格或逗號(hào)將單詞分開(kāi) (譯者注:這個(gè)在中文中不適用)。

  (3)表征過(guò)濾

  最后,每個(gè)詞都通過(guò)所有表征過(guò)濾(token filters),它可以修改詞(例如將 "Quick" 轉(zhuǎn)為小寫(xiě)),去掉詞(例如停用詞 像 "a" 、 "and"``"the" 等等),或者增加詞(例如同義詞像 "jump" 和 "leap" )

 

  • 字段共享

ES本質(zhì)上和關(guān)系型數(shù)據(jù)庫(kù)還是有差別,并不能和DB的各個(gè)概念完全對(duì)應(yīng)。默認(rèn)同名的Fields在整個(gè)Indices共享,因此你不能在Type里定義同名的多個(gè)Filelds,導(dǎo)致刪除數(shù)據(jù)只能整個(gè)索引一起刪除,而不能單單刪除一個(gè)Type


 

  • 基礎(chǔ)知識(shí)
  1. 文檔

Elastic search是面向文檔的,文檔歸屬于一種類(lèi)型(type),而這些type存在(索引)index里。傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)和ES的簡(jiǎn)單對(duì)比如下圖(6.0版本后默認(rèn)支持single type,涉及字段共享的優(yōu)化):

Relational DB Databases Tables Rows Columns
ElasticSearch Indices Types Documents Fields

    2.檢索文檔

支持HTTP的GET、PUT、HEAD、DELETE(由于字段共享等原因,ES目前不支持刪除表,只能整個(gè)索引一起刪除)、POST操作,如下圖(故可直接用postman、SoapUI、Chrome插件ElasticSearch Head 等工具發(fā)http請(qǐng)求來(lái)查詢(xún)文檔):

ES提供豐富靈活的查詢(xún)語(yǔ)句(另外Elasticsearch-sql插件可以自動(dòng)將sql語(yǔ)句翻譯為DSL)——Query DSL(基本的語(yǔ)法有filter,bool—包括should【類(lèi)似于Or】、must【類(lèi)似于and】, term—精確匹配, match,range,exists,missing等),有了它構(gòu)建復(fù)雜、強(qiáng)大的查詢(xún)都不事兒,如下圖(用postman,查詢(xún) age > 30 last_name = "smith"):

    3. 字段數(shù)據(jù)類(lèi)型

 官方文檔:Mapping types (Mapping——映射,相當(dāng)于關(guān)系數(shù)據(jù)庫(kù)的表結(jié)構(gòu)定義)

  •  核心數(shù)據(jù)類(lèi)型 (只列工作中常用的):

 

Data Types  Values
String  text, keyword
數(shù)值類(lèi)型(Numberic dataTypes) long, integer, short, byte, double, float
日期類(lèi)型 date
布爾類(lèi)型 boolean
范圍類(lèi)型 integer_range, float_range, long_range, double_range, date_range
二進(jìn)制類(lèi)型 binary
  • 復(fù)雜數(shù)據(jù)類(lèi)型
Data Types Values
數(shù)組類(lèi)型 不需要特殊的數(shù)據(jù)類(lèi)型支持
Object type  object — 代表單個(gè)json
嵌套類(lèi)型 nested — 代表一組json

 

  • 地理相關(guān)的數(shù)據(jù)類(lèi)型
Data Types Values
坐標(biāo)點(diǎn)類(lèi)型 geo_point用來(lái)表征經(jīng)緯度
地理圖形類(lèi)型 geo_shape用來(lái)表征復(fù)雜的形狀,如多邊形

 

  • 專(zhuān)門(mén)的數(shù)據(jù)類(lèi)型
Data Types Values
IP類(lèi)型 ip — 用于IPv4和IPv6(項(xiàng)目中高頻使用)
token數(shù)量類(lèi)型 token_count — 統(tǒng)計(jì)字符串中token的數(shù)量

 

  • 尾聲

(1)ES不支持Join,但支持aggregations,類(lèi)似于SQL的group by

(2)通過(guò)Merge segments可以提高查詢(xún)速度,最后Merge成的Segments個(gè)數(shù)越小,查詢(xún)時(shí)間提高的越快。Merge segments過(guò)程比較耗費(fèi)磁盤(pán)和CPU,所以建議凌晨執(zhí)行該操作

(3)ES支持將各種數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入,主要通過(guò)logstash;ES之間的數(shù)據(jù)拷貝,可以用elasticdump


 致敬 Doug Cutting (Lucene、Nutch 、Hadoop之父)

談到成功,Cutting認(rèn)為他的成功主要?dú)w功于兩點(diǎn):

  • 對(duì)自己工作的熱情(Cutting在大學(xué)時(shí)就開(kāi)始做Infrastracture類(lèi)的程序,還用 Lisp為Emacs貢獻(xiàn)過(guò)代碼,他非常喜歡自己的程序被千萬(wàn)人使用的感覺(jué))
  • 目標(biāo)不要定得過(guò)大,要踏踏實(shí)實(shí),一步一個(gè)腳印

附:

1)  官網(wǎng)guide 及對(duì)應(yīng)中文版 — Elasticsearch: 權(quán)威指南(pdf下載)

2)  Elasticsearch6.4.0-windows環(huán)境部署安裝

3)  Linkin of Doug Cutting

4)  Hadoop 十歲生日時(shí) Doug Cutting的講話(huà)

5)  Kibana(一張圖片勝過(guò)千萬(wàn)行日志)

 

*******************************************************************************

精力有限,想法太多,專(zhuān)注做好一件事就行

  • 我只是一個(gè)程序猿。5年內(nèi)把代碼寫(xiě)好,技術(shù)博客字字推敲,堅(jiān)持零拷貝和原創(chuàng)
  • 寫(xiě)博客的意義在于打磨文筆,訓(xùn)練邏輯條理性,加深對(duì)知識(shí)的系統(tǒng)性理解;如果恰好又對(duì)別人有點(diǎn)幫助,那真是一件令人開(kāi)心的事

*******************************************************************************

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶(hù)發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶(hù) 評(píng)論公約

    類(lèi)似文章 更多