
消息中間件的應用場景
- 異步解耦
- 削峰填谷
- 順序收發(fā)
- 分布式事務一致性
騰訊應用案例:

主流 MQ 框架及對比

說明
- Kafka:整個行業(yè)應用廣泛
- RocketMQ:阿里,從 apache 孵化
- Pulsar:雅虎開源,符合云原生架構的消息隊列,社區(qū)活躍
- RabbitMQ 架構比較老,AMQP并沒有在主流的 MQ 得到支持
- NSQ:內(nèi)存型,不是最優(yōu)選擇
- ActiveMQ、ZeroMQ 可忽略
Kafka 優(yōu)點
- 非常成熟,生態(tài)豐富,與 Hadoop 連接緊密
- 吞吐非常高,可用性高
- sharding
- 提升 replication 速度
- 主要功能:pub-sub,壓縮支持良好
- 可按照 at least once, at most once 進行配置使用,exactly once 需要 Consumer 配合
- 集群部署簡單,但 controller 邏輯很復雜,實現(xiàn)partition 的多副本、數(shù)據(jù)一致性
- controller 依賴 ZooKeeper
- 異步刷磁盤(除了錢的業(yè)務,很少有同步 flush 的需求)
Kafka 缺點
- 寫入延時穩(wěn)定性問題,partition 很多時
- Kafka 通常用機械盤,隨機寫造成吞吐下降和延時上升
- 100ms ~ 500ms
- 運維的復雜性
- 單機故障后補充副本
- 數(shù)據(jù)遷移
- 快手的優(yōu)化:遷移 partition 時舊數(shù)據(jù)不動,新數(shù)據(jù)寫入新 partition 一定時間后直接切換
RocketMQ
- 阿里根據(jù) Kafka 改造適應電商等在線業(yè)務場景
- 以犧牲性能為代價增強功能
- 按 key 對消息查詢,維護 hash 表,影響 io
- 為了在多 shard 場景下保證寫入延遲穩(wěn)定,在 broker 級別將所有 shard 當前寫入的數(shù)據(jù)放入一個文件,形成 commitlog list,放若干個 index 文件維護邏輯 topic 信息,造成更多的隨機讀
- 沒有中心管理節(jié)點,現(xiàn)在看起來并沒有什么用,元數(shù)據(jù)并不多
- 高精度的延遲消息(快手已支持秒級精度的延遲消息)
Pulsar
- 存儲、計算分離,方便擴容
- 存儲:bookkeeper
- MQ邏輯:無狀態(tài)的 broker 處理
發(fā)展趨勢
- 云原生
- 批流一體:跑任務時,需要先把 Kafka 數(shù)據(jù)→HDFS,資源消耗大。如果本來就存在 HDFS,能節(jié)省很大資源
- Serverless
各公司發(fā)展
- 快手:Kafka
- 所有場景均在使用
- 特殊形態(tài)的讀寫分離
- 數(shù)據(jù)實時消費到 HDFS
- 在有明顯 lag 的 consumer 讀取時,broker 把請求從本地磁盤轉發(fā)的 HDFS
- 不會因為有 lag 的 consumer 對日常讀寫造成明顯的磁盤隨機讀寫
- 由于自己改造,社區(qū)新功能引入困難
- 阿里巴巴:開源 RocketMQ
- 字節(jié)跳動
- 在線場景:NSQ→RocketMQ
- 離線場景:Kafka→自研的存儲計算分類的 BMQ(協(xié)議層直接兼容Kafka,用戶可以不換 client)
- 百度:自研的 BigPipe,不怎么樣
- 美團:Kafka 架構基礎上用 Java 進行重構,內(nèi)部叫 Mafka
- 騰訊:部分使用了自研的 PhxQueue,底層是 KV 系統(tǒng)
- 滴滴:DDMQ
- 對 RocketMQ 和 Kafka 進行封裝
- 多機房數(shù)據(jù)一致性可能有問題
- 小米:自研 Talos
- 架構類似 pulsar,存儲是 HDFS,讀場景有優(yōu)化
Kafka
Kafka 是什么?
- 開源的消息引擎系統(tǒng)(消息隊列/消息中間件)
- 分布式流處理平臺
- 發(fā)布/訂閱模型
- 削峰填谷
Kafka 術語
- Topic:發(fā)布訂閱的主題
- Producer:向Topic發(fā)布消息的客戶端
- Consumer:消費者
- Consumer Group:消費者組,多個消費者共同組成一個組
- Broker:Kafka的服務進程
- Replication:備份,相同數(shù)據(jù)拷貝到多臺機器
- Leader Replica
- Follower Replica,不與外界交互
- Partition:分區(qū),解決伸縮性問題,多個Partition組成一個Topic
- Segment:partition 由多個 segment 組成
Kafka 如何持久化?
- 消息日志(Log)保存數(shù)據(jù),磁盤追加寫(Append-only)
- 定期刪除消息(日志段)

Kafka 文件存儲機制
https://www./lib/view/open1421150566328.html
- 每個 partition 相當于一個巨型文件→多個大小相等 segment 數(shù)據(jù)文件中
- 每個 partition 只需要順序讀寫就行了,segment 文件生命周期由配置決定
- segment file 組成:
- index file:索引文件
- data file:數(shù)據(jù)文件
- segment file 文件命名規(guī)則:
- 全局第一個 segment 是 0
- 后序每個加上全局 partition 的最大 offset


一對 segment file

message 物理結構

分區(qū)
為什么分區(qū)?
- Kafka的消息組織方式:主題-分區(qū)-消息
- 一條消息,僅存在某一個分區(qū)中
- 提高伸縮性,不同分區(qū)可以放到不同機器,讀寫操作也是以分區(qū)粒度
分區(qū)策略?

Kafka 是否會消息丟失?
- 只對“已提交”的消息做有限度的持久化保證
- 已提交的消息:消息寫入日志文件
- 有限度的持久化保證:N個 broker 至少一個存活
- 生產(chǎn)者丟失數(shù)據(jù)
- producer.send(msg) 異步發(fā)送消息,不保證數(shù)據(jù)到達Kafka
- producer.send(msg, callback) 判斷回調
- 消費者程序丟失數(shù)據(jù)
- 應該「先消費消息,后更新位移的順序」
- 新問題:消息的重復處理
- 多線程異步處理消息,Consumer不要開啟自動提交位移,應用程序手動提交位移
控制器
- 在 ZooKeeper幫助下管理和協(xié)調整個 Kafka 集群
- 運行過程中,只能有一個 Broker 成為控制器
控制器如何選舉?
在 ZooKeeper 創(chuàng)建 /controller 節(jié)點,第一個創(chuàng)建成功的 Broker 被指定為控制器。
控制器有什么用?
- 主題管理(創(chuàng)建、刪除、增加分區(qū))
- 分區(qū)重分配
- 領導者選舉
- 集群成員管理(新增 Broker、Broker 主動關閉、Broker 宕機)(ZooKeeper 臨時節(jié)點)
- 數(shù)據(jù)服務:最全的集群元數(shù)據(jù)信息
控制器故障轉移
- 只有一個 Broker 當控制器,單點失效,立即啟用備用控制器

Kafka 的 ZooKeeper 存儲結構

分布式事務的應用場景
- 團隊內(nèi)部,某些操作要同時更新多個數(shù)據(jù)源
- 業(yè)務團隊 A 完成某個操作后,B 業(yè)務的某個操作也必須完成,A 業(yè)務并不能直接訪問 B 的數(shù)據(jù)庫
- 公司之間,用戶付款后,支付系統(tǒng)(支付寶/微信)必須通知商家的系統(tǒng)更新訂單狀態(tài)
兩階段最終一致
- 先完成數(shù)據(jù)源 A 的事務(一階段)
- 成功后通過某種機制,保證數(shù)據(jù)源 B 的事務(二階段)也一定最終完成
- 不成功,會不斷重試直到成功為止
- 或達到一定重試次數(shù)后停止(配合對賬、人工處理)
如何保證最終一致?
為了保證最終一致,消息系統(tǒng)和業(yè)務程序需要保證:
- 消息發(fā)送的一致性:消息發(fā)送時,一階段事務和消息發(fā)送必須同時成功或失敗
- 消息存儲不丟失:消息發(fā)送成功后,到消息被成功消費前,消息服務器(broker)必須存儲好消息,保證發(fā)生故障時,消息不丟失
- 消費者不丟失消息:處理失敗不丟棄,重試直到成功為止
消息發(fā)送的一致性如何保證?

目標 :本地事務、消息發(fā)送必須同時成功/失敗
問題
- 先執(zhí)行本地事務,再發(fā)送消息,消息可能發(fā)送失敗
- 可把失敗的消息放入內(nèi)存,稍后重試,但成功率也無法達到 100%
解決方案`* 先發(fā)送半消息(Half Msg,類似 Prepare 操作),不會投遞給消費者
- 半消息發(fā)送成功,再執(zhí)行 DB 操作
- DB 操作執(zhí)行成功后,提交半消息
發(fā)送異常會如何?
- 1 異常,半消息發(fā)送失敗,本地 DB 沒有執(zhí)行,整個操作失敗,DB/消息的狀態(tài)一致(都沒有提交)
- 2 異常/超時
- 生產(chǎn)者以為失敗了,不執(zhí)行 DB
- broker 存儲半消息成功,等不到后序操作,會詢問生產(chǎn)者是提交還是回滾(第6步)
- 3 DB操作失敗:生產(chǎn)者在第 4 步告知 broker 回滾半消息
- 4 提交/回滾半消息失?。篵roker 等不到這個操作,觸發(fā)回查(第 6 步)
- 5、6、7回查失?。篟ocketMQ 最多回查 15 次
代碼、思維導圖筆記鏈接
代碼和思維導圖在 GitHub 項目中,歡迎大家 star!
coding 筆記、點滴記錄,以后的文章也會同步到公眾號(Coding Insight)中,希望大家關注_
|