硬核干貨！海量日志分析技術，聽說IT達人都想知道……

發(fā)表日期：2018-10-29 文章編輯：閱讀次數(shù)：

大數(shù)據(jù)時代，數(shù)據(jù)量呈幾何增長，為避免被時代潮流“拍在沙灘上”，就必須了解大數(shù)據(jù)的核心組成要素。其中，海量日志尤為重要，不管是IT達人還是企業(yè)本身，掌握海量日志的分析技術都必不可少。
今天，就讓小編帶你探秘海量日志分析技術，一起來看吧。

為什么海量日志很重要？

在討論海量日志分析技術之前，我們先來討論一下什么是海量日志。
海量日志是大數(shù)據(jù)的重要組成部分。數(shù)據(jù)倉庫之父比爾.恩門(Bill Inmon) 在他的2016年的新書《數(shù)據(jù)架構(gòu)》中提到，企業(yè)中數(shù)據(jù)的組成部分中，非結(jié)構(gòu)化的數(shù)據(jù)占比已經(jīng)達到了 70% 以上。而這些非結(jié)構(gòu)化數(shù)據(jù)中，占據(jù)主導位置的是日志數(shù)據(jù)，可以說日志數(shù)據(jù)是“大數(shù)據(jù)”分析的核心。
這些數(shù)據(jù)貫穿所有的企業(yè)經(jīng)營活動，用戶的操作行為、服務器的系統(tǒng)日志、網(wǎng)絡設備的日志記錄、應用程序的調(diào)試日志等等，會直接影響企業(yè)的日常運行，與IT運維人員也是息息相關。

海量日志數(shù)據(jù)有什么特征？

海量的日志數(shù)據(jù)十分滿足大數(shù)據(jù)的4V特征：
產(chǎn)生速度快，每秒超過數(shù)萬、數(shù)十萬的情況已經(jīng)比比皆是；
數(shù)據(jù)量巨大，速度一快，如果想要分析這數(shù)據(jù)，勢必會帶來巨大的數(shù)據(jù)量；
數(shù)據(jù)種類多，日志數(shù)據(jù)涵蓋IT系統(tǒng)的方方面面；
價值密度低，雖然日志數(shù)據(jù)中能夠分析出大量有價值的信息，往往一條分析結(jié)果需要數(shù)百萬甚至上億條的數(shù)據(jù)支撐，而且單條日志的信息量有限。

日志樣例

那么，海量日志的威力有多大呢？我們可以通過一組數(shù)據(jù)來感受一下。
假設有一個對外應用服務器集群，產(chǎn)生日志的速度為10000條/s，每條日志的平均大小為200字節(jié)，那么這個應用服務器每天、每月、每年的日志增量為：

大數(shù)據(jù)時代計算方式的變革
從行式存儲到列式存儲，再到流式計算

這么多的數(shù)據(jù)，我們?nèi)绾蝸磉M行分析呢？一方面我們需要能夠處理更多的數(shù)據(jù)，另一方面，我們希望查詢結(jié)果更加的實時（例如：1秒之內(nèi)返回結(jié)果）。
如果這些數(shù)據(jù)在關系型數(shù)據(jù)庫的世界里，數(shù)據(jù)以行的方式存儲，假設我們需要對數(shù)以億計的數(shù)據(jù)中的某一個數(shù)據(jù)進行求和計算，那么首先，我們需要將所有這些數(shù)據(jù)全部讀出來，找到對應的字段，然后進行累加，而我們的計算瓶頸完全取決于磁盤的讀寫能力。
我們可以用分庫或者分表的方式將數(shù)據(jù)庫進行拆分，增加系統(tǒng)并行計算的能力，但是可能依然需要數(shù)百臺設備才能在1s之內(nèi)返回這些數(shù)據(jù)。然而我們沒有這么多機器，那么只能慢慢等待分析任務執(zhí)行完畢。如此一來，既耗時又費力。
后來，大數(shù)據(jù)技術誕生了。在大數(shù)據(jù)分析的場景中，列式存儲架構(gòu)取代了行式存儲。如果要對某一個字段進行統(tǒng)計，只需要讀取相應列的數(shù)據(jù)，不需要進行整個表的遍歷，這樣一來，需要讀取的數(shù)據(jù)量變小了，同時，MapReduce 也能夠使得分析應用更好地實現(xiàn)分布式計算。
可即便如此，計算的瓶頸依然在磁盤的讀寫效率上，計算速度并沒有本質(zhì)的變化，如果需要做實時數(shù)據(jù)的分析，還是需要大投入大量的存儲和計算資源。

行式數(shù)據(jù)庫vs列式數(shù)據(jù)庫

從邏輯上來說，如果要對海量的數(shù)據(jù)進行快速的分析，在資源不變的前提下，最好的方法就是減少每次計算所需要讀取的數(shù)據(jù)量。但是如果減少了數(shù)據(jù)量的讀取，分析的結(jié)果就無法做到更大的覆蓋范圍和更加精準的結(jié)果。
基于這個思考，我們可以將計算分層，將最近一段時間產(chǎn)生的數(shù)據(jù)放在實時要求高的數(shù)據(jù)存儲中，使用更好的計算資源來進行分析，將更長時間的歷史數(shù)據(jù)存入離線存儲設備中進行批量計算，這部分計算時間可能長達數(shù)十分鐘或者數(shù)個小時，但是計算的結(jié)果可以用于和實時分析的結(jié)果進行合并，使得分析的覆蓋范圍和結(jié)果的精準度不受影響。
在大數(shù)據(jù)分析技術中，還有一項非常重要的技術 —— 流式計算，即數(shù)據(jù)進入系統(tǒng)時就進行必要的預處理操作，這部分的處理，同樣減少了后續(xù)數(shù)據(jù)分析中所需要讀取的數(shù)據(jù)量。

海量日志分析技術數(shù)據(jù)流程圖
海量日志技術有哪些要點？

愛數(shù)AnyRobot Family 3.0（下面簡稱 AnyRobot）海量日志分析融入了大數(shù)據(jù)分析技術，其核心要點在于三個重要方面：海量日志的采集處理、海量日志的存儲、海量日志的分析。下面，我們就以AnyRobot為例剖析海量日志分析技術。
海量日志的采集處理方面
有兩個核心點，分別是數(shù)據(jù)采集的多樣性和實時數(shù)據(jù)處理的性能。
在采集數(shù)據(jù)源的多樣性上，AnyRobot 可以對接文件、TCP二進制數(shù)據(jù)量、壓縮文件、結(jié)構(gòu)化數(shù)據(jù)、Syslog、SNMP 等多種數(shù)據(jù)源，我們還內(nèi)置了大量的分析模板，支持市面上多種網(wǎng)絡設備、數(shù)據(jù)庫、應用軟件、中間件等各類應用，可以實現(xiàn)大部分場景數(shù)據(jù)的“開箱即用”。當然，數(shù)據(jù)源的接入也可以通過界面配置的方式快速完成。
在實時處理上，AnyRobot 采用了可擴展的消息隊列和流計算引擎，保證了實時處理的性能，能夠自如地應對數(shù)萬甚至數(shù)十萬每秒的數(shù)據(jù)流量。
海量日志的存儲方面
我們采用存儲分層的策略對數(shù)據(jù)進行分層，根據(jù)我們上文中探討的分析思路，應該盡量減少用戶在實時分析場景下使用的數(shù)據(jù)量，我們將分析數(shù)據(jù)的存儲分為三個層次：
第一層：用于實時分析和查詢的數(shù)據(jù)，這部分數(shù)據(jù)有兩個來源。
第一部分是短期內(nèi)進入系統(tǒng)中的數(shù)據(jù)，這部分數(shù)據(jù)保留的大量的細節(jié)信息，可以用戶排錯、細粒度的管理分析、事件分析等場景。第二部分是歷史數(shù)據(jù)經(jīng)過離線批量計算產(chǎn)生的分析結(jié)果，這部分數(shù)據(jù)的細節(jié)已經(jīng)被隱藏起來，主要用戶統(tǒng)計分析和報表場景。這一部分的數(shù)據(jù)由于實時性要求高，也有高可用的要求，因此數(shù)據(jù)的量多于進入系統(tǒng)的數(shù)據(jù)量，存儲方式可以采用更高性能的 SSD 存儲。
第二層：用戶存儲離線分析的數(shù)據(jù)，這部分數(shù)據(jù)是對第一層數(shù)據(jù)的長期保存和離線分析，可以存儲在成本更低的對象存儲或者云存儲中，能夠滿足小時級別的數(shù)據(jù)分析和訪問需求，需要進行實時分析和日志追溯時，可以重新導入到實時分析存儲中去。
而且，這部分數(shù)據(jù)可以通過壓縮的方式進行存儲，由于日志文件的特性，壓縮比最高能夠達到原始數(shù)據(jù)1：5以上。
第三層：歸檔存儲，由于合規(guī)性的要求和日志長期保存的需求，可以將更長時間的日志數(shù)據(jù)通過備份的方式進行歸檔，采用愛數(shù)的AnyBackup 就能夠完成這一工作。
這部分數(shù)據(jù)不需要再實時或者離線分析中進行查看，對它們的歷史分析結(jié)果已經(jīng)合并到和上兩層的分析當中。采用 AnyBackup 自帶的壓縮和重復數(shù)據(jù)刪除功能，能夠獲得 95% 以上重復數(shù)據(jù)刪除率。

數(shù)據(jù)分層存儲

海量日志的分析方面
AnyRobot實現(xiàn)了一個基于 SPL（搜索處理語言）的搜索引擎，采用分布式計算的方式對數(shù)據(jù)進行分析和計算，在實時分析方面能夠快速的在數(shù)億級別數(shù)據(jù)量的情況下進行實時分析，同時能夠兼容 Hadoop、Spark 等離線分析引擎，并能連接外部數(shù)據(jù)源，將實時分析、離線分析結(jié)果和外部數(shù)據(jù)源的查詢結(jié)果合并后呈現(xiàn)給最終用戶。
在新版本的 AnyRobot 中也集成了機器學習能力，能夠?qū)崿F(xiàn)異常檢測、趨勢分析等應用，滿足更多使用場景的覆蓋。

結(jié)語

日志是大數(shù)據(jù)的重要組成，為了滿足海量日志分析的需要，我們需要從海量日志處理、存儲和分析三個方面來設計我們的日志分析系統(tǒng)。愛數(shù) AnyRobot Family 3.0 通過加入消息隊列、流式處理、存儲分層、離線分析、機器學習等特性，是的海量日志分析的的效率和用戶體驗都得到了大幅的提升。

文章摘自愛數(shù)

歡迎聯(lián)系寶通集團咨詢愛數(shù)產(chǎn)品信息

寶通集團聯(lián)系方式
咨詢熱線：0755-88603572

寶通官網(wǎng)：www.bjshst.cn
客戶垂詢郵箱：cuifang.mo@ex-channel.com

客戶垂詢QQ：1627678462
地址：深圳市福田區(qū)深南大道1006號國際創(chuàng)新中心C座11樓
郵編：518026

a级大胆欧美人体大胆666-男男gay啪啪网站18禁-激情内射日本一区二区三区-小妖精跪趴你好湿好紧好浪

硬核干貨！海量日志分析技術，聽說IT達人都想知道……

咨詢在線客服

寶通技術1

寶通技術2

寶通技術3

a级大胆欧美人体大胆666-男男gay啪啪网站18禁-激情内射日本一区二区三区-小妖精跪趴你好湿好紧好浪

硬核干貨！海量日志分析技術，聽說IT達人都想知道……

咨詢在線客服

寶通技術1

寶通技術2

寶通技術3

硬核干貨！海量日志分析技術，聽說IT達人都想知道……