此次參加2013 Hadoop Taiwan Conference,收穫很多。(以下是手動隨便寫寫,請勿拘泥writing format)
業界方面的進展比學界又更加跨出一大步,也代表著我們之後如果要發表雲端相關運算的論文或是發展技術,
要特別小心注意這類工具。
由於Big Data時代的來臨,現在的雲端運算處理偏重於「即時」運算,而非「批次」運算。
我們目前所學的hadoop map/reduce只能算是非常基本而已。
對於即時運算的需求恐怕還不太夠(Hive/Pig 也不例外)。
Google先看到這個嚴重情形,繼2009年以來,陸續發表Google Caffeine (for indexing),
可繪製大量網路資訊彼此對應關係的圖表資料庫「Pregel」,
2010年7月發表Google Dremel (for real-time analysis),號稱可完全打敗Hadoop在即時運算處理上的不足。
Google在報告中明確指出,「過去MapReduce需要分多次查詢的資料,Dremel可同時處理,並大幅縮短運算時間」,
因此是為了real-time query而設計的。
此次參加Hadoop Taiwan,聽人家介紹才知道原來有這個強力的project可用。因此,Apache也仿照這個概念,
為了real-time處理夠快,也會導入Message Queue System,例如:
Apache Kafaka: The message queue system for increasing the I/O performance but not provide transmission assurance.
Storm: The real-time message queuing system; but it consume too much more CPU time. (From the HBase initiator said…)
而Samza則是結合了Hadoop, Kafaka等技術整合而成的distributed stream processing framework (Hbase起草作者推薦的)。
Data Indexing: NGData project use much more hbase indexing to handle Big data problem.
Log collection for data auditing: Splunk is the recommended free project by Trend Micro.
In memory computing techniques: 柏克萊大學開發Spark/Shark Open Source Project來進行Machine Learning工作,由於所有計算工作都在Memory,號稱比Hadoop快20倍。
Impala:由Cloudra公司發表的Open source軟體,也是用Apache hadoop解即時處理的問題。
Graph Mining Tool : Pegasus
這套是因為資策會資安組跟卡內基美濃大學合作,CMU後來開發這個解決他們在graph-mining問題,
因為他們主要處理節點攻擊與病毒擴散模擬運算。他們資安組真的很強,mining工具用得很熟,
而不是只有寫寫數學式子發論文而已,是真的有拿這些Mining工具去做分群、分類、社群網路分析等。
此外,資安組也提到由於攻擊手法可能會長達每月或是每年才發動一次,
所以Rule based (主要偵測以分或者小時為單位的發動模式)可能無法運作。
註:
1. Google研究團隊及其合作學校(卡內基美濃大學、MIT等每年都到處發表論文,他們發表的論文都公告在 http://research.google.com/index.html
2. 這次來做presentation的廠商:Etu (精誠集團子公司),有真正專門處理Big Data問題的工程師到場,他們上述工具都非常嫻熟,
也提到每一版impala的技術細節,非常厲害。也有發表推薦系統產品,我有詢問他們一些推薦系統實做細節,
不過他們因商業機密,不告訴我就是了…。他們也有現場徵才,不過限制是擁有Hadoop/Linux等相關程式開發經驗2年以上。
沒有留言:
張貼留言