2013年9月29日 星期日

收穫滿滿的Hadoop Taiwan 2013

此次參加2013 Hadoop Taiwan Conference,收穫很多。(以下是手動隨便寫寫,請勿拘泥writing format)

業界方面的進展比學界又更加跨出一大步,也代表著我們之後如果要發表雲端相關運算的論文或是發展技術,

要特別小心注意這類工具。

由於Big Data時代的來臨,現在的雲端運算處理偏重於「即時」運算,而非「批次」運算。

我們目前所學的hadoop map/reduce只能算是非常基本而已。

對於即時運算的需求恐怕還不太夠(Hive/Pig 也不例外)。

Google先看到這個嚴重情形,繼2009年以來,陸續發表Google Caffeine (for indexing),

可繪製大量網路資訊彼此對應關係的圖表資料庫「Pregel」,

2010年7月發表Google Dremel (for real-time analysis),號稱可完全打敗Hadoop在即時運算處理上的不足。

Google在報告中明確指出,「過去MapReduce需要分多次查詢的資料,Dremel可同時處理,並大幅縮短運算時間」,

因此是為了real-time query而設計的。

此次參加Hadoop Taiwan,聽人家介紹才知道原來有這個強力的project可用。因此,Apache也仿照這個概念,

提出Drill platform.

為了real-time處理夠快,也會導入Message Queue System,例如:

Apache Kafaka: The message queue system for increasing the I/O performance but not provide transmission assurance.

Storm: The real-time message queuing system; but it consume too much more CPU time. (From the HBase initiator said…)

 

Samza則是結合了Hadoop, Kafaka等技術整合而成的distributed stream processing framework (Hbase起草作者推薦的)。

Data Indexing: NGData project use much more hbase indexing to handle Big data problem.

Log collection for data auditing: Splunk is the recommended free project by Trend Micro.

In memory computing techniques: 柏克萊大學開發Spark/Shark Open Source Project來進行Machine Learning工作,由於所有計算工作都在Memory,號稱比Hadoop快20倍。

Impala:由Cloudra公司發表的Open source軟體,也是用Apache hadoop解即時處理的問題。

Graph Mining Tool : Pegasus

這套是因為資策會資安組跟卡內基美濃大學合作,CMU後來開發這個解決他們在graph-mining問題,

因為他們主要處理節點攻擊與病毒擴散模擬運算。他們資安組真的很強,mining工具用得很熟,

而不是只有寫寫數學式子發論文而已,是真的有拿這些Mining工具去做分群、分類、社群網路分析等。

此外,資安組也提到由於攻擊手法可能會長達每月或是每年才發動一次,

所以Rule based (主要偵測以分或者小時為單位的發動模式)可能無法運作

註:

1. Google研究團隊及其合作學校(卡內基美濃大學、MIT等每年都到處發表論文,他們發表的論文都公告在 http://research.google.com/index.html

2. 這次來做presentation的廠商:Etu (精誠集團子公司),有真正專門處理Big Data問題的工程師到場,他們上述工具都非常嫻熟,

也提到每一版impala的技術細節,非常厲害。也有發表推薦系統產品,我有詢問他們一些推薦系統實做細節,
不過他們因商業機密,不告訴我就是了…。他們也有現場徵才,不過限制是擁有Hadoop/Linux等相關程式開發經驗2年以上

沒有留言:

張貼留言