全球總監(jiān)ly-Clark公司Robert Abate說(shuō)道:“ 每個(gè)人都認(rèn)為其他所有人都在研究大數(shù)據(jù),所以都說(shuō)自己也在研究。 ”

一些人知道大數(shù)據(jù)的真正含義,然而其他人聲稱自己懂大數(shù)據(jù),只是為了讓他們看起來(lái)并不低人一等。盡管大數(shù)據(jù)是一個(gè)熱門話題,但是對(duì)許多企業(yè)和數(shù)據(jù)專業(yè)人員來(lái)說(shuō),它仍然很難理解。不清楚其價(jià)值所在,就更談不上該如何利用了。
大數(shù)據(jù)對(duì)企業(yè)那么有用是因?yàn)樗梢越o企業(yè)的許多問(wèn)題提供答案,而這些問(wèn)題他們先前甚至都不知道。換句話說(shuō)就是它提供了參考點(diǎn)。有了這樣大的信息量,公司可以用各種它們認(rèn)為合適的方法重新處理數(shù)據(jù)或進(jìn)行測(cè)試。這樣,就能用一種更容易理解的方式查明問(wèn)題。收集大量數(shù)據(jù),并在數(shù)據(jù)中發(fā)現(xiàn)趨勢(shì),使企業(yè)能夠更快、更平穩(wěn)、更有效地發(fā)展。這也可以讓它們?cè)诶婧兔暿軗p之前排除一些問(wèn)題。
尤其是跟信息圖表和可視元素用在一起時(shí),能夠更快地得到問(wèn)題的答案。
舉個(gè)銷售類的例子, Abate 的團(tuán)隊(duì)幫助他們的客戶整理數(shù)據(jù)。他們從數(shù)據(jù)集中刪除了任何不相關(guān)的或離群的數(shù)據(jù),從而縮小到一個(gè)關(guān)鍵問(wèn)題或用戶信息統(tǒng)計(jì)。這樣,他們就能分辨出哪一類產(chǎn)品出售的多,哪一類產(chǎn)品沒(méi)有出售,因此可能要被淘汰。他們關(guān)注4個(gè)主要的數(shù)據(jù):收入、頻率、價(jià)值、年期。Abate先生強(qiáng)調(diào),同一時(shí)間,在任何給予的可視化范圍內(nèi),超過(guò)4個(gè)數(shù)據(jù)就會(huì)讓人更難跟蹤。通過(guò)淘汰沒(méi)有出售的產(chǎn)品,他們正在減少浪費(fèi)來(lái)增加未來(lái)的收入。但是沒(méi)有數(shù)據(jù)可視化,他們不可能完成這項(xiàng)工作。
接下來(lái),我們就看一下,全球頂級(jí)的5個(gè)數(shù)據(jù)可視化案例。
一、航線星云

關(guān)于洞察
截止到2012年1月,開(kāi)源網(wǎng)站OPENFLIGHTS.ORG上記載了大約6萬(wàn)條直飛航班信息,這些航班穿梭在3000多個(gè)機(jī)場(chǎng)間,覆蓋了500多條航線。
通過(guò)高級(jí)分析技術(shù),我們可以看到世界上各家不同的航空公司看起來(lái)就像是一個(gè)美麗的星云(國(guó)際星云的組成部分)。同種顏色的圓點(diǎn)和粗線提供了見(jiàn)解,它們代表提供相同航線的航空公司,顯示出它們之間的競(jìng)爭(zhēng)以及在不同區(qū)域間的潛在合作。
這張基于數(shù)據(jù)可視化的Sigma圖表顯示了服務(wù)城市相似的不同航空公司。圖中的圓點(diǎn)或圓圈代表航空公司,連線的粗細(xì)和遠(yuǎn)近則反映兩個(gè)航空公司之間的相似性;連線越粗或越短則代表兩家航司服務(wù)的城市越相似。圖表中有幾組航空公司,直觀地表現(xiàn)了它們所服務(wù)的地理區(qū)域。
這張圖表中的關(guān)鍵洞察當(dāng)然地是航空公司之間的相似性甚至是重疊,它們是中國(guó)的南航和東航、阿聯(lián)酋航空和卡塔爾航空、英航和漢莎航空、美航和達(dá)美航空;我們可以從中看出這些公司之間的競(jìng)爭(zhēng)關(guān)系。瑞安航空則通過(guò)服務(wù)與漢莎航空和英航存在潛在協(xié)力的城市占據(jù)了一個(gè)利基市場(chǎng);比起意大利或漢莎等其他的歐洲航司,法國(guó)航空則與美國(guó)聯(lián)航等美國(guó)航空公司更為相似,這也許可以解釋為聯(lián)合品牌效應(yīng)。本質(zhì)上說(shuō),這是一張多維的韋恩圖,用一種簡(jiǎn)明扼要的方式揭示了不同主體間的復(fù)雜關(guān)系。
總的來(lái)說(shuō),這張圖表揭示了不同航司之間的相似性和競(jìng)爭(zhēng)情況,有利于發(fā)掘潛在的合作關(guān)系、增加市場(chǎng)份額和市場(chǎng)覆蓋面。這項(xiàng)技術(shù)可以通過(guò)不同參與者之間的相同變量,用于分析任何生態(tài)系統(tǒng)。
分析技術(shù)
這張可視化圖表通過(guò)Aster App中心生成,運(yùn)用到了關(guān)聯(lián)挖掘的分析技術(shù),研究上下文中各條目的共現(xiàn)關(guān)系。其中關(guān)聯(lián)挖掘的算法是協(xié)同過(guò)濾,它作用于航線和城市數(shù)據(jù),并將數(shù)據(jù)當(dāng)做零售籃子數(shù)據(jù)。也就是說(shuō),籃子代表城市,而航空公司則是條目。兩個(gè)航司之間的相似性由相似性得分確定,計(jì)分的原則是比較各個(gè)航司獨(dú)有的航線以及同時(shí)運(yùn)營(yíng)的航線。之后再將這些成對(duì)的相似性得分當(dāng)做連線的權(quán)重,再把各個(gè)航司當(dāng)做節(jié)點(diǎn),共同輸入可視化儀器當(dāng)中,運(yùn)用具有模塊上色技術(shù)的force-atlas算法,最終生成出這張美麗的圖表。
二、Calling Circles

關(guān)于洞察
我們無(wú)論何時(shí)何地都在使用手機(jī)并且產(chǎn)生出非常大量的資料,這些資料代表了我們每天的行為及活動(dòng)。我們與其他人的每通電話及簡(jiǎn)訊都對(duì)應(yīng)到我們的社會(huì)關(guān)系、商業(yè)活動(dòng)以及更廣泛的社群互動(dòng)并且形成了許多復(fù)雜互相聯(lián)結(jié)的通話圈。
這個(gè)資料視覺(jué)化圖表是從行動(dòng)電話使用者的通話模式資料所制作的。每個(gè)點(diǎn)都代表一個(gè)使用者撥出的手機(jī)號(hào)碼,愈大的點(diǎn)就代表這個(gè)號(hào)碼被撥打愈多次。每條兩點(diǎn)之間的線都代表著從一個(gè)號(hào)碼撥打到另一個(gè)號(hào)碼。
每個(gè)行動(dòng)電話使用者都會(huì)有一種獨(dú)特的通話模式,這種模式可以用來(lái)發(fā)展適合的話費(fèi)方案并且可以用來(lái)定義或預(yù)測(cè)他/她的行為。舉例來(lái)說(shuō),當(dāng)一個(gè)使用者正要從現(xiàn)在的行動(dòng)電話服務(wù)商轉(zhuǎn)換到另一個(gè)服務(wù)商時(shí),我們可以從網(wǎng)內(nèi)及網(wǎng)外發(fā)現(xiàn)兩個(gè)類似的通話模式。
這張?zhí)貏e的圖表是在前期由一連串的分析產(chǎn)生用來(lái)過(guò)濾第一層的通話模式。這里使用到的資料只從在幾秒鐘的時(shí)間取得。從圖表的左上角可以看到許多大回圈,這些回圈表示短時(shí)間內(nèi)這些號(hào)碼被撥打了許多次。可以推測(cè)這些號(hào)碼有可能是機(jī)器,像是自動(dòng)答錄機(jī)、互動(dòng)式語(yǔ)音應(yīng)答(IVR) 系統(tǒng)、安全系統(tǒng)或警報(bào)。人類不可能在短時(shí)間撥出這么多電話。這些電話會(huì)先放置在一個(gè)分開(kāi)的群組,后續(xù)的分析就可以集中在個(gè)人使用者的通話模式上。
分析技術(shù)
我們利用圖表來(lái)達(dá)成資料視覺(jué)化,雖然在調(diào)整版面格式的參數(shù)與傳統(tǒng)展示圖表不同。有一個(gè)常見(jiàn)的問(wèn)題就是這些互連的圖表通常在短時(shí)間就會(huì)變成非常巨大且因?yàn)辇嫶蟮幕?dòng)次數(shù)導(dǎo)致幾乎不可能被視覺(jué)化。從一個(gè)高度連結(jié)的圖表里選出一段范例是一個(gè)困難的問(wèn)題,因?yàn)槲覀冃枰獩Q定忽略哪些連結(jié)。在這個(gè)例子里,我們?nèi)∮脕?lái)自非常短的時(shí)間的資料來(lái)達(dá)到一個(gè)可以呈現(xiàn)的資料范圍。
資料格式就相對(duì)簡(jiǎn)單,撥話號(hào)碼、收話號(hào)碼、撥話時(shí)間、通話時(shí)間。我們先利用機(jī)器學(xué)習(xí)(machine-learning) 來(lái)對(duì)資料作分群然后再利用Aster Lens 來(lái)展示圖表。
三、互聯(lián)網(wǎng)絡(luò)

關(guān)于洞察
這一匿名可視化報(bào)告用于支持一家Telco運(yùn)營(yíng)商分析住宅Telco線路。該項(xiàng)目旨在確定線路與網(wǎng)絡(luò)硬件性能之間的關(guān)聯(lián),此類關(guān)聯(lián)可能影響到客戶體驗(yàn)。
點(diǎn)(節(jié)點(diǎn))代表Telco網(wǎng)絡(luò)上的DSLAM(數(shù)字用戶線接入復(fù)用器)。DSLAM提供了一項(xiàng)重要服務(wù),能夠影響客戶呼叫體驗(yàn);它們可將客戶線路連接到主網(wǎng)絡(luò)。
DSLAM服務(wù)級(jí)別有多項(xiàng)測(cè)量指標(biāo),例如衰減、比特率、噪聲容限和輸出功率,并可針對(duì)每條線路整合至三個(gè)性能類別。紫色節(jié)點(diǎn)顯示具備卓越性能的DSLAM,橙色顯示具備出色性能的DSLAM,白色顯示性能較差的DSLAM。
在圖表中,僅少數(shù)DSLAM體驗(yàn)到了高質(zhì)量服務(wù)(紫色)。這些 DSLAM 在同一建筑中與主網(wǎng)絡(luò)基礎(chǔ)設(shè)施共置,由于靠近中央網(wǎng)絡(luò)中樞,從而帶來(lái)了優(yōu)質(zhì)服務(wù)。大多數(shù)客戶實(shí)現(xiàn)了出色體驗(yàn)(橙色),同時(shí)我們發(fā)現(xiàn)城市郊區(qū)存在服務(wù)較差(白色)的DSLAM。
當(dāng)客戶獲得可變網(wǎng)絡(luò)質(zhì)量時(shí),客戶體驗(yàn)和滿意度會(huì)受到很大影響。Telco的主要目標(biāo)是確?蛻臬@得一致的體驗(yàn),即使是那些身處主城市外部的用戶也不例外。此圖表確定了每個(gè)提供可變服務(wù)級(jí)別的 DSALM;以出色(橙色)和較差(白色)簇之間共享的節(jié)點(diǎn)表示。借助這一數(shù)據(jù),Telco現(xiàn)在能夠調(diào)查和優(yōu)化可變DSLAM。
分析方法
這一西格瑪可視化報(bào)告使用內(nèi)建分析和在Teradata Aster平臺(tái)內(nèi)發(fā)現(xiàn)的可視化創(chuàng)建而成。
收到的數(shù)據(jù)來(lái)自整個(gè)城市的住宅線路,其屬性包括衰減、比特率等。我們對(duì)這些屬性進(jìn)行了整合,以確定表明客戶網(wǎng)絡(luò)體驗(yàn)的性能等級(jí)。
這些簇構(gòu)成了關(guān)性和回歸分析的基礎(chǔ),以確定在不同因素下網(wǎng)絡(luò)性能的變化,這些因素包括:線路技術(shù)和長(zhǎng)度、調(diào)制解調(diào)器類型和配置、DSLAM、卡技術(shù)、地理位置等。
該西格馬可視化圖表僅顯示了整體分析的一部分,即DSLAM與網(wǎng)絡(luò)性能間的聯(lián)系。
四 、綜合數(shù)據(jù)庫(kù)(IDW)淘金熱

關(guān)于洞察
歡迎來(lái)到“中介大數(shù)據(jù)”的世界。在這個(gè)世界里,諷刺地是,大數(shù)據(jù)將被用于降低成本和優(yōu)化大數(shù)據(jù)本身。
如果你可以看到一個(gè)大型的綜合數(shù)據(jù)庫(kù)(IDW)里面,你會(huì)發(fā)現(xiàn)那是一個(gè)由數(shù)百萬(wàn)相互關(guān)聯(lián)的數(shù)據(jù)元素和對(duì)象交織成的巨大網(wǎng)絡(luò)。在一個(gè)綜合數(shù)據(jù)庫(kù)每天加載數(shù)據(jù)時(shí),成百上千的對(duì)象將在一個(gè)微小卻精心設(shè)計(jì)的處理鏈上相互作用,并將越加相互關(guān)聯(lián)緊密。在此過(guò)程中,數(shù)據(jù)被轉(zhuǎn)化、整合,并生成出最終的用戶視圖和報(bào)告。
那很棒,但是,如果你想要縮減數(shù)據(jù)庫(kù)加載時(shí)間,優(yōu)化分析生態(tài)系統(tǒng)中的數(shù)據(jù)存儲(chǔ),或者想轉(zhuǎn)到一個(gè)雙活性系統(tǒng)時(shí),那該怎么辦呢?
首創(chuàng)“元數(shù)據(jù)科學(xué)家”保羅.丹瑟提出了這一無(wú)名的可視化方法。在Teradata 數(shù)據(jù)庫(kù)一個(gè)很大的產(chǎn)品持續(xù)近20年的發(fā)展歷史中,這個(gè)可視化第一次顯示出數(shù)據(jù)對(duì)象網(wǎng)絡(luò)的完全復(fù)雜性。金點(diǎn)(節(jié)點(diǎn))顯示數(shù)據(jù)庫(kù)對(duì)象,灰線(邊緣)顯示他們相互的依賴性,因此我們可以看見(jiàn)那些微小而相互關(guān)聯(lián)的過(guò)程鏈。大塊密集群體是核心的、整合的數(shù)據(jù)結(jié)構(gòu),外側(cè)疏散的島嶼則是集市。
可視化讓我們能夠看到,所有微小的過(guò)程鏈都是相互依賴,且按順序排列的。因此,它就是優(yōu)化IDW最好的工具。其圖表可以被用來(lái)決定雙活性選擇,并能在沒(méi)有依賴風(fēng)險(xiǎn)下,針對(duì)數(shù)據(jù)庫(kù)對(duì)象順序進(jìn)行細(xì)節(jié)設(shè)計(jì)和部署。該可視化還可以揭露出大量各種各樣的非正式遺產(chǎn)“提取轉(zhuǎn)換與加載”模式(ETL),這些模式對(duì)優(yōu)化新的加載和轉(zhuǎn)換程序十分的異常與危險(xiǎn)。
分析方法
預(yù)定的Java應(yīng)用曾通過(guò)獲取圖形進(jìn)行可視化,遞歸式地從每個(gè)對(duì)象中提取“數(shù)據(jù)定義語(yǔ)言”(DDL)。其對(duì)象均起始于Teradata數(shù)據(jù)庫(kù)層次結(jié)構(gòu)中的一個(gè)根。每個(gè)定義作為候補(bǔ)參考對(duì)象被搜索,并匹配一個(gè)模式,然后在內(nèi)存中依據(jù)一個(gè)完整的數(shù)據(jù)庫(kù)對(duì)象進(jìn)行驗(yàn)證。一旦確定有效,“頂點(diǎn)”或者“節(jié)點(diǎn)”與“邊緣”關(guān)系將會(huì)被加入“有向非循環(huán)圖”對(duì)象中。
另外,一個(gè)對(duì)象列表也會(huì)輸出指定一個(gè)有效的順序部署。順序是通過(guò)“拓補(bǔ)排序法”在圖上決定的。有效的順序部署有很多種。
Teradata系統(tǒng)配置的加載最小化,利用Java應(yīng)用在客戶端進(jìn)行文本模型匹配和圖形處理。
五、Branch社區(qū)之樹(shù)

關(guān)于洞察
這張可視化圖表被用于幫助開(kāi)發(fā)和分析Qlik的開(kāi)源程序員社區(qū)Branch,這個(gè)社區(qū)被設(shè)計(jì)成為一個(gè)互動(dòng)性開(kāi)放式的探索導(dǎo)航平臺(tái),而這個(gè)新的應(yīng)用使得訪客得以發(fā)現(xiàn)關(guān)于網(wǎng)站中用戶、項(xiàng)目和它們之間關(guān)系的新含義。這張圖表可以用來(lái)理解這個(gè)網(wǎng)絡(luò)社區(qū)的社會(huì)動(dòng)態(tài),也能了解每個(gè)個(gè)體用戶的行為。為了加深理解、獲取洞察,關(guān)于相似性、類目、瀏覽量、評(píng)論和公司的元數(shù)據(jù)都被反映在這張圖表中。
圖中的圓點(diǎn)代表不同的項(xiàng)目,其大小代表瀏覽量的多少,這使得我們可以方便快速地發(fā)現(xiàn)那些最受歡迎的項(xiàng)目。節(jié)點(diǎn)還反映了項(xiàng)目的參與者及評(píng)論的多少,使我們能夠直觀地看到不同項(xiàng)目中合作程度的高低。圖中的圓點(diǎn)按照產(chǎn)品類目進(jìn)行聚合并著色;圓點(diǎn)之間的連線則代表項(xiàng)目之間就相似程度和用戶群的聯(lián)系。
圖中最大的兩個(gè)點(diǎn)集標(biāo)識(shí)了Qlik社區(qū)對(duì)于可視化拓展的關(guān)注;此外還有七個(gè)中等大小、五個(gè)小型的點(diǎn)集,向我們展示了這個(gè)社區(qū)的發(fā)展空間。淺藍(lán)色的線條連接著每個(gè)類目中的相似項(xiàng)目以及Qlik的兩個(gè)主要可視化類目;綠色的連線給出了一個(gè)令人驚訝的信息:大多數(shù)貢獻(xiàn)者傾向于跨越整個(gè)產(chǎn)品譜系開(kāi)發(fā)項(xiàng)目,這也印證了Qlik分析平臺(tái)的威力。
分析方法
這張網(wǎng)絡(luò)可視圖利用Qlik Sense生成。圖中數(shù)據(jù)利用Kimono APIs從Qlik Branch網(wǎng)站中收集,并被存到Sense的儲(chǔ)存器中。圖中的分析主要關(guān)注哪些是已經(jīng)公開(kāi)的信息,之后也許會(huì)整合其他的網(wǎng)絡(luò)分析技術(shù)。
這張可視化圖表利用到了HTML, Javascript, CSS和高人氣的D3.js數(shù)據(jù)驅(qū)動(dòng)可視化庫(kù)。最初的圖層基于把相似項(xiàng)目拉到一起的力導(dǎo)向圖;為了按類目進(jìn)行項(xiàng)目分類,之后又增強(qiáng)了聚合力圖層;最后再利用Danny Holten的分層邊緣捆綁算法畫出連線。我們將來(lái)計(jì)劃開(kāi)始利用Teradata Aster的K最近鄰聚類、樸素貝葉斯分類器等功能,創(chuàng)造更多關(guān)于這個(gè)數(shù)據(jù)集的洞察。這張圖表依然保持著與新用戶活動(dòng)的互動(dòng),并每天進(jìn)行更新。