數據專家不能只生活在R語言或Excel表格里。他們需要工具來獲得質量拔尖且可用于預測分析的數據。其實我覺得這正是統計學家和數據專家的區別所在。在我看來,統計學家 使用數據進行回歸分析。而 數據專家 需要切實獲取數據、進行回歸分析、溝通結果、展示模式,并超越所在機構當時的局限,立足于制高點帶領大家尋求切實可行的突破發展。鑒于他們需要統籌整個數據通道,我希望這個數據生態系統可以羅列出數據專家門常用的重要工具和使用方法,以及工具之間的交互聯系。
第一部分:數據源
數據是整個數據生態系統的源頭。總的來說,數據源可分為數據庫、應用和第三方數據三類。
1,數據庫
結構化數據庫早于非結構化數據庫出現。結構化數據庫每年有約250億美元的市場,你可以在數據生態系統圖里看到眾所周知的Oracle,和一些新創公司譬如MemSQL等。結構化數據庫儲存有限的數據列,一般由結構化查詢語言(SQL)運行,用于數據可靠完善至關重要的領域,比如說財政和運營。
對結構化數據庫有一個重要假設,那就是查詢數據時必須能得到一致且完善的結果。想一想誰絕對需要這樣一種結構化數據庫?對了,就是你的銀行。它們存儲賬戶信息、個人姓名、借款等等,必須隨時分毫不差地知道你賬戶中的金額。
而另外一種則是非結構化數據庫。情理之中,非結構化數據庫是由數據專家們開拓的,因為數據專家眼中的數據與賬戶并不相同。數據專家不太在意查詢結果絕對一致,他們更關注數據的靈活性。因此, 非結構化數據在許多方面降低了對數據存儲和查詢的要求 。
很多非結構化數據庫是谷歌獲得成功的直接產物。谷歌嘗試把互聯網存儲在數據庫中,其野心和工程之龐大可想而知。MapReduce是一種用于這種數據庫的技術,雖然它一定程度上沒有結構化查詢語言 (SQL)那么強大,但是 用戶可以依據需要來調整和擴充它們的數據 。MapReduce的數據使用甚至已經超出了谷歌的初始預期。比如現在谷歌可以在所有網站間查詢,并根據網站之間的互相鏈接來調整搜索結果。這種可量化的靈活查詢使谷歌獲得了巨大的競爭優勢,因此雅虎和其他公司以巨額投資來開發這種技術的開源版本,名叫Hadoop。
此外,非結構化數據庫通常所需的 儲存空間通常更小 。在過去數據存儲十分昂貴,因此幾年前,一些主要的互聯網公司不得不每隔幾個月就清空一次數據庫。現在這種情況已難以想象了。 從強大的推薦引擎,到世界級的翻譯系統,到令人難以置信的存貨管理,都建立于這些數據之上。
非結構化數據庫一般來說沒有結構化數據庫那么精確,但對于許多應用(尤其是數據科學界),這個折衷是值得的。舉例來說,
比如你的非結構化數據庫在100個機器上運行,但是其中有一個當機了。這時你僅用99臺機器(而非100臺)來決定向用戶推薦觀看一部特定的電影,也完全可行。這種類型的數據庫看重靈活性,量化以及速度,哪怕不能隨時保證完全精確。
還有一個更有名的例子。一個軟件公司創建了一個基于Hadoop的非結構化數據庫軟件Cloudera。來看看它有多大的成長空間吧:7年前,我接到風投的電話,他們預期Cloudera在全球有10到15家公司的市場,去年Cloudera已獲得了將近10億美元的融資。 隨著數據專家取代財務和會計,成為最主要的數據消費者,數據庫將會越來越走進每一個人的生活 。
2,商業應用
十年前,沒有人想過能把重要的商業數據存在云端,如見這卻早已成為了現實。這也許是商業的IT基礎結構的大轉變之處。 我在數據庫生態系統中列出了四種主要的商業應用,分別是銷售、營銷、產品和消費者,每一種功能都有多種SaaS應用可供選擇。
SalesForce 應該是首先掀起這股趨勢的并最先獲得成功的。他們把軟件開發的目標人群是終端用戶(銷售團隊),而非單個的首席技術官。這對他們的用戶十分有用,在此過程中,大家也能看到公司客戶能夠信任地把重要公司數據放在云端。 銷售數據不再存在于用戶自己安裝的內部數據庫,而是被放在云端,由致力于保證數據可用且穩定的云端公司提供服務。
其他公司也紛紛效仿這種做法。如今基本上每個商業部門都有一個對應的數據應用。
Marketo存儲營銷數據,
MailChimp存儲電子郵件,
Optimizely存儲A/B測試數據,
Zendesk存儲顧客滿意度,諸如此類。
為什么這是相關的呢?如今每個商業部門都有強大的數據庫,由數據專家分析并用于預測分析。數據量很大,卻零散地分布在多個應用之中。比如說你在SugarCRM 中查看某個消費者的信息,但是當你想知道這名顧客的服務記錄時,需要去ZenDesk中查看。而如果你想要知道他是否支付了最近的賬單,則要去查Xero。所有的數據都被存放在不同的地點,網站和數據庫中。 商業數據被轉移到了云端,可以存放更多的數據了,但是這些數據被零散地存放在全世界的不同服務器的不同應用里。
3,第三方數據
第三方數據出現得比結構化和非結構化數據庫都早得多。Dun & Bradstreet從1841年就開始賣數據了。隨著數據對每個機構都愈發重要,這個領域也將會獲得長足的發展。 在數據庫生態系統圖中,我大體把第三方數據分成四個領域,分別是
商業信息數據,
社交媒體數據,
網頁爬蟲和
公開數據。
3.1,商業信息數據
商業信息數據開始最早。 我上面提到了Dun & Broadstreet,商業數據購買對許多商業機構來說都至關重要。商業數據能回答所有B2B公司至關重要的問題:我們的銷售團隊該找誰談?如今,這些數據更被擴展應用至網上地圖和高頻交易等領域。
新創的數據賣方如Factual,不僅售賣商業數據,更傾向于從這些高盈利的新型領域起步。
3.2,社交媒體數據
社交媒體數據雖然是新興產物,但發展很快。
通過智能PR公司對社交媒體中的文本作情感分析,營銷人員能夠切實地了解到品牌熱度與影響力,并有效評估品牌價值。
你可以從Radian6 和DatSift里看到全部細節。
3.3,網絡爬蟲
接下來我們來看看網絡爬蟲,我個人認為這是一個很有發展潛力的領域。如果能夠把所有網站都作為數據源,由數據科學團隊發展和分析,真不知道還有多少新型商業和技術會由此而生。如今從事網絡爬蟲的重要公司包括 import.io和kimono,我認為這個領域將在接下來幾年呈現爆炸式的增長。
3.4,公眾數據
最后,當然還要提及公眾數據。如果沒有數據專家團隊的支持, 不知道奧巴馬總統是否還能夠贏得2004年的大選,這可能也是后來奧巴馬大力推動 Data.gov 的原因。許多地方政府也緊隨其后。
亞馬遜網絡服務 存放了許多驚人的公眾數據,囊括從衛星圖像到安然公司的郵件等各個方面。這些龐大的數據系列可以幫助擴大新型商業,訓練更智能的算法,并解決許多實際問題。
這個領域發展快速,甚至出現了 Enigma.io 這種專門幫助企業使用公眾數據的公司。
3.5,開源工具
開源數據儲存的種類激增,尤其是在非結構化數據的存儲方面, Cassandra ,redistribute , Riak , Spark , CouchDB 和 MongoDB 等都大受歡迎。它們多數專注于公司應用,另外也著重于數據工程的生態系統。通過這個 交互式地圖 你將可以一睹最受歡迎的開源數據存儲及開采工具的概貌。
新聞標題:美國大數據產業地圖和數據科學家必備工具-數據源
URL鏈接:http://www.hntjjpw.com/article46/sohheg.html
成都網站建設公司_創新互聯,為您提供用戶體驗、全網營銷推廣、Google、網站內鏈、網站導航、靜態網站
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯