在職教育:資料科學家(大數據)的新需求

富比士雜誌近期稱資料科學家(大數據)為「本世紀最夯的職業」。

不管是消費性包裝產品還是醫療保健,世界上的各大產業都面臨著被各種數據淹沒的困境,急需能夠幫助他們將龐大的數據實用化的人才,而對這類工作也理所當然地出現了強烈和逐漸增加的需求
但因為這項產業的變化和創新是如此劇烈,專家們在接下來的十年(甚至更久)將對在職教育出現投資需求。

 

不久前,作為一名資料科學家(大數據),你只要會數學和統計學就可以了
但是現在隨便找一則網路應徵廣告都可以看出資料科學家(大數據)已經變成了大數據工程師、統計學家和業務分析員的綜合體。
企業們應徵的不單是資料科學家(大數據),而是接受過現代工具訓練的專家,希望他們能夠使用適合的方法和工具設計出讓使用者輕鬆操作的介面。
換句話說,資料科學家(大數據)已經成了一種工作內容多合一的職位。

 

為了因應這樣的趨勢,便出現了對在職教育的需求。
在現實中,資料科學產業變動得非常快速,而新科技和應用方法也不斷的推陳出新,早已和學校的教程不同,甚至和職場訓練提供的內容也有所差距。
資料科學逐漸轉型成為一種綜合各種學科的領域,其中包含了資料科學、資訊與決策系統、社會科學和工程學等元素。
在這個領域中的專家們如果希望保有競爭力並且把握住現在這些豐富機會的話,就必須持續磨練自己的能力。
為了達到這個目的,他們不僅需要增進數據分析的能力,還必須學會深層學習及其影響等解析學的技巧;
了解如何克服龐大數據的演算法所帶來的挑戰和限制;和找出能更加應用機器學習的方法。
此外,除了專業知識,資料科學家(大數據)還必須對各種產業的問題和挑戰有所認知,才能讓他們發現不了解該領域的人無法洞悉到的部分。

 

為了克服這項挑戰,利用各種專業教育機會是一個好的開始,線上教學和身邊的會議是不錯的選擇,但最適合的還是嚴格結合各學科精華的活動。
這些課程和研討會大多可以藉由詢問得到檔案或是找到紀錄,
不需要花太多時間就可以幫助資料科學家(大數據)獲得需求的技術,以扮演他們在職場中的新角色,也讓他們在這個領域中更加成功。

 

各種類型的公司都在尋找資料科學家(大數據),光是看ODSC的徵才資訊或是在LinkedIn網站上點擊「工作」分類並以全美為範圍搜尋「資料科學家(大數據)」,截至一月中就可以找到8,600件以上的工作機會。
這些公司都想要從手邊龐大的數據中彙整出有商業價值的部分,但是資料科學家(大數據)若是要做到這項要求並抓住眼前這些絕佳的機會,就必須不斷的學習新知並更深入的鑽研這項學問,
因為不管是人、公司機構或事物都會不斷的增生更龐大的資訊量。
讓更多的人得到正確的工具,並且教會他們如何把數據變成對未來的洞悉能力,不單是讓他們達到市場所需,更是讓資料科學能加完整地發揮它的潛能。

 

 

如果您已經準備好要踏出下一步,請參考Devavrat教授的新課程。
該課程於2017年3月30日開始授課
欲洽更多資訊請上MIT Professional Education網站,網址:https://goo.gl/MgKUK1 

 

想淋漓盡致地運用大數據,有效的數據科學訓練是最好的途徑

來自麻省理工學院電子工程和電腦科學系的特別嘉賓Devavrat Shah教授在專訪中談到, 數據科學家若是想要在龐大資訊中, 提取出最有價值的部分,便需要接受的訓練類型。
(Shah教授是MIT專業教育課程《數據科學:從數據到洞悉》的教學主任,MIT統計學和數據科學中心(SDSC)的主任,同時也是數據、系統和社會研究所(IDSS)的核心成員,另外還是MIT訊息及決策系統實驗室(LIDS)和運籌學中心(ORC)的成員。)

 

各種不同的機構都對能夠從龐大數據中洞悉資訊以便有效運行、增加收益或是提升業務的方式非常感興趣。
但是這些洞悉能力並不是憑空就能得到的,必須靠接受過訓練的數據科學家運用所學才能得到最好的結果。

 

關鍵就在於「受訓」,雖然說統計學、解析學、資料探勘、型態辨識和其他領域並不是什麼新的概念,但是數據科學本身的理念是利用這些知識挖掘有價值的資訊。
有效率的應用方式並不是工程師們光靠自學得到一點毛皮就能學會的,他們需要的是適當的訓練。

 

為了讓訓練有實質效用,其內容必須涉及各種領域的知識,像是工程學、社會科學、數學和統計學。
在理想的狀態下,訓練課程需要包含以下主題:

 

結構鬆散的數據:
資料探勘工具長久以來都被用於能在資料庫中找到的那種結構化的數據上,但是現在有很多龐大的數據都是未事先結構化的。
例如文字檔、報告、社群媒體提供的資訊、畫面或是其他資源,而資料探勘工具在這類數據資源中搜索的效能並不高,因為探勘工具大多是為了已知的結構設計的。
但在經過有效的訓練,學會如何使用最新科技後,數據科學家便能藉由各種先進的機器學習演算法整理龐大的數據,在其中找出先前不明確的邏輯與架構。

 

迴歸和預測:
整理龐大的數據需要在變量中尋找關聯的能力,而且通常要整理的變量甚至不只一組。
這代表數據科學家必須接受迴歸技巧的訓練,其中包括了雙變量(兩組變量)和多變量(兩組以上的變量)的迴歸流程。
在提到這個部分時,迴歸樹、提升樹和隨機森林一類專有名詞應該是大家所熟悉的。
同樣的,對於現代預測方法來說,能夠藉由對其的熟悉度利用驗證樣本和交叉驗證的方式達到預測成效是很重要的。

 

數據分類和假設測試:
數據科學家必須擁有多種技能和熟知數據分類的辦法才能有效的分析數據。
同時,他們還需要學會如何測試假設和偵測像是詐騙以及其他惡意行為的反常數據。
數據科學家也需要了解各種方法的極限和誤用可能帶來的危險。

 

推薦系統:
我們都對推薦系統有一定的認識,因為它是亞馬遜、Netflix、LinkedIn和YouTube等公司的主要線上構成。
有一些推薦系統運作能力超群,能依照過去的行為模式預測出訪客可能想要的資訊,但是設計和架構一套好用的推薦系統需要對運作原理和背後的演算法有詳盡的了解。

 

圖表範例和網路:
圖表範例對理解複雜的資訊和推動數據計算有極大的幫助,讓我們能揭露網路資訊中存在的既有模式、功能和行為,這種辦法不管是應用在基因管理網路或是社群網路都是一樣的。
數據科學家必須學會分析這種網路環境的辦法,首先是學習如何用圖表說明他們的系統,再來是向心性量測、影響最大化和藉由干涉得到對不同圖表範例的分析。
數據科學家用這種方式找到了各地的互動模式,而這正是企業最在乎的大規模網路影響指標。

 

為了追求最好的效果,訓練課程中應該要包含案例研究,才能讓學員了解各種概念的實際用途。
這邊提到的案例研究可延伸到不同領域,例如實施不同類型的回歸、將性別造成的薪資差異具象化、玩味深度神經網路和了解它們如何做出決策。
這樣的案例研究對數據科學家是相當珍貴的,因為那可以幫助他們了解如何在自己的組織系統中應用所學。

 

近年來,Gartner調查發現只有41%的IT專員認為他們的公司已經準備好面對兩年後數位產業的需求,意指59%的專員承認他們毫無防備。
別讓您的員工成為沒有準備的那一半,現在就替他們安排一些實用的數據科學訓練,讓他們有能力迎接大數據時代的需求。

 

 

MIT最新線上課程: Data Science (可取得MIT證照)

即將於3/30開課

報名網址: https://goo.gl/K15Zk2

MIT最新線上課程: 資料科學:從數據到洞悉(Data Science: Data to Insights)

課程描述:

能夠快速分析並對數據做出反應的能力日漸成為一種迫切的需求。為了幫助您在大量數據中培養出重要的洞悉能力。
麻省理工學院專業教育與其數據、系統及社會研究所(IDSS)合作,提供《資料科學:從數據到洞悉》這場為期六週的線上課程。
為了讓您更加瞭解數據科學的基礎,我們會請您提供貴公司遇過最棘手的數據分析。

 

主要收穫:

在這個深度線上課程中,您將學會:

1.如何將資料科學的技巧有效地套用在貴公司遇到的挑戰上。
2.如何在大筆數據分析中找出常見的錯誤以及避免該錯誤的策略。
3.如何加強您對機器學習的知識並瞭解如何實際運用。
4.如何解析範例並學習應該問什麼樣的問題才能做出更好的商業決策。

 

「資料科學在現代組織裡需要建立三樣東西:
(1) 能聚集或蒐集正確資料的檢測平台,(2) 貯存並能提供一定規模數據的設施,以及(3)能利用統計學和機器學習處理從數據中萃出的訊息並做出有效決策的系統」。
教學主任
Devavrat Shah表示,「本課程會著重在這三項元素上,同時也會指導學生,讓他們了解在既有的決策中應該要蒐集哪些數據才正確。」

 

課程安排

麻省理工學院專業教育(MIT Professional Education)數位課程是為工作繁忙的人員所設計,在六週的上課期間內,沒有限制觀看時間。

 

課程特色

1.教學影片、案例研究、以研究為基礎的課程內容皆由麻省理工學院傑出的教授們提供。
2.完整的課堂紀錄
3.完善並能培養網路作業的協作環境

 

課程大綱

數據科學可分成五大單元:

單元一:讓結構鬆散的數據變得有意義

學習如何過濾龐大的數據,並找出其規律或是隱藏的架構。
本單元將會探討現代分析工具,例如集群分析、降維和光譜分析技巧。

 

單元二:回歸和預測

在典型線性和非線性回歸中取得穩固的基礎就如同在現代回歸中取得高維度的數據。
除此之外,您還可以利用回歸樹、提升樹和隨機森林了解如何解決預測中的問題。

 

單元三:分類、假設測試和異常偵測

 

探討分類統計方式、假設測試及其應用範圍,其中包括了偵測數據異常、詐騙、垃圾資訊和其他惡意行為。
在看過幾項範例之後,您將會對應用、限制和使用這些辦法有更深的認知。

 

單元四:建議系統

了解為什麼這些推薦的系統會成為從大量數據中找出相關資訊最好的選擇。
學習Netflix、YouTube、Spotify和Amazon這些頂尖的公司是如何使用演算法設計並發展他們強大的系統。

 

單元五:網路和圖表範例

學習利用數據分析大量網路資訊、確認其性能或功能並推斷流失數據最好的幾種方式。本單元還會著重於圖表範例可以如何幫助您設立網路流程和有效統計數值。

 

在每個單元中,教師們會示範如何將這些實用的技巧套用在實際案例中。

 

授課教授名單

Devavrat Shah 教授,教學主任

教授

訊息及決策系統實驗室(LIDS)、電腦科學及人工智慧實驗室(CSAIL)和運籌學中心(ORC)

 

Guy Bresler 教授

助理教授

電子工程及電腦科學、LIDS和IDSS

 

Victor Chernozhukov 教授

教授

經濟學系;數據中心

 

Stefanie Jegelka教授

助理教授

數據、系統和社會研究所(IDSS)、電子工程和電腦科學系(EECS)

 

Ankur Moitra 教授

助理教授

數學系及電腦科學和人工智慧實驗室(CSAIL)之成員

Philippe Rigollet 教授,教學主任

助理教授

數學系和統計學中心

 

Tamara Broderick 教授

助理教授

數據、系統和社會研究所(IDSS)、電子工程和電腦科學系(EECS)

 

David Gamarnik 教授

教授

麻省史隆管理學院

 

Jonathan Kelner 教授

助理教授

數學系和麻省點腦科學和人工智慧實驗室(CSAIL)之成員

 

Caroline Uhler 教授

助理教授

數據、系統和社會研究所(IDSS)、電子工程和電腦科學系(EECS)

 

開課時間: 2017/3/30
上課期間: 六週
線上報名網址: https://goo.gl/J0MUsc

 

 

從雙11節銷售, 看阿里巴巴如何運用大數據提升電商?

MIT Technology Review《麻省理工科技評論》刊登文章《Big Data Game-Changer: Alibaba’s Double 11 Event Raises the Bar for Online Sales》(大數據變革者:阿里巴巴雙11不斷提升電商標竿),指不斷擴張的雙11全球購物節成為阿里巴巴集團尖端技術創新的最佳舞台。

 

文章摘要如下:

Ÿ 阿里巴巴集團正從早期的電商企業走向世界級科技先驅,它用大數據算法、複雜的互聯網架構和軟件、數據應用造就了雙11。
在充分保證數據安全的前提下,深度應用了人工智能、機器學習、虛擬現實、雲計算、移動互聯網等技術,讓電商平台能夠精準地滿足商家和消費者的需求。

 

Ÿ 此外,阿里巴巴集團用創新的人工智能技術來建造「智慧」商業。
個性化搜索和推薦引擎幫助電商平台更好地瞭解用戶的喜好和意圖。這些技術還可以構建完善的賣家和買家的信用系統和評價模型。

今年雙11,機器人承擔了超過95%的客服工作。
阿里雲首席科學家周靖人表示,阿里巴巴機器學習模型的優勢來源于對億萬數據樣本和特徵的高效利用,阿里巴巴的服務器架構就是為了處理如此龐大的模型和數以億計的參數而開發的。

 

Ÿ 阿里巴巴集團同時也越來越多專注于發展VR和AR等技術。
VR用電腦3D成像讓用戶和擬真的圖像進行互動。AR則在現實環境的基礎上增加了視覺效果,給特定用戶提供了一個真實、完整、專屬的場景。
未來,阿里巴巴將利用這些技術和算法更精准地對商品和需求進行配對,持續提升用戶體驗,加速網絡銷售,最終讓消費者們更滿意。

 

Ÿ 與此同時,阿里巴巴亦致力於保護所有交易的客戶隱私和數據安全 。
阿里巴巴集團CTO張建鋒表示,從數據的採集、使用、轉移、分享直至銷毀,我們為數據全生命周期制定了細緻的安全標準。
我們也向消費者保證,絕不會碰觸或洩漏任何個人數據。

 

原文出處:https://www.technologyreview.com/…/big-data-game-changer-a…/

MIT最新線上課程Data Science: Data to Insights 即將開課, 報名網址: https://goo.gl/wO35Pu

資料科學的未來 (專訪 麻省理工學院教授 Devavrat Shah )

我們正處於數位革命的時代,企業中所產生的資料量是十分驚人的,各界皆努力因應這種大規模的資料湧入。
雖然大數據的美好展望依然存在,但最大的挑戰是如何將大量的資訊轉換為可用於商務決策的洞察分析。

 

資料科學家和資料分析師這樣的角色,是準備來兌現大數據的未來美好展望的,透過讓組織單位能夠利用大數據並用它來產生各種機會和創新,引領著進行數位化轉型(Digital transformation)。
但首先他們將被要求要提高他們的技能和了解當代的工具,並且學習現在各種可用的方法和技術。
關於IT專業人士如何能夠在新的數位化世界中獲得成功和擁有競爭力,Devavrat Shah 教授在這邊分享了他的想法。

 

問: 數位化轉型正推動著巨大變化,然而什麼是從事資料科學相關的專業人員即將會遇到的最大挑戰呢?

答: 從事資料科學相關的專業人員所面臨到的最大挑戰,是無法轉變為有效率的“資料科學機器”。

 

從最近一項來自於IT研究公司Gartner的調查顯示,59%的IT專業人士認為他們的組織單位在過去的日子裡,並沒有準備好為帶來數位化業務的方式做必要的改變,而其中所面臨到的最緊迫問題則是技術能力的不足。

 

雖然它很容易在周圍都是大數據和資料分析的宣傳炒作中趕上,但現實的情況是,如果要將大量湧至的數據轉化為有意義的商務洞察,就會面臨到一些挑戰,也就是需要改進在資料科學上的技能。
否則大數據將僅僅變得太大、太快、或是太難,以致於無法處理和分析並進而轉換成為洞察。

 

專業人員必須準備要超越在實現基礎架構的細節上,進一步開始關注如何將資料轉化為決策。
我們構建了可儲存和處理大量資料的基礎架構,但仍然缺乏關鍵的能力來將所有各式各樣的資料片段無縫地拼湊起來,然後用來作精準的預測以引領著那些有高度影響力的決策。
這是這個時代的關鍵性挑戰之一,但從事資料科學相關的專業人員中,若誰能有效處理這樣的問題,無疑地將會在他們的職業生涯中體驗極大的成功。

 

問:從事資料科學相關的專業人員該如何才能確保他們擁有合適的技能,而且不僅在我們新的大數據時代中獲得成功更能表現突出?

答: 在我看來,從事資料科學相關的專業人員如果要成功,他必需要成為一個訓練有素且有能力的資料科學家。

 

這裡提到的能力,是指能夠在大規模的資料中進行資料處理和計算。
而為了實現這一目標,專業人員必須透過相關機構,持續地投入時間在有工程、數學科學、社會科學等元素的跨學科課程教育中。
一個能夠將大數據轉換成為有意義資訊的人,將會是一個有跨學科教育經歷,既是資料科學家也是統計學家的熟練專業人員。

 

問:在各式各樣新的技術和科技發展當中,專業人員如何決定該聚焦關注的優先順序?

答: 一個有效的方法是研究目前的技術實踐狀態,了解在像Amazon、Google和Netflix等頂級的公司中所發生的事。

 

當企業能夠大規模處理數據以擷取出有意義且能帶來成功的資訊時,這對現代消費者生活上會有什麼樣的改變?看看你的產業或是專業之外的領域,其它人採取的策略和技術是否存在著某些發展趨勢?
像Python這樣的程式語言,已經在科學計算以及像物理這種高度量化的領域中,成功地使用超過十年了。
它用在改善太空梭的任務設計,並且協助許多Google內部關於基礎架構的建設。
在各種規模的公司中,商務分析師和資料科學家如何能夠在大數據和資料分析中藉由Python獲益呢?

這個關鍵不是在知道任何一種技術、模型或是實踐的本身上,而是專業人員應當精通於各種工具、觀點和方法,以使得他們能夠識別哪些方法和模式,最適合在特定的使用案例上。

 

問: 什麼是大數據分析中常常容易犯的錯誤,而專業人員又該如何避免呢?

答: 其中一種在組織單位中最常犯的錯誤,是沒有辦法收集到正確的資料來幫助做出正確的決策。
例如,企業如果會根據大量的負面評論來做極端的策略性改變,那麼當消費者相對於平常比較容易在他們不高興的當下積極反饋意見時,企業會很容易被這樣的情境給誤導,因此能夠了解整個情況的全貌是很重要的。

 

資料科學是所有與擁有你需要的資料有關的事。但隨著資訊量的不斷飆升,資料的種類和生成速度也將同時成長。
從事資料科學相關的專業人員會面對到的一個基本挑戰,是什麼樣的資料需要收集和保存。隨著更多的資料被收集起來,要從這些資料中萃取出價值只會變得更加複雜。
資料科學家和資料分析師將需要仰賴統計和機器學習等方法,以自動萃取出資料中的資訊。而為了在正確的時點將洞察結果提供給正確的決策者,機器學習變得至關重要。

 

問:資料科學家的未來在何方?

答: 在接下來的5年中,資料科學家將會發展出能夠即時利用所有各式資料的能力。
這將會在未來各種應用燃起新的資料科學典範的緊急需求下,滿足大規模作複雜預測和計算的需要。

 

有越來越多的資料將被用來驅動關鍵的商務決策,並且將會開啟一些像“深度學習”的創新,以達到更準確的預測和決策。
此外,現代的應用面已經帶來了嶄新的統計典範,像是扮演許多現代商務推手的推薦系統,被應用在像是媒體入口網站、電子商務網站或是社交互動平台之中。

 

無論事情如何演變,有一件事情是明確的,熟練的資料科學家、統計學家和商務分析師,將是解開大數據無限可能性的關鍵角色。

 

受訪人介紹:

Devavrat Shah,是一名麻省理工學院電機資訊學系的教授,SDSC的主任,和IDSS的核心教師成員。

他同時也是麻省理工學院資訊和決策系統實驗室(Laboratory for Information and Decision Systems (LIDS)),以及運營研究中心(Operations Research Center (ORC))的成員, 他將擔任 Data Science: Data to Insights”這門線上課程的協同主持人.

 

Data Science: Data to Insights”課程詳情及報名網址: https://goo.gl/wO35Pu

 

 

原文出處: http://blog.edx.org/future-data-science-qa-mit-professional-educations-devavrat-shah?track=blog