最近在讀這本書,只有英文版,市面上還沒看到繁中或簡中翻譯。
Data Mining有很多種中文翻譯,我覺得"數據探勘"比較合適,於是這個翻譯中就用"數據探勘"來翻譯。
預計一章寫成一篇文章,用濃縮的方式介紹給大家~~
Data Mining for the Masses 群眾的數據探勘@2012 Dr. Matthew A. North
第一部:數據探勘基礎(Data Mining Basics)
第一章:數據探勘介紹與CRISP-DM(Introduce to Data Mining and CRISP-DM)
數據探勘(Data Mining)已經變成一門火紅的學問,隨著網路、零售與電商的普及,使用者的喜好成為商業關注的標準。透過數據(Data)收集、分析、再應用的方式,這些數據集(Data Sets)形成一種模式(patterns)—訴說著我們的興趣(interests)、習慣(habits)與行為(behaviors)。
這本書的目是介紹基本的數據探勘概念(concepts)並且提供以及一些簡單的練習。主要對象是在學中的學生(undergraduate college students)以及沒有接觸很多電腦科學課程又想藉由資訊系統和技術來探勘數據(mining data)並解決商業問題的商務人士(business professionals)。雖然,數據探勘是一個多種應用的融合,需要統計(statistics)、邏輯(logic)、人工智慧(artificial intelligence)、機器學習(machine learning)以數據管理系統(data management systems)等技術,但使用本書並不需要非常熟悉這些領域。書內已經將這些必要學習的內容和技術包含在內,以求可以成功學習如何對數據進行探勘。
市面上有很多適合用來做數據探勘的工具,然而,大部分很貴(expensive)而且不容易安裝(complicate to install)、設定(configure)和使用(use)。所以不適合用來做數據探勘學習工具。本書結合(in conjunction with)OpenOffice Calc和OpenOffice Base以及由德國Dortmund公司Rapid-I所開發的一個開源軟體(open source software product)RapidMiner。OpenOffice是用來開始教初級數據探勘概念的邏輯,它很直覺(intuitive)且廣泛的被使用,但是缺乏某些數據探勘者想要使用的工具。RapidMiner相較於OpenOffice則更加完整,選擇RapidMiner的原因有以下幾點:
- RapidMiner提供不只包含在OpenOffice內的特殊的數據探勘功能,如決策樹(decision trees)和關聯規則(association rules),這些你都會在本書學到。
- RapidMiner容易安裝並且在任何電腦都可以執行得很順暢。
- RapidMiner提供免費的社區版(Community Edition)給讀者可以擁有並使用。
- RapidMiner和OpenOffice都提供直觀的圖形化使用者介面(intuitive graphical user interface environment),一般電腦使用者也可以體驗數據探勘的力量。
RapidMiner和OpenOffice可以使用在很多的平台上,本書所有案例中都是安裝在微軟的windows環境,建議你現在安裝這兩個軟體,就可以使用到書中的案例。
- OpenOffice 下載位置 http://www.openoffice.org/
- RapidMiner免費社區版(Community Edition)下載位置http://rapid-i.com/content/view/26/84/
這裡有說明怎樣下載 http://docs.rapidminer.com/studio/installation/
數據探勘流程(The Data Mining Process)
數據探勘起源(root)約可以追朔至1980年代後期。一直到1999年,透過汽車(auto maker)公司Daimler-Benz、保險公司OHRA、軟硬體生產公司NCR和統計軟體廠商SPSS,這幾個相當大的(sizeable)公司之間的合作,終於將數據探勘的方向(approach)更加的規模化(formalize)與標準化(standardize)。並產出CRISP-DM也就是跨產業的數據探勘標準流程(Cross-Industry Standard Process for Data Mining)。雖然,發展(creation)CRISP-DM的參與者(participants)對於軟體跟硬體的利益(vested)有相當大的興趣,但CRISP-DM的流程被設計得很獨立,跟其他特殊工具不同。CRISP-DM被寫成了可以在各種工具或數據之外單獨使用。圖1-1介紹(illustrated)了整個流程的六個步驟或者說是六個階段(phases)。
圖1-1: CRISP-DM概念(Conceptual)模型
CRISP-DM第一階段:瞭解商業/組織行為(Business/Organizational Understanding)
CRISP-DM的第一階段就是瞭解商業或組織行為,由於組織有很多種且組織中不只商業問題適合使用數據探勘解決,其它問題也可以使用到數據探勘來找到解答。這個階段是決定數據探勘產出結果是否正確的關鍵(crucial),但卻經常被人們(folks)忽略(overlook)。我們很自然的急於(anxious)產出一些有趣的結果,期望透過數據探勘找到答案。但是如同在開始製造車子之前,必需要預先定義跟設計好你想要建造出來的車子(vehicle)。
如果沒有事先定義好問題,你可以從早到晚的探勘數據,但是並不知道要什麼,而你所做的數據探勘是不會產出的卓越的成效(fruitful)。建議可以從較高階的想法開始,例如:為何客戶老是抱怨?我要怎麼做才能提升每個單一產品(per-unit)的利潤(profit margin)?我要怎麼做預防(anticipate)才能解決工廠生產的瑕疵(flaws)和避免有缺陷的(defective)產品的出貨?透過這些問題,你可以發展出(develop)更多你想知道答案的特定的(specific)問題,便可以開始發展出整個流程。
CRISP-DM第二階段:瞭解數據(Data Understanding)
隨著時間的演進(over time),儲存具有價值的數據變成散落各地(strewn across)分散在成千上百的裝置中,存放(sequestered)在行銷(marketing)經理的電子表格(spreadsheets)、客戶支援資料庫以及人力資源的檔案系統中(file systems)。
你可以想像,這些行為造成了多方面的(multi-faceted)資料問題。行銷部門可能有很多對於資深管理階層(senior management)有價值的數據資產,然而資深管理階層可能並不知道這些資料的存在(data’s existence)-不論是因為行銷部門的領域(territorialism)或是行銷部門的人只是簡單的根本沒有想到需要讓高階主管(executives)知道他們有什麼樣的數據資料。同樣的情況也發生在組織裡的任何兩個業務單位(business units)之間彼此缺乏資訊分享。當員工不知道公司有(或可能有)什麼(what)數據是他們有權處理的(disposal)或者這些數據放在哪裡(where),這樣的狀況是不可能發展有效的(effective)組織化數據探勘。
簡單得集中數據並不足夠,當公司的數據被控管(corralled)後,很多的問題被提出, 比如數據從哪裡來?誰收集的?是否有使用一致的方法收集?各個欄位(columns and rows)的意義是什麼?是否有不知道或不清楚的縮寫跟簡稱(acronyms or abbreviations)?
建議做一些研究(research),例如去跟各個部門的各種主題專家(subject matter experts)以了解數據從哪裡來、如何收集而來、如何被編碼和儲存。這個動作對於確認(verify)數據的準確性(accuracy)和可靠性(reliability)非常的重要(critically important)。古語(old adage)說「寥勝於無(It’s better than nothing)」並不適用於數據探勘。不正確(Inaccurate)或不完整的(incomplete)數據在數據探勘活動中可能比沒有更糟,決策(decisions)若是依賴小部分或錯誤的數據可能也會造成部分或錯誤的決策。
CRISP-DM第三階段:準備數據(Data Preparation)
數據的來源與格式很多樣化(many shapes and formats),有些是整段的文字(paragraphs of text),有些是圖形(graphs)、統計圖表(charts)或地圖(maps)。有些數據是一段文章(anecdotal)或敘述(narrative),像是客戶滿意度調查(customer satisfaction survey)中的客戶意見(comments)或法庭上的證詞紀錄(the transcript of a witness’s testimony)。這些非傳統式的數據格式(non-traditional data formats)並不符合標準欄位中的數據格式,卻往往是最重要的資訊,不應該被遺漏。
準備數據遷涉(involves)到多項行為,像是將兩個以上的數據集關聯(joining)在一起、減少數據集只保留數據採礦中所感興趣的條件(variables)、清理(scrubbing)錯誤或缺少的這類異常(anomalies)數據內容或進行可以讓數據呈現一致性(consistency)的格式調整(re-formatting)。例如,你可能看過電子表單或資料庫中儲存著像下表一樣的各種格式的電話號碼,每一個都是同樣的電話號碼,卻以不同的格式被儲存。
(555) 555-5555 |
555/555-5555 |
555-555-5555 |
555.555.5555 |
555 555 5555 |
5555555555 |
當底層(underlying)的數據更加的一致,數據探勘的結果越可以找出好的方向及有用的結論。所以一開始的資料準備做的好可以增加成功找出正確結果的機率。
CRISP-DM第四階段:建立模型(Modeling)
模型是應用演算法(algorithms)來尋找(seek out)、識別(identify)和展現(display)數據中所隱藏的模式(patterns)或消息(messages)。數據探勘包含分類(classify)和預測(predict)這兩種基本的模型。
圖1-2: 數據挖掘的模型
如圖1-2所示,在數據探勘所使用的兩種模型中間有一些重疊(overlap)。例如決策樹是預測模型的一種,用來判斷(determine)數據集中的哪些屬性是影響結果最強烈的(strongest)指標(indicators),通常也展示出(expressed)結果會歸屬於某一類(certain category)的可能性(likelihood)。因此決策樹雖然屬於預測模型,但也幫助我們將數據做分類。
模型可能簡單也可能複雜,可能只包含單一過程、單一流程或複雜的子流程。不論是設計(layout)或模型都是數據探勘從準備、瞭解、開發到解答(interpretation)的重要過程。
CRISP-DM第五階段:評估(Evaluation)
所有的數據分析都可能有潛在的(potential)錯誤(false positives),即使模型並沒有問題,也可能找不到數據中令人感到興趣的模式。這可能表示模型設計的不夠好,你可能使用了錯的技術或你的數據與模型中真的沒有有用的資訊。CRISP-DM 的評估階段可以幫助你判斷你的模型是否具有價值,以及你可能可以用它做什麼。
你可以透過數學(mathematical)或自然界中的邏輯(logical)等技術完成(accomplished)評估, 本書會使用RapidMiner來演示幾種交叉驗證和測試潛在的錯誤的方法。本書也會討論如何透過測試的統計數據,找到一些模型中重要或奇怪的指標。除了這些措施(measures),評估模型也需要有一些人為方面(aspect)的介入,像是在各個領域有經驗的專家,他們會有一些並不是用數學可以衡量的產業知識(operational knowledge),這是在衡量數據探勘模型中所不可或缺的(nonetheless indispensable),關於人為因素的討論將會貫穿本書。使用數據為主(data-driven)方式以及直覺(instinctive)的評估技術的方式來判斷模型是否實用(usefulness)便可以幫助我們決定下一步要怎樣走。
CRISP-DM第六階段:部署(Deployment)
部署結果對數據採礦者(data miner)而言是最忙碌又開心的階段。這個階段包含設定模型自動化、參與模型產出結果討論的會議、與現有的管理或資訊系統整合、從模型的使用方式進而調整模型以提升準確度與效率、監控和評估模型使用的狀況。首先,要準備好面對有人對你的模型的質疑(distrust)--甚至會面臨到一些群組回饋的不良反應(pushback)例如認為工作受到新工具威脅(threatened)或者不信任結果的可靠信(reliability)與準確性(accuracy)等。不過,別讓這種事情阻擋(discourage)你!新技術會讓人感到不安(unsettling),而且有時很難相信電腦所顯示的結果。當你說明數據採礦模型的運行時多花一些耐心解釋結果代表什麼,以及他們可以怎樣應用。
電腦已經很常見且無所不在(ubiquitous),我們並不會質疑結果是否正確又有意義(meaningful)。為了讓數據探勘模型更加有效的部署,經由清楚地跟利益相關者(stake holders)溝通模型的功能與用途以及透過測試題工模型然後規畫與監控模型的建置,這兩者相佐可以快速的將數據探勘模型有效的導入在組織的流程中。若沒有仔細與有效的管理部署再好再有效率的模型都有可能會導致失敗(sink)。
~第一章 完~
留言列表