隨著大數(shù)據(jù)時代的到來與經(jīng)濟的不斷發(fā)展,物流企業(yè)管理人員面對的數(shù)據(jù)呈現(xiàn)豐富化、多樣化的趨勢,這為善于使用從數(shù)據(jù)中挖掘出有用信息的物流企業(yè)帶來了全新的機遇,也給粗放式管理的物流企業(yè)帶來了新的挑戰(zhàn)。如何從繁雜的數(shù)據(jù)集中發(fā)掘出有價值的信息,對每個希望在大數(shù)據(jù)時代實現(xiàn)風險管理與評估的物流企業(yè)都具有重要的研究意義。
數(shù)據(jù)挖掘在物流企業(yè)風險管理與評估中既有計算機科學技術(shù)與機器學習的內(nèi)容,還融合了金融學、統(tǒng)計學、經(jīng)濟學等多方面的學科理論與方法
物流企業(yè)獲取到用于進行風險管理評估的數(shù)據(jù),往往呈現(xiàn)海量性、多樣性的特點。物流企業(yè)可能從多個數(shù)據(jù)庫中取得大量呈現(xiàn)多個維度,具有多種形式的信息,例如文字、圖表等,形成龐大的數(shù)據(jù)集。這一方面體現(xiàn)了應用數(shù)據(jù)挖掘技術(shù)的意義,另一方面也對數(shù)據(jù)的清洗和預處理提出了更高的要求。
物流企業(yè)在進行風險管理時所參考數(shù)據(jù)往往是跨越多個層面,涉及多個維度的,這些未經(jīng)過處理的臟數(shù)據(jù)中往往或多或少地存在噪點、分散、缺失值、離群值等問題
物流企業(yè)在將獲取到的非結(jié)構(gòu)化數(shù)據(jù)處理為結(jié)構(gòu)化的數(shù)據(jù)后,便可以對這些結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)挖掘建模,發(fā)掘其中隱含的風險信息。此時物流企業(yè)需要面對兩大問題。第一大問題是難以找到與物流企業(yè)需求完全貼合的數(shù)據(jù)挖掘算法。在預測性數(shù)據(jù)挖掘中,由于數(shù)據(jù)具有較強的動態(tài)性與實時性,一個運行時間較長的算法往往是不被容忍的。第二大問題是數(shù)據(jù)挖掘算法的開發(fā)。在信息化時代,具備一定規(guī)模的物流企業(yè)產(chǎn)生的風險信息資源往往較為龐大,對從這些資源中抽取出的數(shù)據(jù)集進行挖掘往往需要耗費大量的時間。如果將靜態(tài)的算法套用到復雜多變的需求中,而不對其進行定制與進一步開發(fā),是難以完成物流企業(yè)風險管理與評估的數(shù)據(jù)挖掘任務的。
物流企業(yè)在應用數(shù)據(jù)挖掘技術(shù)時,往往會統(tǒng)合各部門的數(shù)據(jù),建立信息化大數(shù)據(jù)管理平臺。這一方面提高了物流企業(yè)的信息化程度,另一方面也成為物流企業(yè)新的風險點
要想對非結(jié)構(gòu)化的原始數(shù)據(jù)進行數(shù)據(jù)挖掘,發(fā)現(xiàn)其中蘊含的物流企業(yè)風險信息,我們需要對獲取到的數(shù)據(jù)進行清洗及預處理,提升數(shù)據(jù)集的質(zhì)量,并使其更易于建模。針對原始數(shù)據(jù)集面臨的問題,主要有以下幾種解決思路。(1)數(shù)據(jù)降噪。原始數(shù)據(jù)集中常常存在由于各種測量錯誤、記錄錯誤導致的噪點,為此我們要通過噪聲降除算法進行處理。例如將有序的原始數(shù)據(jù)進行分箱,根據(jù)一定的規(guī)則劃分出某屬性的多個區(qū)間,再通過平均值平滑、邊界值平滑等方法聚合各分箱中的數(shù)據(jù),這樣可以將一個區(qū)間內(nèi)的一組數(shù)據(jù)用一個有代表性的數(shù)據(jù)表示,在不改變數(shù)據(jù)原有含義的基礎上便于輸入模型進行分析?;蛘呋跀?shù)據(jù)集的其他特征運用聚類方法進行分簇,通過離群的孤立點或小數(shù)據(jù)簇找出噪點。在實際操作中,應使用機器挖掘與人工檢驗相結(jié)合的方法,由熟悉業(yè)務的管理人員或核心員工判斷是否應作為普通噪點處理。(2)數(shù)據(jù)填充。為了應對原始數(shù)據(jù)集中的數(shù)據(jù)缺失,將含有缺失項的數(shù)據(jù)樣本整個丟棄是最簡單易行的方法。但這種方法只適用于含有數(shù)據(jù)缺失的樣本較少,或含有數(shù)據(jù)缺失的樣本不重要時使用,否則會造成數(shù)據(jù)集較為嚴重的萎縮。因此,我們還可以采取另一種思路,即用一定的方法將其填充起來。如將一些未能收集到或已丟失的數(shù)據(jù)項用特殊值填充,使其可被作為有意義的數(shù)據(jù)項處理,又可以標記該數(shù)據(jù)項具有特殊意義?;蛘呃媒y(tǒng)計學方法,結(jié)合該數(shù)據(jù)樣本的其他數(shù)據(jù)項,采取中值填充、均值填充等方法,也可找到大致合理的值實現(xiàn)缺失數(shù)據(jù)項的填充。(3)離群值處理。數(shù)據(jù)集中的離群值有些是由于數(shù)據(jù)獲取時的誤差產(chǎn)生的,應進行異常值檢測與處理。傳統(tǒng)物流企業(yè)一般采用人工檢測的方法,選取對業(yè)務需求較為了解的員工,人為選出離群的數(shù)據(jù)項,但這種方法難以適應大數(shù)據(jù)時代信息處理的需要,且可能產(chǎn)生新的錯誤。現(xiàn)代物流企業(yè)應通過設計合適的算法或建立模型的方法解決問題,基于統(tǒng)計學的異常值檢測處理方法是最常用的離群值提取方法,這種方法將數(shù)據(jù)的基礎分布假設為正態(tài)分布,結(jié)合3σ法則判斷離群值,但不適用于基礎分布難以描述的模型?;蛘呋跇颖緝蓛芍g的歐式距離、編輯距離在所有樣本中的該距離分布,識別出離群點或離群簇,進而將其刪除或進一步分析,挖掘其中可能隱藏的物流企業(yè)風險信息。
各物流企業(yè)的風險信息數(shù)據(jù)具有自己獨特的特性,對模型的準確度、實時性的要求也不盡相同。如有些物流企業(yè)對人事變動較為敏感,員工離職成為損失期望值較大的風險點,這些物流企業(yè)往往希望基于以往的離職員工簡歷、離職原因、股市變動等多維度信息進行描述性數(shù)據(jù)挖掘,盡可能詳細地從多方面描述導致員工離職的因素,幫助物流企業(yè)保護自己的人才資源。甚至如Entelo公司的“前獵頭”服務,通過70多個指標分析核心人才的離職傾向,推送給購買了他們服務的物流企業(yè)家。還有的公司以期貨市場波動為主要風險點,希望基于近幾日的市場信息盡快完成預測性數(shù)據(jù)挖掘任務,注重模型的運行效率。由此可知,一個適合物流企業(yè)風險管理的數(shù)據(jù)挖掘模型應該是針對某一物流企業(yè)的需求定制的,且具有較強的交互性與可視化功能。
面對搭建信息化大數(shù)據(jù)平臺時面臨的新風險,物流企業(yè)需要在多方面做出應對。一方面可以成立大數(shù)據(jù)平臺管理小組,由深刻理解業(yè)務且具備大數(shù)據(jù)與IT知識的管理人員領導。同時由于大數(shù)據(jù)平臺統(tǒng)合了物流企業(yè)的所有業(yè)務數(shù)據(jù)與管理信息,如果采用物流企業(yè)外部招聘的方法獲取大數(shù)據(jù)平臺管理小組的成員,由于這些人員對物流企業(yè)業(yè)務與風險點不熟悉導致出現(xiàn)工作效率較低、錯誤率較高的問題,還會增加物流企業(yè)數(shù)據(jù)泄露的風險。因此,從物流企業(yè)內(nèi)部選拔一批熟悉公司業(yè)務與風險,并具備一定IT知識的綜合性人才進行培養(yǎng),是物流企業(yè)獲取大數(shù)據(jù)風險管理人才較好的辦法。另一方面,物流企業(yè)應健全大數(shù)據(jù)信息管理體系,建立起一套全面、高效、安全的大數(shù)據(jù)信息管理系統(tǒng)與規(guī)章制度。規(guī)范大數(shù)據(jù)管理人員的權(quán)限分級管理、身份識別工作,強化數(shù)據(jù)加密存儲的意識與能力,確保權(quán)限不足的人員訪問相應加密數(shù)據(jù)時受到制約。
總而言之,數(shù)據(jù)挖掘技術(shù)可以從多個維度實現(xiàn)高價值數(shù)據(jù)的提取,在大數(shù)據(jù)時代有著豐富的應用與廣闊的前景,對想要實現(xiàn)風險管理與評估的大數(shù)據(jù)時代物流企業(yè)具有重要意義。本文研究了數(shù)據(jù)挖掘技術(shù)應用的過往經(jīng)驗與現(xiàn)狀,以及物流企業(yè)應用落地的問題與對策,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展與物流企業(yè)應用經(jīng)驗的積累,數(shù)據(jù)挖掘技術(shù)在物流企業(yè)風險管理與評估中必將有更大的用武之地,為市場經(jīng)濟的發(fā)展提供更強的動力。