專屬客服號(hào)
微信訂閱號(hào)
全面提升數(shù)據(jù)價(jià)值
賦能業(yè)務(wù)提質(zhì)增效
摘要: 10月21日,一篇名為《估值175億的旅游獨(dú)角獸,是一座僵尸和水軍構(gòu)成的鬼城?》的文章在社交網(wǎng)絡(luò)廣為流傳,直指在線旅游網(wǎng)站馬蜂窩存在點(diǎn)評(píng)大量造假、85%的數(shù)據(jù)從其他網(wǎng)站抓取的情況,引起了軒然大波。縱觀國內(nèi)外各大網(wǎng)站,因數(shù)據(jù)問題曝光而給企業(yè)形象帶來負(fù)面影響的新聞經(jīng)常發(fā)生,互聯(lián)網(wǎng)行業(yè)由于本身的業(yè)務(wù)特點(diǎn),成為了數(shù)據(jù)問題的“重災(zāi)區(qū)”,而數(shù)據(jù)挖掘既是互聯(lián)網(wǎng)企業(yè)安身立命的根本,也是產(chǎn)生黑色利潤的重要工具,成為高懸在企業(yè)頭上的達(dá)摩克利斯之劍。數(shù)據(jù)挖掘?yàn)槭裁慈绱酥匾?本文將為你揭開數(shù)據(jù)挖掘行業(yè)的神秘面紗。
圖1 馬蜂窩造假數(shù)據(jù)
(數(shù)據(jù)來源:新浪科技)
數(shù)據(jù)挖掘是將商業(yè)數(shù)據(jù)庫中的諸多信息,經(jīng)過數(shù)據(jù)清洗和集成、選擇和變換、分析綜合、模型化處理等一系列步驟,提取出有效的、新穎的、潛在有用的以及最終可理解模式,進(jìn)行決策、控制、預(yù)測(cè)的高級(jí)處理過程。數(shù)據(jù)挖掘最早提出是在1989年,國內(nèi)對(duì)該領(lǐng)域研究稍晚,1993年國家自然科學(xué)基金開始支持該領(lǐng)域研究。
數(shù)據(jù)挖掘的方法
從不同的角度看,數(shù)據(jù)挖掘技術(shù)有多種分類方法,如根據(jù)發(fā)現(xiàn)的知識(shí)種類分類, 根據(jù)挖掘的數(shù)據(jù)庫類型分類等等。目前常用數(shù)據(jù)挖掘方法包括如下:
(1) 神經(jīng)網(wǎng)絡(luò)方法
模擬人腦神經(jīng)元結(jié)構(gòu),以MP 模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),用神經(jīng)網(wǎng)絡(luò)連接的權(quán)值表示知識(shí),其學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上。目前主要有3 大類神經(jīng)網(wǎng)絡(luò)模型:①前饋式網(wǎng)絡(luò),以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表, 可用于預(yù)測(cè)、模式識(shí)別等方面。②反饋式網(wǎng)絡(luò),以Hopfield 的離散模型和連續(xù)模型為代表, 分別用于聯(lián)想記憶和優(yōu)化計(jì)算。③自組織網(wǎng)絡(luò),以ART模型、Koholon模型為代表, 用于聚類。
(2) 遺傳算法
一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,仿生全局優(yōu)化方法。主要優(yōu)點(diǎn)是隱含并行性、易和其它模型結(jié)合。
(3) 決策樹方法
一種常用于預(yù)測(cè)模型算法,通過將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的、潛在的信息。主要優(yōu)點(diǎn)是描述簡單、分類速度快、 適合大規(guī)模的數(shù)據(jù)處理。
(4) 粗集方法
在數(shù)據(jù)庫中,將行元素看成對(duì)象, 列元素看成屬性,等價(jià)關(guān)系R 定義為不同對(duì)象在某個(gè)(或幾個(gè))屬性上取值相同,這些滿足等價(jià)關(guān)系的對(duì)象組成的集合稱為該等價(jià)關(guān)系R 的等價(jià)類。
(5) 覆蓋正例排斥反例方法
利用覆蓋所有正例、排斥所有反例的思想來尋找規(guī)則。首先在正例集合中任選一個(gè)種子,到反例集合中逐個(gè)比較。與字段取值構(gòu)成的選擇子相容則舍去,相反則保留。
(6) 統(tǒng)計(jì)分析方法
在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系和相關(guān)關(guān)系,對(duì)它們的分析可采用統(tǒng)計(jì)學(xué)方法,進(jìn)行常用統(tǒng)計(jì)、回歸分析、相關(guān)分析、差異分析、主成分分析等。
(7) 模糊集方法
即利用模糊集合理論對(duì)實(shí)際問題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。系統(tǒng)的復(fù)雜性越高,模糊性越強(qiáng)。
(8) 概念樹方法
對(duì)數(shù)據(jù)庫中記錄的屬性字段按歸類方式進(jìn)行抽象,建立起來的層次結(jié)構(gòu)稱之為概念樹。對(duì)多個(gè)屬性字段的概念樹進(jìn)行提升,將得到高度概括的知識(shí)基表,然后可再將它轉(zhuǎn)換成規(guī)則。
(9) 公式發(fā)現(xiàn)
在工程和科學(xué)數(shù)據(jù)庫中,對(duì)若干數(shù)據(jù)項(xiàng)進(jìn)行一定的數(shù)學(xué)運(yùn)算,求得相應(yīng)的數(shù)學(xué)公式。比較典型的BACON完成了對(duì)物理學(xué)中大量定律的重新發(fā)現(xiàn),其基本思想是:對(duì)數(shù)據(jù)項(xiàng)進(jìn)行初等數(shù)學(xué)運(yùn)算,形成組合數(shù)據(jù)項(xiàng),若它的值為常數(shù)項(xiàng),就得到了組合數(shù)據(jù)項(xiàng)等于常數(shù)的公式。
數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域
(1)金融領(lǐng)域
金融數(shù)據(jù)具有可靠性、完整性和高質(zhì)量等特點(diǎn)。這在很大程度上利于開展數(shù)據(jù)挖掘工作以及挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘在金融領(lǐng)域中有許多具體的應(yīng)用,例如分析多維數(shù)據(jù),以把握金融市場(chǎng)的變化趨勢(shì);運(yùn)用孤立點(diǎn)分析等方法,研究洗黑錢等犯罪活動(dòng);應(yīng)用分類技術(shù),對(duì)顧客信用進(jìn)行分類,為維持與客戶的關(guān)系以及為客戶提供相關(guān)服務(wù)等決策提供參考。
(2)醫(yī)療領(lǐng)域
人類的遺傳史、疾病史以及醫(yī)療方法等醫(yī)療領(lǐng)域中都隱藏著海量的數(shù)據(jù)信息,對(duì)醫(yī)院內(nèi)部結(jié)構(gòu)、醫(yī)藥器具、病人檔案以及其他資料等的管理也產(chǎn)生了巨量的數(shù)據(jù)。對(duì)于這些數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘技術(shù),既有助于醫(yī)療人員發(fā)現(xiàn)疾病的規(guī)律,從而提高診斷的準(zhǔn)確率和治療的有效性,也可以幫助醫(yī)護(hù)人員提高工作效率和質(zhì)量,促進(jìn)健康醫(yī)療事業(yè)的發(fā)展。
(3)零售和電商領(lǐng)域
運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)海量的銷售數(shù)據(jù)進(jìn)行分析,可以有效地識(shí)別顧客的購買行為,從而把握好顧客的購買趨勢(shì)。商家可以根據(jù)數(shù)據(jù)挖掘結(jié)果有針對(duì)性地采取措施,改進(jìn)服務(wù)質(zhì)量,提高商品的銷售量,從而提高企業(yè)效益。此外,由于數(shù)據(jù)挖掘的推薦系統(tǒng)已經(jīng)成為電子商務(wù)的關(guān)鍵技術(shù),通過數(shù)據(jù)挖掘,再對(duì)網(wǎng)站進(jìn)行系統(tǒng)分析,對(duì)用戶的行為模式加以識(shí)別,在增加客戶黏性,提供個(gè)性化服務(wù),優(yōu)化網(wǎng)站設(shè)計(jì)等方面也取得了很好的效果。
(4)電信領(lǐng)域
電信運(yùn)營商已逐漸發(fā)展為一個(gè)融合了語音、圖像、視頻等增值服務(wù)的全方位立體化的綜合電信服務(wù)商。運(yùn)營商要合理地分析商業(yè)形式和模式,運(yùn)用數(shù)據(jù)挖掘是非常有必要的。例如對(duì)用戶行為、利潤率、通信速率和容量、系統(tǒng)負(fù)載等電信數(shù)據(jù),可以運(yùn)用多維分析方法進(jìn)行分析;要發(fā)現(xiàn)異常模式,可以運(yùn)用聚類或孤立點(diǎn)分析等方法進(jìn)行數(shù)據(jù)挖掘;要得到電信發(fā)展的影響因素,可以運(yùn)用關(guān)聯(lián)或序列等模式進(jìn)行分析等。
(5)社交網(wǎng)絡(luò)分析
社交網(wǎng)絡(luò)分析是從關(guān)系和結(jié)構(gòu)兩個(gè)方面來了解、度量和預(yù)測(cè)行為的科學(xué)。結(jié)合圖論和非參數(shù)統(tǒng)計(jì)技術(shù),研究人員利用數(shù)據(jù),來識(shí)別網(wǎng)絡(luò)內(nèi)和跨網(wǎng)絡(luò)的關(guān)鍵人員和關(guān)鍵群體,或者特殊模式和重要途徑。通過這些數(shù)據(jù)來分析人們的活動(dòng)取向,為公司的營銷提供有力的依據(jù),也可以利用多個(gè)社交媒體來交叉驗(yàn)證同一個(gè)人,對(duì)于追蹤犯罪行為、恐怖分子、戀童癖者尤為重要。
數(shù)據(jù)挖掘的研究方向及發(fā)展趨勢(shì)
數(shù)據(jù)挖掘研究方興未艾,目前研究焦點(diǎn)集中于以下幾個(gè)方面:
(1)發(fā)現(xiàn)語言的形式化描述,標(biāo)準(zhǔn)化研究。即研究專門用于數(shù)據(jù)挖掘的語言,像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化。
(2)尋求數(shù)據(jù)挖掘過程中的可視化方法。使知識(shí)發(fā)現(xiàn)過程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過程中進(jìn)行人機(jī)交互。
(3)數(shù)據(jù)挖掘系統(tǒng)實(shí)施中的安全性和隱定性。數(shù)據(jù)挖掘能從不同角度、不同抽象層上看待數(shù)據(jù),這將潛在地影響數(shù)據(jù)私有性和安全性。隨著網(wǎng)絡(luò)日益普及,研究數(shù)據(jù)挖掘可能導(dǎo)致的非法數(shù)據(jù)入侵是實(shí)際應(yīng)用中亟待解決的問題之一。
(4)功能較強(qiáng)大的專用數(shù)據(jù)挖掘軟件。未來的幾個(gè)熱點(diǎn)發(fā)展方向,如網(wǎng)站數(shù)據(jù)挖掘、生物信息或基因數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘、個(gè)人數(shù)據(jù)挖掘,這些領(lǐng)域具有獨(dú)特的數(shù)據(jù)性質(zhì),需要專業(yè)軟件來支持。
(5)探索新型應(yīng)用領(lǐng)域。主要集中體現(xiàn)在商業(yè)智能,企業(yè)、政府決策。隨著研究的深入,數(shù)據(jù)挖掘系統(tǒng)在處理特定問題時(shí)有其局限性,開發(fā)針對(duì)某一專業(yè)挖掘系統(tǒng)成為研究趨勢(shì)。
總結(jié)
數(shù)據(jù)挖掘是一個(gè)年輕且充滿希望的技術(shù)手段,目前發(fā)展非常迅速,應(yīng)用領(lǐng)域也在不斷擴(kuò)展,產(chǎn)業(yè)前景非??捎^。商業(yè)利益的驅(qū)動(dòng)既會(huì)促進(jìn)它的快速發(fā)展,也容易誘導(dǎo)它成為犯罪手段,而如何規(guī)范這項(xiàng)技術(shù)未來的發(fā)展,需要企業(yè)和政府共同努力,制定行業(yè)標(biāo)準(zhǔn)、規(guī)范行業(yè)行為。在此基礎(chǔ)上,企業(yè)恪守自己的底線,才能用好這把達(dá)摩克利斯之劍。
本文為我公司原創(chuàng),歡迎轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)標(biāo)明出處,違者必究!
請(qǐng)完善以下信息,我們的顧問會(huì)在1個(gè)工作日內(nèi)與您聯(lián)系,為您安排產(chǎn)品定制服務(wù)
評(píng)論