數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,通常與計算機科學有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學習、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘的常用方法我給大家整理了一下:
1、數(shù)據(jù)挖掘的分析方法——決策樹法
決策樹在解決歸類與預測上有著極強的能力,它以法則的方式表達,而這些法則則以一連串的問題表示出來,經(jīng)由不斷詢問問題最終能導出所需的結(jié)果。典型的決策樹頂端是一個樹根,底部有許多的樹葉,它將紀錄分解成不同的子集,每個子集中的字段可能都包含一個簡單的法則。此外,決策樹可能有著不同的外型,例如二元樹、三元樹或混和的決策樹型態(tài)。
2、數(shù)據(jù)挖掘的分析方法——神經(jīng)網(wǎng)絡法
神經(jīng)網(wǎng)絡法是模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,是一種通過訓練來學習的非線性預測模型,它將每一個連接看作一個處理單元,試圖模擬人腦神經(jīng)元的功能,可完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務。神經(jīng)網(wǎng)絡的學習方法主要表現(xiàn)在權(quán)值的修改上。其優(yōu)點是具有抗干擾、非線性學習、聯(lián)想記憶功能,對復雜情況能得到精確的預測結(jié)果;缺點首先是不適合處理高維變量,不能觀察中間的學習過程,具有黑箱性,輸出結(jié)果也難以解釋;其次是需較長的學習時間。神經(jīng)網(wǎng)絡法主要應用于數(shù)據(jù)挖掘的聚類技術(shù)中。
3、數(shù)據(jù)挖掘的分析方法——關(guān)聯(lián)規(guī)則法
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務中某些項的出現(xiàn)可導出另一些項在同一事務中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據(jù)。
4、數(shù)據(jù)挖掘的分析方法——遺傳算法
遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,是一種采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來生成實現(xiàn)規(guī)則的、基于進化理論的機器學習方法。它的基本觀點是適者生存原理,具有隱含并行性、易于和其他模型結(jié)合等性質(zhì)。主要的優(yōu)點是可以處理許多數(shù)據(jù)類型,同時可以并行處理各種數(shù)據(jù);缺點是需要的參數(shù)太多,編碼困難,一般計算量比較大。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡,能夠解決其他技術(shù)難以解決的問題。
5、數(shù)據(jù)挖掘的分析方法——聚類分析法
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。根據(jù)定義可以把其分為四類:基于層次的聚類方法;分區(qū)聚類算法;基于密度的聚類算法;網(wǎng)格的聚類算法。常用的經(jīng)典聚類方法有K-mean,K-medoids,ISODATA等。
6、數(shù)據(jù)挖掘的分析方法——模糊集法
模糊集法是利用模糊集合理論對問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。模糊集合理論是用隸屬度來描述模糊事物的屬性。系統(tǒng)的復雜性越高,模糊性就越強。
7、數(shù)據(jù)挖掘的分析方法——web頁挖掘
通過對Web的挖掘,可以利用Web的海量數(shù)據(jù)進行分析,收集政治、經(jīng)濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營信息,并根據(jù)分析結(jié)果找出企業(yè)管理過程中出現(xiàn)的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。
8、數(shù)據(jù)挖掘的分析方法——邏輯回歸分析
反映的是事務數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項映射到一個實值預測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預測以及數(shù)據(jù)間的相關(guān)關(guān)系等。
9、數(shù)據(jù)挖掘的分析方法——粗糙集法
是一種新的處理含糊、不精確、不完備問題的數(shù)學工具,可以處理數(shù)據(jù)約簡、數(shù)據(jù)相關(guān)性發(fā)現(xiàn)、數(shù)據(jù)意義的評估等問題。其優(yōu)點是算法簡單,在其處理過程中可以不需要關(guān)于數(shù)據(jù)的先驗知識,可以自動找出問題的內(nèi)在規(guī)律;缺點是難以直接處理連續(xù)的屬性,須先進行屬性的離散化。因此,連續(xù)屬性的離散化問題是制約粗糙集理論實用化的難點。
10、數(shù)據(jù)挖掘的分析方法——連接分析
它是以關(guān)系為主體,由人與人、物與物或是人與物的關(guān)系發(fā)展出相當多的應用。例如電信服務業(yè)可藉連結(jié)分析收集到顧客使用電話的時間與頻率,進而推斷顧客使用偏好為何,提出有利于公司的方案。除了電信業(yè)之外,愈來愈多的營銷業(yè)者亦利用連結(jié)分析做有利于企業(yè)的研究。
以上就是小編今天分享的數(shù)據(jù)挖掘的常見方法,更多知識請繼續(xù)關(guān)注我們,廣州思邁特軟件有限公司(簡稱:思邁特軟件Smartbi)是國家認定的高新技術(shù)企業(yè),專注于商業(yè)智能(BI)與大數(shù)據(jù)分析軟件產(chǎn)品和服務。我們在BI領(lǐng)域具有15年以上產(chǎn)品研發(fā)經(jīng)驗,提供完整的大數(shù)據(jù)分析軟件產(chǎn)品、解決方案、以及配套的咨詢、實施、培訓及維護服務。