數據挖掘是指從大量的數據中通過算法搜索隱藏于其中信息的過程,通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘的常用方法我給大家整理了一下:
1、數據挖掘的分析方法——決策樹法
決策樹在解決歸類與預測上有著極強的能力,它以法則的方式表達,而這些法則則以一連串的問題表示出來,經由不斷詢問問題最終能導出所需的結果。典型的決策樹頂端是一個樹根,底部有許多的樹葉,它將紀錄分解成不同的子集,每個子集中的字段可能都包含一個簡單的法則。此外,決策樹可能有著不同的外型,例如二元樹、三元樹或混和的決策樹型態。
2、數據挖掘的分析方法——神經網絡法
神經網絡法是模擬生物神經系統的結構和功能,是一種通過訓練來學習的非線性預測模型,它將每一個連接看作一個處理單元,試圖模擬人腦神經元的功能,可完成分類、聚類、特征挖掘等多種數據挖掘任務。神經網絡的學習方法主要表現在權值的修改上。其優點是具有抗干擾、非線性學習、聯想記憶功能,對復雜情況能得到精確的預測結果;缺點首先是不適合處理高維變量,不能觀察中間的學習過程,具有黑箱性,輸出結果也難以解釋;其次是需較長的學習時間。神經網絡法主要應用于數據挖掘的聚類技術中。
3、數據挖掘的分析方法——關聯規則法
關聯規則是描述數據庫中數據項之間所存在的關系的規則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關系。在客戶關系管理中,通過對企業的客戶數據庫里的大量數據進行挖掘,可以從大量的記錄中發現有趣的關聯關系,找出影響市場營銷效果的關鍵因素,為產品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據。
4、數據挖掘的分析方法——遺傳算法
遺傳算法模擬了自然選擇和遺傳中發生的繁殖、交配和基因突變現象,是一種采用遺傳結合、遺傳交叉變異及自然選擇等操作來生成實現規則的、基于進化理論的機器學習方法。它的基本觀點是適者生存原理,具有隱含并行性、易于和其他模型結合等性質。主要的優點是可以處理許多數據類型,同時可以并行處理各種數據;缺點是需要的參數太多,編碼困難,一般計算量比較大。遺傳算法常用于優化神經元網絡,能夠解決其他技術難以解決的問題。
5、數據挖掘的分析方法——聚類分析法
聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數據間的相似性盡可能大,不同類別中的數據間的相似性盡可能小。根據定義可以把其分為四類:基于層次的聚類方法;分區聚類算法;基于密度的聚類算法;網格的聚類算法。常用的經典聚類方法有K-mean,K-medoids,ISODATA等。
6、數據挖掘的分析方法——模糊集法
模糊集法是利用模糊集合理論對問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。模糊集合理論是用隸屬度來描述模糊事物的屬性。系統的復雜性越高,模糊性就越強。
7、數據挖掘的分析方法——web頁挖掘
通過對Web的挖掘,可以利用Web的海量數據進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息,并根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。
8、數據挖掘的分析方法——邏輯回歸分析
反映的是事務數據庫中屬性值在時間上的特征,產生一個將數據項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關系,其主要研究問題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等。
9、數據挖掘的分析方法——粗糙集法
是一種新的處理含糊、不精確、不完備問題的數學工具,可以處理數據約簡、數據相關性發現、數據意義的評估等問題。其優點是算法簡單,在其處理過程中可以不需要關于數據的先驗知識,可以自動找出問題的內在規律;缺點是難以直接處理連續的屬性,須先進行屬性的離散化。因此,連續屬性的離散化問題是制約粗糙集理論實用化的難點。
10、數據挖掘的分析方法——連接分析
它是以關系為主體,由人與人、物與物或是人與物的關系發展出相當多的應用。例如電信服務業可藉連結分析收集到顧客使用電話的時間與頻率,進而推斷顧客使用偏好為何,提出有利于公司的方案。除了電信業之外,愈來愈多的營銷業者亦利用連結分析做有利于企業的研究。
以上就是小編今天分享的數據挖掘的常見方法,更多知識請繼續關注我們,廣州思邁特軟件有限公司(簡稱:思邁特軟件Smartbi)是國家認定的高新技術企業,專注于商業智能(BI)與大數據分析軟件產品和服務。我們在BI領域具有15年以上產品研發經驗,提供完整的大數據分析軟件產品、解決方案、以及配套的咨詢、實施、培訓及維護服務。