數據挖掘的主要任務
精選回答
相關剖析
兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為相關。數據相關是數據庫中存在的一類重要的、可被發(fā)現的常識。相關分為簡略相關、時序相關和因果相關。相關剖析的目的是找出數據庫中隱藏的相關網。
聚類剖析
聚類是把數據依照類似性歸納成若干類別,同一類中的數據互相類似,不同類中的數據相異。聚類剖析能夠樹立宏觀的概念,發(fā)現數據的散布形式,以及可能的數據特點之間的相互聯系。
分類
分類便是找出一個類別的概念描繪,它代表了這類數據的整體信息,即該類的內涵描繪,并用這種描繪來結構模型,一般用規(guī)矩或決策樹形式表明。分類是使用訓練數據集經過必定的算法而求得分類規(guī)矩。分類可被用于規(guī)矩描繪和猜測。
猜測
猜測是使用歷史數據找出變化規(guī)律,樹立模型,并由此模型對未來數據的種類及特征進行猜測。猜測關懷的是精度和不確定性,通常用猜測方差來衡量。
時序形式
時序形式是指經過時刻序列搜索出的重復發(fā)生概率較高的形式。與回歸一樣,它也是用己知的數據猜測未來的值,但這些數據的區(qū)別是變量所處時刻的不同。
誤差剖析
在誤差中包括很多有用的常識,數據庫中的數據存在很多異常情況,發(fā)現數據庫中數據存在的異常情況是非常重要的。誤差查驗的根本方法便是尋覓觀察結果與參照之間的不同。
數據挖掘和數據分析的區(qū)別
數據分析更多采用統(tǒng)計學的知識,對源數據進行描述性和探索性分析,從結果中發(fā)現價值信息來評估和修正現狀。數據挖掘不僅僅用到統(tǒng)計學的知識,還要用到機器學習的知識,這里會涉及到模型的概念。數據挖掘具有更深的層次,來發(fā)現未知的規(guī)律和價值。
更多相關知識請點擊:
了解更多會計考試資訊,可以點擊查看東奧cma頻道。