時(shí)間:2023-03-16 17:32:07
導(dǎo)言:作為寫(xiě)作愛(ài)好者,不可錯(cuò)過(guò)為您精心挑選的10篇數(shù)據(jù)挖掘技術(shù)論文,它們將為您的寫(xiě)作提供全新的視角,我們衷心期待您的閱讀,并希望這些內(nèi)容能為您提供靈感和參考。
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無(wú)法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類,無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
2.綜合應(yīng)用性強(qiáng)數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛地應(yīng)用在統(tǒng)計(jì)工作中的多個(gè)領(lǐng)域,并且發(fā)揮著重要的作用。數(shù)據(jù)挖掘技術(shù)不僅是一種綜合應(yīng)用性強(qiáng)的技術(shù)手段,同時(shí)又能滿足統(tǒng)計(jì)數(shù)據(jù)使用者的特定數(shù)據(jù)需要。因此,數(shù)據(jù)挖掘技術(shù)能夠?qū)?jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行定向的整理和開(kāi)發(fā),為數(shù)據(jù)使用者提供更好的服務(wù)。
3.宏觀型的數(shù)據(jù)庫(kù)有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前,我國(guó)的經(jīng)濟(jì)統(tǒng)計(jì)大多還是采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)方法,統(tǒng)計(jì)收集的數(shù)據(jù)信息不能形成有機(jī)整體,在對(duì)數(shù)據(jù)進(jìn)行管理過(guò)程中,出現(xiàn)了很多問(wèn)題。因此。經(jīng)濟(jì)統(tǒng)計(jì)工作需要能夠提供數(shù)據(jù)整理開(kāi)發(fā)的新技術(shù)。宏觀經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫(kù),為數(shù)據(jù)挖掘技術(shù)的開(kāi)展提供了平臺(tái)。數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)信息要正確無(wú)誤,然后經(jīng)過(guò)數(shù)據(jù)挖掘技術(shù)的整合,就能得到更豐富的數(shù)據(jù)資源。
二、數(shù)據(jù)挖掘技術(shù)的運(yùn)用
數(shù)據(jù)挖掘技術(shù)的特性決定了其對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)整理的重要性,經(jīng)濟(jì)統(tǒng)計(jì)所得到的數(shù)據(jù)信息要求必須有實(shí)用性和真實(shí)性,數(shù)據(jù)挖掘技術(shù)的特性正好滿足了經(jīng)濟(jì)統(tǒng)計(jì)工作的需要。數(shù)據(jù)挖掘的過(guò)程主要包括以下四種方法:
1.預(yù)處理方法首先,要對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行預(yù)處理。由于經(jīng)濟(jì)統(tǒng)計(jì)信息在收集過(guò)程中存在一些問(wèn)題,導(dǎo)致收集到的數(shù)據(jù)存在缺失和模糊現(xiàn)象,這種有缺憾的數(shù)據(jù)信息不能作為數(shù)據(jù)挖掘的基礎(chǔ),因此一定要對(duì)數(shù)據(jù)挖掘?qū)ο筮M(jìn)行事先的處理。其中包括對(duì)基礎(chǔ)數(shù)據(jù)中不正確、不真實(shí)、不準(zhǔn)確和偏差較大的數(shù)據(jù)進(jìn)行甄別。
2.集成化處理方法其次,要對(duì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行集成化處理。經(jīng)濟(jì)統(tǒng)計(jì)過(guò)程中,會(huì)出現(xiàn)對(duì)多個(gè)數(shù)據(jù)源進(jìn)行重疊統(tǒng)計(jì)的現(xiàn)象,這就要求對(duì)數(shù)據(jù)進(jìn)行挖掘之前,要有一個(gè)統(tǒng)一整理的過(guò)程,即數(shù)據(jù)的集成化處理。數(shù)據(jù)集成在統(tǒng)計(jì)中被廣泛的使用。經(jīng)過(guò)數(shù)據(jù)集成處理的統(tǒng)計(jì)信息更加全面,更加真實(shí),可以作為數(shù)據(jù)挖掘基礎(chǔ)信息。
3.轉(zhuǎn)換方法再有,要對(duì)統(tǒng)計(jì)數(shù)據(jù)根據(jù)需要進(jìn)行轉(zhuǎn)換。經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的描述形式比較單一,為了滿足數(shù)據(jù)信息使用者的需要,就要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其的表現(xiàn)形式具有泛化或是更加規(guī)范。這里所說(shuō)的泛化指的是利用更深層次和更加抽象的定義來(lái)代替原有的低層數(shù)據(jù)。
4.決策樹(shù)方法除卻上述四種處理方法外,還有決策樹(shù)方法,指的是對(duì)龐雜的經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分類,把有利用價(jià)值的統(tǒng)計(jì)數(shù)據(jù)提煉出來(lái),這種數(shù)據(jù)挖掘形式能夠?qū)Ψ治鰧?duì)象進(jìn)行體現(xiàn),并能快速的對(duì)信息進(jìn)行分類處理,能夠解決在經(jīng)濟(jì)統(tǒng)計(jì)過(guò)程中出現(xiàn)的各種問(wèn)題。
二、Web數(shù)據(jù)挖掘技術(shù)的工作流程
Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個(gè)步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來(lái)作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計(jì)詞典中獲取所要挖掘的目標(biāo)的特征向量,并計(jì)算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過(guò)搜索引擎站點(diǎn)選擇采集站點(diǎn),然后通過(guò)Robot程序采集靜態(tài)的Web頁(yè)面,最后再獲取這些被訪問(wèn)站點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的動(dòng)態(tài)信息,然后生成WWW資源庫(kù)索引;第四步,進(jìn)行信息特征匹配,通過(guò)提取源信息的特征向量,去和目標(biāo)樣本的特征向量進(jìn)行匹配,最后將符合閾值條件的信息返回個(gè)用戶。
三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書(shū)館中的應(yīng)用
高校數(shù)字圖書(shū)館為師生主要提供以下功能:查找圖書(shū)、期刊論文、會(huì)議文獻(xiàn)等數(shù)字資源;圖書(shū)借閱、歸還等服務(wù);圖書(shū)信息、管理制度;導(dǎo)航到圖書(shū)光盤(pán)、視頻資源等數(shù)據(jù)庫(kù)系統(tǒng)。師生時(shí)常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學(xué)專業(yè)、研究方向不同,關(guān)注目標(biāo)也不同。通常這類師生會(huì)到常用的圖書(shū)館網(wǎng)站上,查找自己所需要的特定領(lǐng)域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識(shí)增加,而且所有改變常常是用戶所關(guān)注的內(nèi)容;另外,當(dāng)目標(biāo)網(wǎng)頁(yè)所在的位置有所改變或這個(gè)網(wǎng)站的組織結(jié)構(gòu)、層次關(guān)系有所變動(dòng)時(shí),所有這些問(wèn)題只要稍加改動(dòng),容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術(shù)與搜索技術(shù)相結(jié)合。首先允許用戶對(duì)感興趣的內(nèi)容進(jìn)行定制,構(gòu)造數(shù)據(jù)挖掘的先驗(yàn)知識(shí),然后通過(guò)構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個(gè)性化服務(wù)頁(yè)面,并提供用戶對(duì)站內(nèi)信息進(jìn)行搜索功能,同時(shí)可以滿足師生對(duì)于圖書(shū)館資源進(jìn)行查找訪問(wèn)的需求,實(shí)現(xiàn)高校圖書(shū)館網(wǎng)站資源真正意義上的個(gè)性化服務(wù)。
1、為開(kāi)發(fā)網(wǎng)絡(luò)信息資源提供了工具
數(shù)字圖書(shū)館需要的是一種可以有效的將信息進(jìn)行組織管理,同時(shí)還能夠?qū)π畔⑦M(jìn)行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識(shí)服務(wù),提供經(jīng)過(guò)加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識(shí)產(chǎn)品的工具。目前許多高校數(shù)字圖書(shū)館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對(duì)數(shù)據(jù)只能進(jìn)行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對(duì)網(wǎng)絡(luò)信息資源的一種浪費(fèi)。而通過(guò)Web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問(wèn)題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進(jìn)一步進(jìn)行處理,得到更為有用和精確的信息。通過(guò)Web數(shù)據(jù)挖掘技術(shù)科研對(duì)數(shù)字圖書(shū)關(guān)注中的信息進(jìn)行更加有效地整合。
2、為以用戶為中心的服務(wù)提供幫助
通過(guò)瀏覽器訪問(wèn)數(shù)字圖書(shū)館后,可被記載下來(lái)的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問(wèn)記錄。其中用戶信息包括了用戶名,用戶訪問(wèn)IP地址,用戶的職業(yè)、年齡、愛(ài)好等。用戶名師用戶登錄圖書(shū)館時(shí)輸入,用戶訪問(wèn)IP地址通過(guò)程序獲得,其他的信息都是用戶在注冊(cè)時(shí)所填寫(xiě)的,訪問(wèn)記錄則是在用戶登錄時(shí)所記錄的,也是由程序獲得。對(duì)這些用戶信息進(jìn)行分析可以更加有效的了解用戶的需求通過(guò)分析服務(wù)器中用戶請(qǐng)求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對(duì)信息資源采集的改進(jìn),讓高校數(shù)字圖書(shū)館的信息資源體系建設(shè)的更加合理。對(duì)數(shù)字圖書(shū)館系統(tǒng)的在線調(diào)查、留言簿、薦書(shū)條等的數(shù)據(jù)進(jìn)行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫(kù),然后在通過(guò)數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時(shí)還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計(jì)劃。通過(guò)Web數(shù)據(jù)挖掘,可以對(duì)用戶的信息需求和行為規(guī)律進(jìn)行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時(shí)間找到自己所需要的資源。例如可以通過(guò)路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問(wèn)的路徑,調(diào)整站點(diǎn)結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書(shū)條。
3、Web數(shù)據(jù)挖掘技術(shù)在圖書(shū)館采訪工作中的應(yīng)用
在圖書(shū)館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會(huì)直接的對(duì)圖書(shū)館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書(shū)館的工作人員會(huì)根據(jù)圖書(shū)館的性質(zhì)、服務(wù)對(duì)象及其任務(wù)來(lái)決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時(shí)候會(huì)受采訪人員的主觀意識(shí)的影響,同時(shí)這種方式也會(huì)顯得死板不靈活。很多時(shí)候會(huì)出現(xiàn)應(yīng)該購(gòu)進(jìn)的文獻(xiàn)沒(méi)有買(mǎi),不應(yīng)該買(mǎi)的文獻(xiàn)卻買(mǎi)了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因?yàn)槿狈?duì)讀者需求的了解和分析。要解決這些問(wèn)題就必須對(duì)讀者的需求進(jìn)行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問(wèn)題提供了一種較好的方法。通過(guò)對(duì)各種日志文件和采訪時(shí)獲得的數(shù)據(jù)進(jìn)行分析,可以很清楚的得到讀者需要的是什么樣的書(shū)籍、不需要的又是什么樣的書(shū)籍,從而為采購(gòu)提供各種科學(xué)合理的分析報(bào)告和預(yù)測(cè)報(bào)告。根據(jù)對(duì)分析還能幫組圖書(shū)館管理人員確定各種所需書(shū)籍的比例,從而確定哪些文獻(xiàn)應(yīng)該及時(shí)的進(jìn)行補(bǔ)充,哪些文獻(xiàn)應(yīng)該進(jìn)行剔除,對(duì)館藏機(jī)構(gòu)進(jìn)行優(yōu)化,真正的為高校里的師生提供所需要的文獻(xiàn)和資料。
4、使用Web數(shù)據(jù)挖掘技術(shù)提供個(gè)性化服務(wù)
(2)數(shù)據(jù)準(zhǔn)備:首先,對(duì)于業(yè)務(wù)目標(biāo)相關(guān)的內(nèi)部和外部數(shù)據(jù)信息進(jìn)行查找,從中找出可以用于數(shù)據(jù)挖掘的信息;其次,要對(duì)數(shù)據(jù)信息的內(nèi)容進(jìn)行全面細(xì)致分析,確定需要進(jìn)行挖掘操作的類型;然后,結(jié)合相應(yīng)的挖掘算法,將數(shù)據(jù)轉(zhuǎn)化稱為相應(yīng)的分析模型,以保證數(shù)據(jù)挖掘的順利進(jìn)行。
(3)數(shù)據(jù)挖掘:在對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化后,就可以結(jié)合相應(yīng)的挖掘算法,自動(dòng)完成相應(yīng)的數(shù)據(jù)分析工作。
(4)結(jié)果分析:對(duì)得到的數(shù)據(jù)分析結(jié)果進(jìn)行評(píng)價(jià),結(jié)合數(shù)據(jù)挖掘操作明確分析方法,一般情況下,會(huì)用到可視化技術(shù)。
(5)知識(shí)同化:對(duì)分析得到的數(shù)據(jù)信息進(jìn)行整理,統(tǒng)一到業(yè)務(wù)信息系統(tǒng)的組成結(jié)構(gòu)中。這個(gè)步驟不一定能夠一次完成,而且其中部分步驟可能需要重復(fù)進(jìn)行。
二、數(shù)據(jù)挖掘技術(shù)在水利工程管理中的實(shí)施要點(diǎn)
水利工程在經(jīng)濟(jì)和社會(huì)發(fā)展中是非常重要的基礎(chǔ)設(shè)施,做好水利工程管理工作,確保其功能的有效發(fā)揮,是相關(guān)管理人員需要重點(diǎn)考慮的問(wèn)題。最近幾年,隨著社會(huì)經(jīng)濟(jì)的飛速發(fā)展,水利工程項(xiàng)目的數(shù)量和規(guī)模不斷擴(kuò)大,產(chǎn)生的水利科學(xué)數(shù)據(jù)也在不斷增加,這些數(shù)據(jù)雖然繁瑣,但是在許多科研生產(chǎn)活動(dòng)和日常生活中都是不可或缺的。例如,在對(duì)洪澇、干旱的預(yù)防以及對(duì)生態(tài)環(huán)境問(wèn)題的處理方面,獲取完整的水利科學(xué)數(shù)據(jù)是首要任務(wù)。那么,針對(duì)日益繁雜的海量水利科學(xué)數(shù)據(jù),如何對(duì)有用的信息知識(shí)進(jìn)行提取呢?數(shù)據(jù)挖掘技術(shù)的應(yīng)用有效的解決了這個(gè)問(wèn)題,可以從海量的數(shù)據(jù)信息中,挖掘出潛在的、有利用價(jià)值的知識(shí),為相關(guān)決策提供必要的支持。
1.強(qiáng)化數(shù)據(jù)庫(kù)建設(shè)
要想對(duì)各類數(shù)據(jù)進(jìn)行科學(xué)有效的收集和整理,就必須建立合理完善的數(shù)據(jù)庫(kù)。對(duì)于水利工程而言,應(yīng)該建立分類數(shù)據(jù)庫(kù),如水文、河道河情、水量調(diào)度、防洪、汛情等,確保數(shù)據(jù)的合理性、全面性和準(zhǔn)確性,選擇合適的方法,對(duì)有用數(shù)據(jù)進(jìn)行挖掘。
2.合理選擇數(shù)據(jù)挖掘算法
(1)關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則挖掘問(wèn)題最早提出于1993年,在當(dāng)前數(shù)據(jù)挖掘領(lǐng)域,從事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,已經(jīng)成為一個(gè)極其重要的研究課題。關(guān)聯(lián)規(guī)則挖掘的主要目的,是尋找和挖掘隱藏在各種數(shù)據(jù)之間的相互關(guān)系,通過(guò)量化的數(shù)據(jù),來(lái)描述事務(wù)A的出現(xiàn)對(duì)于事務(wù)B出現(xiàn)可能產(chǎn)生的影響,關(guān)聯(lián)規(guī)則挖掘就是給定一組Item以及相應(yīng)的記錄組合,通過(guò)對(duì)記錄組合的分析,推導(dǎo)出Item間存在的相關(guān)性。當(dāng)前對(duì)于關(guān)聯(lián)規(guī)則的描述,一般是利用支持度和置信度,支出度是指產(chǎn)品集A、B同時(shí)出現(xiàn)的概率,置信度則是在事務(wù)集A出現(xiàn)的前提下,B出現(xiàn)的概率。通過(guò)相應(yīng)的關(guān)聯(lián)分析,可以得出事務(wù)A、B同時(shí)出現(xiàn)的簡(jiǎn)單規(guī)則,以及每一條規(guī)則的支持度和置信度,支持度高則表明規(guī)則被經(jīng)常使用,置信度高則表明規(guī)則相對(duì)可靠,通過(guò)關(guān)聯(lián)分析,可以明確事務(wù)A、B的關(guān)聯(lián)程度,決定兩種事務(wù)同時(shí)出現(xiàn)的情況。
(2)自頂而下頻繁項(xiàng)挖掘算法:對(duì)于長(zhǎng)頻繁項(xiàng),如果采用關(guān)聯(lián)規(guī)則挖掘算法,需要進(jìn)行大量的計(jì)算分析,不僅耗時(shí)耗力,而且影響計(jì)算的精準(zhǔn)度,這時(shí),就可以采用自頂而下頻繁項(xiàng)挖掘算法,這種算法是一種相對(duì)優(yōu)秀的長(zhǎng)頻繁項(xiàng)挖掘算法,利用了事務(wù)項(xiàng)目關(guān)聯(lián)信息表、項(xiàng)目約簡(jiǎn)、關(guān)鍵項(xiàng)目以及投影數(shù)據(jù)庫(kù)等新概念與投影、約簡(jiǎn)等新方法,在對(duì)候選集進(jìn)行生成的過(guò)程中,應(yīng)該對(duì)重復(fù)分支進(jìn)行及時(shí)修剪,提升算法的實(shí)際效率,從而有效解決了長(zhǎng)頻繁項(xiàng)的挖掘問(wèn)題。結(jié)合計(jì)算機(jī)實(shí)驗(yàn)以及算法分析,可以看出,這種方法是相對(duì)完善的,同時(shí)也是十分有效的。不過(guò)需要注意的是,當(dāng)支持度較大、頻繁項(xiàng)相對(duì)較短時(shí),利用關(guān)聯(lián)規(guī)則挖掘中典型的Apriori方法,可以起到更好的效果。
(3)頻繁項(xiàng)雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長(zhǎng)頻繁項(xiàng)以及段頻繁項(xiàng)的挖掘問(wèn)題,主挖掘方向是利用自頂向下挖掘策略,但是結(jié)合自底向上方法生成的非頻繁項(xiàng)集,可以對(duì)候選集進(jìn)行及時(shí)修剪,提升算法的實(shí)際效率。
1.2綜合應(yīng)用性強(qiáng)如前文所述,數(shù)據(jù)挖掘技術(shù)是一個(gè)工具系統(tǒng)而不是單一的工具,能夠?qū)崿F(xiàn)使用主體的各種信息需求,隨著現(xiàn)代社會(huì)經(jīng)濟(jì)的快速發(fā)展,當(dāng)前我國(guó)經(jīng)濟(jì)管理的各個(gè)部門(mén)都需要大量的經(jīng)濟(jì)統(tǒng)計(jì)信息來(lái)作為經(jīng)濟(jì)管理決策的基礎(chǔ)。但是因?yàn)楦鱾€(gè)管理部門(mén)經(jīng)濟(jì)管理的領(lǐng)域不同、經(jīng)濟(jì)管理的方式不同、經(jīng)濟(jì)的管理權(quán)限不同,所以相應(yīng)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)呈現(xiàn)形式的需求就不同。這就為經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)提出了更高的要求,其不僅要對(duì)符合各個(gè)經(jīng)濟(jì)管理部門(mén)需求的數(shù)據(jù)內(nèi)容進(jìn)行統(tǒng)計(jì),同時(shí)要將統(tǒng)計(jì)完成的數(shù)據(jù)換算成各種不同的呈現(xiàn)形式,并根據(jù)統(tǒng)計(jì)信息的來(lái)源和統(tǒng)計(jì)信息的計(jì)算方式對(duì)其可靠性進(jìn)行評(píng)估[2]。最終這些數(shù)據(jù)信息的輸出格式還應(yīng)該符合所服務(wù)的經(jīng)濟(jì)管理部門(mén)管理系統(tǒng)的格式要求,保證統(tǒng)計(jì)數(shù)據(jù)能夠在管理部門(mén)的管理系統(tǒng)中正常錄入、應(yīng)用,數(shù)據(jù)挖掘技術(shù)很好地滿足了上述的復(fù)雜經(jīng)濟(jì)數(shù)據(jù)管理要求,其功能的綜合性促進(jìn)了其應(yīng)用深度的提高和范圍的擴(kuò)大。
1.3宏觀數(shù)據(jù)庫(kù)有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前因?yàn)榻?jīng)濟(jì)管理部門(mén)的職權(quán)較為分散,各個(gè)經(jīng)濟(jì)管理部門(mén)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)需求不盡相同。所以我國(guó)的經(jīng)濟(jì)統(tǒng)計(jì)活動(dòng)絕大多數(shù)還采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)方法,統(tǒng)計(jì)收集的經(jīng)濟(jì)信息存在一定的局限性,不能夠服務(wù)于經(jīng)濟(jì)管理活動(dòng)的整體,或者造成一些數(shù)據(jù)統(tǒng)計(jì)工作的重復(fù),對(duì)經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)工作造成了一系列的質(zhì)量和效率上的影響。經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)急需一個(gè)能夠整合各個(gè)統(tǒng)計(jì)系統(tǒng),實(shí)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)信息融合的新技術(shù)。宏觀經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫(kù)為數(shù)據(jù)挖掘技術(shù)的開(kāi)展提供了平臺(tái),數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)信息要正確無(wú)誤,然后經(jīng)過(guò)數(shù)據(jù)挖掘技術(shù)的整合,就能得到更加豐富的數(shù)據(jù)資源[3]。
2數(shù)據(jù)挖掘技術(shù)的應(yīng)用
在社會(huì)經(jīng)濟(jì)管理活動(dòng)中,管理主體對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的要求主要有兩個(gè)。一個(gè)是統(tǒng)計(jì)數(shù)據(jù)的真實(shí)性、一個(gè)是數(shù)據(jù)統(tǒng)計(jì)信息的實(shí)用性。單就這兩個(gè)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)要求而言,數(shù)據(jù)挖掘技術(shù)能夠很好地滿足經(jīng)濟(jì)統(tǒng)計(jì)工作的需求,是適用性極強(qiáng)的一種經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)技術(shù),其在具體的經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)中主要有以下三種應(yīng)用方法。
2.1預(yù)處理方法在經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)中,最為基礎(chǔ)的一種處理方式就是經(jīng)濟(jì)數(shù)據(jù)的預(yù)處理方法,因?yàn)閿?shù)據(jù)挖掘本身是一種基于提供基礎(chǔ)信息的智能分析技術(shù)。其本身是受基礎(chǔ)經(jīng)濟(jì)信息限制的,不可能無(wú)中生有代替經(jīng)濟(jì)數(shù)據(jù)收集系統(tǒng)的功能。所以所有作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息都應(yīng)該進(jìn)行預(yù)處理,處理的內(nèi)容主要包括對(duì)這些數(shù)據(jù)中不正確、不真實(shí)、不準(zhǔn)確,以及不同經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息之間差距較大的現(xiàn)象。對(duì)這些基礎(chǔ)數(shù)據(jù)存在的問(wèn)題進(jìn)行處理的過(guò)程被稱為數(shù)據(jù)清理,當(dāng)前數(shù)據(jù)清理主要采用的方法有均值法、平滑法和預(yù)測(cè)法。其中均值法是現(xiàn)代分析技術(shù)中模糊理念的一種應(yīng)用形式,當(dāng)基礎(chǔ)數(shù)據(jù)中的一個(gè)數(shù)據(jù)點(diǎn)是空值或者噪聲數(shù)據(jù)的時(shí)候,可以采用均值法進(jìn)行處理,即用數(shù)據(jù)庫(kù)中所有該屬性已知的屬性均值來(lái)填補(bǔ)空缺。保證數(shù)據(jù)挖掘系統(tǒng)對(duì)基礎(chǔ)數(shù)據(jù)的分析和整理能夠正常進(jìn)行,得出相對(duì)而言準(zhǔn)確度較高的統(tǒng)計(jì)分析數(shù)據(jù)。其中Ci表示當(dāng)前數(shù)據(jù)點(diǎn)的取值,Cj表示當(dāng)前數(shù)據(jù)點(diǎn)前后不為空的數(shù)據(jù)點(diǎn),K表示當(dāng)前數(shù)據(jù)點(diǎn)進(jìn)行計(jì)算所取的參考數(shù)據(jù)點(diǎn)數(shù)量[4]。平滑法依然是對(duì)基礎(chǔ)數(shù)據(jù)中空值和噪聲數(shù)據(jù)的計(jì)算方法,其與均值法的區(qū)別是用加權(quán)平均數(shù)代替了平均數(shù),考慮了計(jì)算過(guò)程中提取的每一個(gè)數(shù)據(jù)對(duì)數(shù)據(jù)結(jié)果的影響權(quán)重,所以計(jì)算出的結(jié)果往往更加接近真實(shí)的數(shù)值。其中Ci表示當(dāng)前數(shù)據(jù)點(diǎn)的取值,Cj表示當(dāng)前數(shù)據(jù)點(diǎn)前后不為空的數(shù)據(jù)點(diǎn),K表示為對(duì)當(dāng)前數(shù)據(jù)點(diǎn)進(jìn)行計(jì)算所取的數(shù)據(jù)點(diǎn)數(shù)量。WJ表示Cj數(shù)據(jù)點(diǎn)的權(quán)值。
2.2集成化處理方法在數(shù)據(jù)挖掘技術(shù)的應(yīng)用活動(dòng)中,因?yàn)橄嗤貐^(qū)的數(shù)據(jù)統(tǒng)計(jì)主體不同,或者在不同地區(qū)對(duì)相同經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計(jì)標(biāo)準(zhǔn)不統(tǒng)一,會(huì)產(chǎn)生一系列的數(shù)據(jù)集成問(wèn)題,如何對(duì)這些調(diào)查方向不同或者是呈現(xiàn)方式不同的數(shù)據(jù)進(jìn)行有效集成而不影響經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)的準(zhǔn)確性,是數(shù)據(jù)挖掘技術(shù)的重要任務(wù)。在具體的數(shù)據(jù)集成過(guò)程中主要考慮以下幾個(gè)方面的問(wèn)題[5]。
2.2.1模式集成當(dāng)前因?yàn)樯鐣?huì)經(jīng)濟(jì)活動(dòng)中經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計(jì)內(nèi)容過(guò)于廣泛,很多經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)并不是來(lái)自于官方的統(tǒng)計(jì)局而是來(lái)自一些民間統(tǒng)計(jì)組織,或者是由一線社會(huì)經(jīng)濟(jì)主體直接提供的經(jīng)濟(jì)數(shù)據(jù),在數(shù)據(jù)挖掘過(guò)程中將這些來(lái)自多個(gè)數(shù)據(jù)源存在多種數(shù)據(jù)呈現(xiàn)模式的經(jīng)濟(jì)數(shù)據(jù)信息進(jìn)行集成就涉及實(shí)體識(shí)別的問(wèn)題。例如在數(shù)據(jù)挖掘過(guò)程中如何確定一個(gè)數(shù)據(jù)庫(kù)中“std-id”與另一個(gè)數(shù)據(jù)庫(kù)中的“std-no”是否表示同一實(shí)體,當(dāng)前一般使用數(shù)據(jù)庫(kù)與數(shù)據(jù)庫(kù)之間的含元數(shù)據(jù)對(duì)比來(lái)保證實(shí)體識(shí)別高效率和高質(zhì)量[6]。
2.2.2冗余問(wèn)題數(shù)據(jù)挖掘本身是對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的一種深加工技術(shù),經(jīng)過(guò)其加工的經(jīng)濟(jì)統(tǒng)計(jì)技術(shù)應(yīng)該在本質(zhì)上達(dá)到最簡(jiǎn)狀態(tài)。在數(shù)據(jù)挖掘過(guò)程中要將與其他數(shù)據(jù)呈現(xiàn)某種正相關(guān)關(guān)系的數(shù)據(jù)項(xiàng)目進(jìn)行精簡(jiǎn),以保證數(shù)據(jù)庫(kù)中數(shù)據(jù)量維持在一個(gè)較低的水平,為數(shù)據(jù)管理和應(yīng)用提供便利。在經(jīng)濟(jì)數(shù)據(jù)挖掘活動(dòng)中人均國(guó)民生產(chǎn)總值就是典型的冗余屬性,因?yàn)槠鋽?shù)值是可以通過(guò)國(guó)內(nèi)生產(chǎn)總值和總?cè)丝趯傩杂?jì)算出來(lái)的,所以類似人均國(guó)民生產(chǎn)總值這種冗余屬性在數(shù)據(jù)挖掘過(guò)程中就應(yīng)該精簡(jiǎn),應(yīng)用的時(shí)候在利用國(guó)民生產(chǎn)總值和人口屬性計(jì)算得出[7]。對(duì)冗余屬性的判斷主要通過(guò)相關(guān)度對(duì)比來(lái)實(shí)現(xiàn)。其中n表示元組的個(gè)數(shù),分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標(biāo)準(zhǔn)方差,在這一公式中如果則表示A、B兩個(gè)屬性是正相關(guān),也就是說(shuō)A越大B就越大,值越高二者的正相關(guān)關(guān)系就越密切;如果則表示屬性A、B之間沒(méi)有直接關(guān)系,是相互獨(dú)立的;如果則表示A、B兩個(gè)屬性呈負(fù)相關(guān),屬性B會(huì)隨著屬性A的減小而增大,的絕對(duì)值越大,二者的負(fù)相關(guān)關(guān)聯(lián)關(guān)系就越密切。
2.3決策樹(shù)方法在數(shù)據(jù)挖掘技術(shù)應(yīng)用過(guò)程中,經(jīng)過(guò)系統(tǒng)的分析和總結(jié)以后,分析數(shù)據(jù)的輸出是一個(gè)關(guān)鍵的環(huán)節(jié),其輸出的數(shù)據(jù)形式會(huì)對(duì)使用者的經(jīng)濟(jì)管理決策產(chǎn)生直接的影響。決策樹(shù)是一種較為常見(jiàn)的、直觀的快速分類方法。其應(yīng)用的關(guān)鍵是決策樹(shù)的構(gòu)建,具體而言主要分為兩步:第一步是利用訓(xùn)練集建立并精簡(jiǎn)一棵決策樹(shù),建立輸出分析的模型;第二步是利用構(gòu)建完畢的決策樹(shù)進(jìn)行輸入數(shù)據(jù)的分類,這一分類是一個(gè)遞歸的過(guò)程,從決策樹(shù)的根部開(kāi)始進(jìn)入到樹(shù)干、枝丫,直到輸入數(shù)據(jù)的分類滿足了某種條件而停止。在具體的應(yīng)用中停止分割的條件有兩個(gè):一個(gè)是當(dāng)一個(gè)節(jié)點(diǎn)上的所有數(shù)據(jù)都屬于同一個(gè)類別的時(shí)候;另一個(gè)是沒(méi)有分類屬性可以對(duì)輸入數(shù)據(jù)進(jìn)行再分割[8]。在決策樹(shù)構(gòu)建完成后,還要根據(jù)使用者的具體要求對(duì)決策樹(shù)進(jìn)行“剪枝”,剪枝的主要目的是要降低因?yàn)槭褂糜?xùn)練集而對(duì)決策樹(shù)本身數(shù)據(jù)輸出產(chǎn)生的起伏影響。
云計(jì)算是并行計(jì)算和分布計(jì)算以及網(wǎng)格計(jì)算的發(fā)展,是一種在海量數(shù)據(jù)大規(guī)模的集合中能動(dòng)態(tài)處理各種服務(wù)器數(shù)據(jù)資源的一類計(jì)算平臺(tái),在電子商務(wù)、商業(yè)金融、科研開(kāi)發(fā)等領(lǐng)域能得到廣泛的應(yīng)用。它具有大規(guī)模、虛擬化、高效率、通用性、廉價(jià)等特點(diǎn),能針對(duì)不同的用戶的不同需求,動(dòng)態(tài)透明地提供其所需的虛擬化計(jì)算和資源儲(chǔ)存,并能及時(shí)動(dòng)態(tài)回收當(dāng)前用戶暫不利用的數(shù)據(jù)資源以提供給其他用戶,而其廉價(jià)、通用的特點(diǎn),使得一般用戶實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)操作成為可能。目前來(lái)說(shuō),云計(jì)算的平臺(tái)已得到良好的發(fā)展,日益成熟,基于云計(jì)算的應(yīng)用已經(jīng)可以相當(dāng)方便的部署和操作其數(shù)據(jù)資源。
1.2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)是現(xiàn)代知識(shí)發(fā)現(xiàn)領(lǐng)域的一個(gè)重要技術(shù),它是指一個(gè)從隨機(jī)的大量而不完整的模糊的實(shí)際數(shù)據(jù)中提取其中某些隱含著的具有潛在價(jià)值的實(shí)用知識(shí)與信息的過(guò)程。其具體技術(shù)有特征化、聚類、關(guān)聯(lián)和預(yù)測(cè)分析等等,涉及到的高級(jí)技術(shù)領(lǐng)域有統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能等方面。
2基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架
網(wǎng)絡(luò)云的發(fā)展給數(shù)據(jù)挖掘提出了新的問(wèn)題和時(shí)代的挑戰(zhàn),同時(shí),也為數(shù)據(jù)挖掘提供了新的計(jì)算平臺(tái)和發(fā)展機(jī)遇?;谠朴?jì)算的數(shù)據(jù)挖掘系統(tǒng)平臺(tái)的發(fā)現(xiàn),解決了傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)出現(xiàn)的時(shí)代滯慢、效率較低、功能落后、成本高昂等問(wèn)題。云計(jì)算是一種商業(yè)計(jì)算模式,是網(wǎng)格計(jì)算與并行計(jì)算及分布式計(jì)算在一定程度上的商業(yè)實(shí)現(xiàn),其動(dòng)態(tài)、可伸縮的計(jì)算基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)探討文/張瑤劉輝云計(jì)算是一種在互聯(lián)網(wǎng)時(shí)代中應(yīng)運(yùn)而生的新興的網(wǎng)絡(luò)技術(shù),具有高效率、高容量、動(dòng)態(tài)處理的特點(diǎn),在社會(huì)的商業(yè)領(lǐng)域和科研領(lǐng)域表現(xiàn)出了其相當(dāng)高的應(yīng)用價(jià)值。將云計(jì)算應(yīng)用于數(shù)據(jù)挖掘平臺(tái)的構(gòu)架之中后,將能在很大程度上為現(xiàn)代社會(huì)中越來(lái)越海量的數(shù)據(jù)挖掘提供一個(gè)高效率的技術(shù)平臺(tái)。本文將結(jié)合云計(jì)算和數(shù)據(jù)挖掘的基本概念和現(xiàn)代意義,對(duì)數(shù)據(jù)挖掘的平臺(tái)構(gòu)架和相應(yīng)的關(guān)鍵技術(shù)做出簡(jiǎn)要的分析探討。摘要能力使得進(jìn)行高效的海量數(shù)據(jù)挖掘的目標(biāo)不再遙遠(yuǎn)。同時(shí),云計(jì)算SaaS功能日益被理解和標(biāo)準(zhǔn)化,使得基于云計(jì)算SaaS化的數(shù)據(jù)挖掘有了理論和技術(shù)的指導(dǎo),并具有了企業(yè)化與大眾化的發(fā)展趨勢(shì)。
2.1數(shù)據(jù)挖掘平臺(tái)構(gòu)架
建立在關(guān)系型數(shù)據(jù)庫(kù)之上的傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)構(gòu)架在現(xiàn)時(shí)代數(shù)據(jù)急劇膨脹和分析需求漸增的發(fā)展下已經(jīng)難以應(yīng)付社會(huì)的數(shù)據(jù)處理問(wèn)題。而云計(jì)算的分布式存儲(chǔ)與計(jì)算形式則接受了當(dāng)代的數(shù)據(jù)挖掘難題,促成了適應(yīng)時(shí)代的云計(jì)算數(shù)據(jù)挖掘平臺(tái)構(gòu)架的形成。其包含了面向組件的設(shè)計(jì)理念和分層設(shè)計(jì)的思想方法。其構(gòu)架自下向上總共分為3層,分別為底層的云計(jì)算支撐平臺(tái)層、中間的數(shù)據(jù)挖掘能力層和上層的數(shù)據(jù)挖掘云服務(wù)層。
2.2基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架各層意義
云計(jì)算支撐平臺(tái)層:顧名思義,該平臺(tái)層是云計(jì)算數(shù)據(jù)挖掘平臺(tái)的基礎(chǔ)處理平臺(tái),其主要具有的功能是對(duì)分布式文件存儲(chǔ)與數(shù)據(jù)庫(kù)提供資源存儲(chǔ),以及實(shí)行對(duì)數(shù)據(jù)的有關(guān)處理和計(jì)算功能。數(shù)據(jù)挖掘能力層:該平臺(tái)結(jié)構(gòu)層主要是提供挖掘的基礎(chǔ)能力,是數(shù)據(jù)挖掘的核心支撐平臺(tái),并對(duì)數(shù)據(jù)挖掘云服務(wù)層提供能力支撐。該平臺(tái)層包含了算法數(shù)據(jù)并行處理、調(diào)度引起和服務(wù)管理的框架,該平臺(tái)層可以提供系統(tǒng)內(nèi)部的數(shù)據(jù)挖掘處理和推薦算法庫(kù),亦支持第三方的數(shù)據(jù)挖掘算法工具的進(jìn)入。數(shù)據(jù)挖掘云服務(wù)層:數(shù)據(jù)挖掘云服務(wù)層的主要功能是對(duì)外提供數(shù)據(jù)挖掘操作的云服務(wù),同時(shí)也能提供基于結(jié)構(gòu)化查詢的語(yǔ)言語(yǔ)句訪問(wèn),提供相關(guān)的解析引擎,以便于自動(dòng)調(diào)用云服務(wù)。對(duì)外數(shù)據(jù)挖掘云服務(wù)能力封裝的接口形式多樣,包含了基于簡(jiǎn)單對(duì)象訪問(wèn)協(xié)議下的Webservice、XML、HTTP以及本地應(yīng)用程序的編程接口等多種形式。另外,在必要的時(shí)候,云服務(wù)層的各個(gè)業(yè)務(wù)系統(tǒng)可以進(jìn)行數(shù)據(jù)挖掘云服務(wù)的調(diào)用和組裝。
3基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架的關(guān)鍵技術(shù)探討
基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架的形成,離不開(kāi)現(xiàn)代先進(jìn)的科技技術(shù),其中幾項(xiàng)關(guān)鍵的技術(shù)應(yīng)用將在這里進(jìn)行簡(jiǎn)要的闡述:
3.1云計(jì)算技術(shù)
3.1.1分布式儲(chǔ)存技術(shù)
通過(guò)采用分布式存儲(chǔ)的方式來(lái)存儲(chǔ)數(shù)據(jù),是云計(jì)算技術(shù)保證數(shù)據(jù)處理高可靠性和經(jīng)濟(jì)性的重要保證。用可靠的軟件來(lái)彌補(bǔ)硬件的不足,是分布式存儲(chǔ)技術(shù)提供廉價(jià)而又海量的數(shù)據(jù)挖掘支持的重要途徑。
3.1.2虛擬化技術(shù)
在云計(jì)算的環(huán)境下,數(shù)據(jù)挖掘能實(shí)現(xiàn)對(duì)大量的可用的虛擬化技術(shù)的應(yīng)用、整合,發(fā)展出一套全面虛擬化的運(yùn)行戰(zhàn)略。云計(jì)算和虛擬化的共同組合,使數(shù)據(jù)挖掘?qū)崿F(xiàn)了跨系統(tǒng)下的資源調(diào)度,將海量的來(lái)源數(shù)據(jù)進(jìn)行IT資源匯合,動(dòng)態(tài)地實(shí)現(xiàn)對(duì)用戶的虛擬化資源的供給,從而以高效率、海量動(dòng)態(tài)的特點(diǎn)完成服務(wù)任務(wù)。
3.1.3并行云計(jì)算技術(shù)
并行云計(jì)算技術(shù)是一種對(duì)于高效執(zhí)行數(shù)據(jù)挖掘計(jì)算任務(wù)極其重要的技術(shù),并且它對(duì)云計(jì)算的某些技術(shù)細(xì)節(jié)做出了封裝,例如任務(wù)并行、任務(wù)調(diào)度、任務(wù)容錯(cuò)和系統(tǒng)容錯(cuò)以及數(shù)據(jù)分布等。該功能代替了用戶對(duì)這些細(xì)節(jié)的考慮,使得研發(fā)效率得到了提高。
3.2數(shù)據(jù)匯集調(diào)度中心
數(shù)據(jù)匯集調(diào)度中心的功能主要是完成對(duì)不同類型的數(shù)據(jù)進(jìn)行匯集。它實(shí)現(xiàn)了對(duì)接入該云計(jì)算數(shù)據(jù)挖掘平臺(tái)的業(yè)務(wù)數(shù)據(jù)收集匯合,能夠解決與不同數(shù)據(jù)的相關(guān)規(guī)約問(wèn)題,并能支持多樣的源數(shù)據(jù)格式。
3.3服務(wù)調(diào)度與管理技術(shù)
對(duì)于基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái),為了使不同業(yè)務(wù)系統(tǒng)能夠使用本計(jì)算平臺(tái),必須要提供相應(yīng)的服務(wù)調(diào)度與管理功能。服務(wù)調(diào)度解決云服務(wù)下的并行互斥以及隔離等問(wèn)題,以保證安全、可靠的平臺(tái)的云服務(wù)。服務(wù)管理功能要實(shí)現(xiàn)統(tǒng)一的服務(wù)注冊(cè)與服務(wù)暴露功能,并且支持接入第三方的數(shù)據(jù)挖掘,以更好地?cái)U(kuò)展平臺(tái)的服務(wù)能力。
二、在部隊(duì)食品采購(gòu)系統(tǒng)中的應(yīng)用以及其價(jià)值評(píng)價(jià)
在部隊(duì)食品采購(gòu)系統(tǒng)實(shí)際應(yīng)用工程中,其實(shí)可以運(yùn)用MicrosoftSQLServerAnalysisServices來(lái)對(duì)數(shù)據(jù)進(jìn)行分析,并且在數(shù)據(jù)挖掘過(guò)程中對(duì)多維數(shù)據(jù)進(jìn)行描述與查找起到一定作用。因?yàn)槎嗑S數(shù)據(jù)比較復(fù)雜,增長(zhǎng)的也比較快,因此,進(jìn)行手動(dòng)查找是很困難的,數(shù)據(jù)挖掘技術(shù)提供的計(jì)算模式可以很好的對(duì)數(shù)據(jù)進(jìn)行分析與查找。在建設(shè)部隊(duì)食品采購(gòu)倉(cāng)庫(kù)數(shù)據(jù)的時(shí)候,數(shù)據(jù)內(nèi)容主要包括了人員的健康、兵員的飲食以及訓(xùn)練等,進(jìn)行數(shù)據(jù)挖掘主要包括以下內(nèi)容:第一,把每個(gè)主題信息數(shù)據(jù)進(jìn)行收集、匯總、分析等,對(duì)人員情況、健康、飲食、訓(xùn)練等進(jìn)行合理分析;第二,多維分析數(shù)據(jù)信息。根據(jù)部隊(duì)的實(shí)際情況,利用數(shù)據(jù)挖掘技術(shù)對(duì)部隊(duì)人員健康、飲食、訓(xùn)練等數(shù)據(jù)信息進(jìn)行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內(nèi)在關(guān)系。根據(jù)數(shù)據(jù)庫(kù)中許多面向主題的歷史數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析與演算得到部隊(duì)人員的訓(xùn)練和健康情況與部隊(duì)飲食之間內(nèi)在關(guān)系,以便于為部隊(duì)食品采購(gòu)提供合理的、有效的保障,從而提高部隊(duì)整體人員的健康水平、身體素質(zhì)以及訓(xùn)練質(zhì)量,對(duì)提高我國(guó)部隊(duì)?wèi)?zhàn)斗力有著深遠(yuǎn)的意義。
2交互式關(guān)聯(lián)規(guī)則挖掘算法
關(guān)聯(lián)規(guī)則挖掘算法在數(shù)據(jù)庫(kù)的記錄或?qū)ο笾谐槿£P(guān)聯(lián)性,展示了數(shù)據(jù)間位置依賴關(guān)系,其目的是尋找在大量的數(shù)據(jù)項(xiàng)中隱藏著的聯(lián)系或相關(guān)性。其優(yōu)越性在于能將用戶的定制信息整合到挖掘過(guò)程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。
2.1目標(biāo)數(shù)據(jù)庫(kù)的確定
數(shù)據(jù)挖掘應(yīng)熟悉對(duì)象的背景知識(shí),明確挖掘的目標(biāo),根據(jù)目標(biāo)確定相關(guān)數(shù)據(jù),以此作為目標(biāo)數(shù)據(jù)庫(kù),來(lái)完成對(duì)數(shù)據(jù)的預(yù)處理、挖掘和規(guī)則評(píng)價(jià)。
2.2交互式關(guān)聯(lián)規(guī)則挖掘算法
表示A成立則B成立,其中給出了可信度C和支持度S??尚哦菴是對(duì)關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量,即在出現(xiàn)A的情況下出現(xiàn)B的概率;支持度S是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量,即A和B同時(shí)出現(xiàn)的概率。
3熔煉機(jī)組數(shù)據(jù)挖掘的實(shí)現(xiàn)
本文采用的是冀某工廠于2013年5月運(yùn)行的數(shù)據(jù),采樣頻率為2~3秒/次,采樣模式為實(shí)時(shí)監(jiān)測(cè)值,得到7595組數(shù)據(jù)。在分析階段,對(duì)影響機(jī)組的主要可控參數(shù)進(jìn)行了提取及預(yù)處理,參數(shù)主要包括:轉(zhuǎn)速、有功功率、主蒸汽壓力、調(diào)節(jié)級(jí)壓力、中壓缸排汽壓力。以機(jī)組轉(zhuǎn)速設(shè)計(jì)值為3600r/min為例來(lái)分析。對(duì)各個(gè)可控參數(shù)數(shù)據(jù)進(jìn)行曲線化處理,作為分析它們之間的關(guān)聯(lián)規(guī)則的數(shù)據(jù)表。上述關(guān)聯(lián)規(guī)則表示,在三種負(fù)荷工況下,工廠熔煉機(jī)組有功功率與主蒸汽壓力、調(diào)節(jié)級(jí)壓力、中壓缸排汽壓力三者之間最優(yōu)變化區(qū)間的關(guān)聯(lián)。經(jīng)分析,在機(jī)組中應(yīng)用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)方法相比,優(yōu)點(diǎn)是其可以對(duì)不同的可測(cè)參數(shù)進(jìn)行挖掘,方法簡(jiǎn)單有效、可操作性強(qiáng);運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行挖掘,對(duì)過(guò)程能夠較靈活控制,處理后的目標(biāo)值直觀,便于操作指導(dǎo)和提高運(yùn)行效率。
2、國(guó)內(nèi)外文獻(xiàn)綜述
挑選中國(guó)知網(wǎng)數(shù)據(jù)庫(kù),以“知識(shí)管理”為主題關(guān)鍵詞進(jìn)行精確檢索,共找到 31,324 篇文獻(xiàn),其中 2004 年至2014 年間共發(fā)表文獻(xiàn) 24,895 篇,近十年是知識(shí)管理領(lǐng)域研究的高峰期。以“高校知識(shí)管理”或“大學(xué)知識(shí)管理”為主題關(guān)鍵字進(jìn)行精確檢索,得到 248 篇相關(guān)文獻(xiàn),可發(fā)現(xiàn)針對(duì)高校的知識(shí)管理研究較少。針對(duì)結(jié)果進(jìn)行二次檢索,增加主題關(guān)鍵詞“數(shù)據(jù)挖掘”得到相關(guān)文獻(xiàn) 3 篇,表明對(duì)高校知識(shí)管理與數(shù)據(jù)挖掘技術(shù)結(jié)合的研究較少,所得文獻(xiàn)主要觀點(diǎn)包括:1.數(shù)據(jù)挖掘技術(shù)可用于高校知識(shí)發(fā)現(xiàn);2.數(shù)據(jù)挖掘?qū)χR(shí)管理體系建設(shè)有推動(dòng)作用;3. 高校知識(shí)管理成果可通過(guò)數(shù)據(jù)挖掘技術(shù)進(jìn)行評(píng)價(jià)。對(duì)國(guó)外學(xué)者的研究情況進(jìn)行分析,挑選 Web ofScience 數(shù)據(jù)庫(kù)。以“knowledge management”為主題關(guān)鍵字進(jìn)行檢索,共得到 62,474 篇文獻(xiàn),以“knowledgemanagement of college”為主題關(guān)鍵字檢索,得到 647篇文獻(xiàn),再結(jié)合關(guān)鍵詞“Data mining”,共得到文獻(xiàn) 5 篇。由此可見(jiàn),國(guó)外相關(guān)研究比國(guó)內(nèi)多出近一倍,并且研究的程度深、范圍廣。但關(guān)于高校知識(shí)管理與具體信息技術(shù)結(jié)合應(yīng)用的文獻(xiàn)仍較少,且發(fā)表日期多為 2010 年后。
3、知識(shí)管理與數(shù)據(jù)挖掘結(jié)合的軟件要求
知識(shí)管理與數(shù)據(jù)挖掘技術(shù)的結(jié)合運(yùn)用對(duì)高校相關(guān)設(shè)備提出了一定的要求,包括對(duì)服務(wù)器、客戶端計(jì)算機(jī)的硬件要求以及對(duì)知識(shí)管理平臺(tái)、數(shù)據(jù)挖掘工具的軟件要求,本文中將重點(diǎn)敘述軟件要求。
知識(shí)管理平臺(tái)要求
知識(shí)管理平臺(tái)是高校知識(shí)管理的實(shí)施基礎(chǔ),它為高校人員提供了可視化的操作界面,其應(yīng)實(shí)現(xiàn)的基本功能包括:1.數(shù)據(jù)接口;2.工具接口;3.數(shù)據(jù)挖掘(內(nèi)置或外接);4.知識(shí)倉(cāng)庫(kù);5.知識(shí)索引、推薦;6.信息檢索;7.組織內(nèi)交流;8. 管理評(píng)價(jià)。一個(gè)知識(shí)管理平臺(tái)應(yīng)分為:表現(xiàn)層、服務(wù)層、處理層、存儲(chǔ)層。表現(xiàn)層是面向用戶的可視化界面,用于人機(jī)交互,接受用戶的任務(wù);服務(wù)層對(duì)任務(wù)進(jìn)行調(diào)度、處理,直接執(zhí)行無(wú)需數(shù)據(jù)挖掘的任務(wù)并反饋至表現(xiàn)層,調(diào)度需要數(shù)據(jù)挖掘的任務(wù)至處理層;處理層負(fù)責(zé)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等功能;存儲(chǔ)層包括校方數(shù)據(jù)庫(kù)及知識(shí)倉(cāng)庫(kù)。具體層次如圖 1 所示。根據(jù)高校組織的特征,知識(shí)管理平臺(tái)應(yīng)在實(shí)現(xiàn)基本功能的前提下具有以下特點(diǎn):1. 接口質(zhì)量高。高校集行政、科研、社會(huì)服務(wù)等任務(wù)于一體,需要處理海量數(shù)據(jù),應(yīng)提供接口以使用專業(yè)處理工具處理復(fù)雜任務(wù),保證數(shù)據(jù)處理的效率與深度;2. 內(nèi)置數(shù)據(jù)挖掘功能。高校所含數(shù)據(jù)種類多、范圍廣,對(duì)結(jié)構(gòu)簡(jiǎn)單、數(shù)據(jù)量小的數(shù)據(jù)可直接使用內(nèi)置數(shù)據(jù)挖掘功能處理,節(jié)省時(shí)間;3. 交流功能強(qiáng)。高校為知識(shí)密集型組織,其學(xué)科、職能間存在交叉,優(yōu)秀的交流功能保證了知識(shí)的共享及創(chuàng)新。4. 完善的激勵(lì)體系。激勵(lì)體系不僅體現(xiàn)在平臺(tái)的評(píng)價(jià)功能中,更體現(xiàn)在管理人員的管理中,通過(guò)提高人員的積極性促進(jìn)知識(shí)管理進(jìn)程的實(shí)施。
數(shù)據(jù)挖掘工具要求
高校所含知識(shí)從相關(guān)對(duì)象分類可分為兩類:1. 管理知識(shí),指高校各部門(mén)(教學(xué)、后勤部門(mén)等)用于高校管理的知識(shí);2. 科研知識(shí),指各學(xué)科的專業(yè)知識(shí)。前者主要與高校行政、管理人員相關(guān),后者則與高校學(xué)者、教授關(guān)系更大。針對(duì)不同的用戶,知識(shí)管理與數(shù)據(jù)挖掘的結(jié)合運(yùn)用對(duì)數(shù)據(jù)挖掘軟件提出了不同的要求。高校行政、管理人員所面對(duì)的數(shù)據(jù)多來(lái)自高校各類信息系統(tǒng)的記錄,如:校園卡消費(fèi)信息、機(jī)房上機(jī)信息,具有量大、范圍廣、結(jié)構(gòu)一致等特點(diǎn)。用于該類數(shù)據(jù)挖掘的挖掘工具可內(nèi)置于知識(shí)管理平臺(tái)中,便于數(shù)據(jù)存取,提高挖掘速度。常用功能為預(yù)測(cè)、分類、評(píng)價(jià)三項(xiàng),主要方法可選用回歸分析、趨勢(shì)外推、特征分類、層次分析、模糊綜合評(píng)價(jià)法等。結(jié)合使用者特點(diǎn),該類挖掘工具應(yīng)提供獨(dú)立的、具有既定模式的工作界面,減少用戶與算法的接觸,挖掘結(jié)果應(yīng)具有較強(qiáng)可視性,提供圖、表界面,以便用戶理解。高??蒲兄R(shí)主要來(lái)自于學(xué)者、教授的科學(xué)研究,包括:實(shí)驗(yàn)數(shù)據(jù)、主觀推測(cè)描述等,具有專業(yè)性強(qiáng)、層次深、結(jié)構(gòu)復(fù)雜等特點(diǎn)。針對(duì)挖掘要求較低的數(shù)據(jù),可使用知識(shí)管理平臺(tái)中的內(nèi)置挖掘工具,而針對(duì)挖掘要求高的數(shù)據(jù),可選用專業(yè)數(shù)據(jù)挖掘軟件,如:Intelligent Miner、QUEST 等,通過(guò)知識(shí)管理平臺(tái)的接口進(jìn)行對(duì)接。
4、知識(shí)管理與數(shù)據(jù)挖掘結(jié)合的具體策略
知識(shí)管理的基本職能可概括為外化、內(nèi)化、中介、認(rèn)知四大部分,其中前三項(xiàng)職能對(duì)信息技術(shù)的依賴較強(qiáng),可用數(shù)據(jù)挖掘技術(shù)進(jìn)行輔助。數(shù)據(jù)挖掘的過(guò)程分為條件匹配、選擇、激活、應(yīng)用四部分,即對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,選擇相關(guān)數(shù)據(jù)記錄,根據(jù)用戶要求選擇相應(yīng)技術(shù)進(jìn)行數(shù)據(jù)挖掘,得出并解釋數(shù)據(jù)挖掘結(jié)果,最終將這些記錄應(yīng)用于實(shí)踐中。兩者的具體結(jié)合策略如下:
輔助知識(shí)管理體系建設(shè)
知識(shí)管理本質(zhì)是一個(gè)周期性管理過(guò)程,在這一過(guò)程中實(shí)現(xiàn)組織知識(shí)共享、創(chuàng)新等,最終提升組織綜合實(shí)力,其中知識(shí)管理體系建設(shè)是實(shí)現(xiàn)知識(shí)管理的宏觀條件。知識(shí)管理體系建設(shè)是一個(gè)系統(tǒng)、全面的工程,包括組織結(jié)構(gòu)調(diào)整、確定激勵(lì)制度、知識(shí)管理文化培養(yǎng)、成效評(píng)估等任務(wù)。數(shù)據(jù)挖掘技術(shù),可以為知識(shí)管理體系建設(shè)提供依據(jù),保證相關(guān)決策的科學(xué)性。數(shù)據(jù)挖掘?qū)χR(shí)管理體系建設(shè)的幫助主要體現(xiàn)在以知識(shí)主管為主的知識(shí)管理部門(mén)對(duì)高校的管理、決策當(dāng)中。知識(shí)管理部門(mén)收集并預(yù)處理外校、本校知識(shí)管理體系建設(shè)的相關(guān)數(shù)據(jù),完成輔助決策的數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)。管理人員可根據(jù)要求,從數(shù)據(jù)倉(cāng)庫(kù)中選擇數(shù)據(jù),利用對(duì)應(yīng)模型完成挖掘,通過(guò)挖掘結(jié)果對(duì)決策做出幫助。以制定激勵(lì)制度為例,管理人員選擇與高校人員喜好相關(guān)的數(shù)據(jù),如至少包含“部門(mén)”、“喜好”、“性別”字段,利用關(guān)聯(lián)算法對(duì)其進(jìn)行計(jì)算,即可得出各部門(mén)工作人員的喜好,以此為據(jù)制定相應(yīng)激勵(lì)制度。
知識(shí)外化
知識(shí)外化是指組織從組織外部獲取與本組織相關(guān)的知識(shí)、發(fā)現(xiàn)歸集組織內(nèi)部存在的知識(shí)并進(jìn)行存儲(chǔ)以備用的過(guò)程。完成知識(shí)外化的關(guān)鍵即知識(shí)發(fā)現(xiàn),其較為常用的方法包括主觀歸納、隱性知識(shí)外顯等。目前學(xué)界中較為認(rèn)可、使用較普遍的方法即數(shù)據(jù)知識(shí)發(fā)現(xiàn)(KnowledgeDiscovery in Database, KDD),指從數(shù)據(jù)集中識(shí)別出表明一定模式的、有效的、潛在的信息歸納為知識(shí)的過(guò)程。這是數(shù)據(jù)挖掘與知識(shí)管理結(jié)合應(yīng)用的最重要部分。同時(shí),數(shù)據(jù)挖掘技術(shù)只給定挖掘目標(biāo),不給出假設(shè)、前提,因此在使用數(shù)據(jù)挖掘的過(guò)程中可獲取一些計(jì)劃外的知識(shí),為知識(shí)管理提供一個(gè)可靠的知識(shí)源。此處存在兩個(gè)前提:第一,知識(shí)發(fā)現(xiàn)不能僅僅依靠信息技術(shù),更需要人員對(duì)挖掘結(jié)果進(jìn)行主觀歸納,解釋其語(yǔ)義以完成知識(shí)的推理;第二,挖掘?qū)ο笮柽M(jìn)行預(yù)處理,并轉(zhuǎn)化成邏輯數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)進(jìn)行知識(shí)發(fā)現(xiàn)有多種可用方法:利用分類和聚類分析可提供知識(shí)索引和發(fā)現(xiàn)特殊情況下的離群值和孤立點(diǎn),知識(shí)索引可細(xì)化知識(shí)所屬領(lǐng)域和確定挖掘范圍,離群值和孤立點(diǎn)可為挖掘人員提供歸納的線索,若其存在一定規(guī)律則可得出模型、規(guī)則;使用模糊技術(shù)、統(tǒng)計(jì)方法可得出對(duì)高校決策的評(píng)測(cè)分析,判斷方案的有效性,并得出模式,用于同類決策處理;使用粗糙集和主成份分析法定義知識(shí)發(fā)現(xiàn)中的主要特征,結(jié)合已有知識(shí)庫(kù)對(duì)不確定、不精準(zhǔn)的知識(shí)進(jìn)行細(xì)化;使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大量數(shù)據(jù)集各字段中潛在的聯(lián)系。以關(guān)聯(lián)規(guī)則的使用為例,選擇 Apriori 算法,挖掘目的是發(fā)現(xiàn)學(xué)生學(xué)習(xí)情況中的潛在知識(shí)。首先從數(shù)據(jù)倉(cāng)庫(kù)中選出與學(xué)生課程成績(jī)相關(guān)的數(shù)據(jù)集,包括姓名、院系、性別、課程號(hào)、課程類別、成績(jī)等字段,進(jìn)行預(yù)處理,將字段中的取值轉(zhuǎn)化為邏輯值,代表不同語(yǔ)義,如:性別字段,男設(shè)值 1,女設(shè)值 2。操作人員設(shè)置最小支持度、置信度,通過(guò)數(shù)據(jù)挖掘工具進(jìn)行挖掘,得出關(guān)聯(lián)規(guī)則并進(jìn)行解釋。若結(jié)果顯示 XX 院系、男生、A 類別 => 成績(jī)優(yōu)秀構(gòu)成管理規(guī)則,則表示XX院系的男生對(duì)于A類別科目較感興趣,學(xué)習(xí)成績(jī)優(yōu)秀,可在歸納后存入知識(shí)倉(cāng)庫(kù)。
知識(shí)內(nèi)化、中介
知識(shí)內(nèi)化是發(fā)現(xiàn)特定人員知識(shí)需求,并為其提供相應(yīng)知識(shí)的過(guò)程,內(nèi)化的關(guān)鍵是對(duì)知識(shí)的聚類、對(duì)人員的興趣挖掘。知識(shí)中介是指組織中存在一定量無(wú)法編碼儲(chǔ)存的知識(shí),針對(duì)這些知識(shí),通過(guò)一定手段,將知識(shí)的需求者與知識(shí)來(lái)源進(jìn)行匹配,為兩者提供交流的途徑。數(shù)據(jù)挖掘在知識(shí)內(nèi)化、中介中所起的作用主要是對(duì)高校人員特征的挖掘。在利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)知識(shí)后,通過(guò)知識(shí)管理平臺(tái)進(jìn)行分類存儲(chǔ)、添加索引,作為備選。對(duì)高校人員數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行挖掘,可利用聚類分析、預(yù)測(cè)模型等,得出特定人員的特長(zhǎng)領(lǐng)域、興趣愛(ài)好,從而根據(jù)先前設(shè)置的知識(shí)索引為其提供信息。若定期對(duì)人員特征數(shù)據(jù)進(jìn)行挖掘,并根據(jù)結(jié)果為高校人員推送相關(guān)知識(shí)、信息,即可實(shí)現(xiàn)個(gè)性化推送,其推送內(nèi)容由人員特征數(shù)據(jù)決定。高校組織中擁有大量教授、學(xué)者,其所擁有的知識(shí)是一筆巨大財(cái)富,加強(qiáng)相關(guān)領(lǐng)域間人員的交流、溝通,可以促進(jìn)知識(shí)共享、創(chuàng)新,提升組織綜合實(shí)力,這正是知識(shí)管理中介職能的作用。通過(guò)上文中相同的挖掘方法,在對(duì)教授、學(xué)者特征進(jìn)行挖掘后,對(duì)他們的研究方向進(jìn)行聚類分析,由挖掘結(jié)果,為相關(guān)人員提供合適的建議、利用知識(shí)管理平臺(tái)為特征相似或同一聚類中的教授、學(xué)者提供交流的途徑,進(jìn)而促進(jìn)知識(shí)的共享。
數(shù)據(jù)挖掘技術(shù)推動(dòng)圖書(shū)館管理
圖書(shū)館是高校組織中的特殊資源,含有大量精確或模糊、成型或不成型的知識(shí),是一種實(shí)體的知識(shí)倉(cāng)庫(kù)。對(duì)圖書(shū)館的有效管理有助于高校知識(shí)管理的實(shí)施。目前,已有不少圖書(shū)館專家將數(shù)據(jù)挖掘技術(shù)引入圖書(shū)館管理,提出了針對(duì)圖書(shū)館的數(shù)據(jù)挖掘應(yīng)用理論。圖書(shū)館數(shù)據(jù)挖掘?qū)ο笾饕ㄈ齻€(gè):1.圖書(shū)信息;2.讀者信息 3. 讀者借閱信息。通過(guò)對(duì)三者挖掘結(jié)果的綜合,可為圖書(shū)館資源建設(shè)、讀者服務(wù)、個(gè)性化服務(wù)提供幫助。根據(jù)挖掘結(jié)果分析,可做到客觀、合理引入資源,做到讓數(shù)據(jù)說(shuō)話而不是讓管理人員說(shuō)話,減少了管理人員個(gè)體的主觀影響,使高校圖書(shū)館經(jīng)費(fèi)發(fā)揮最大效用;提升讀者服務(wù)質(zhì)量,在讀者進(jìn)行檢索時(shí)減少等待時(shí)間,改變以往被動(dòng)檢索的情況,通過(guò)用戶數(shù)據(jù)挖掘?yàn)橛脩籼峁┲鲃?dòng)的信息推送;提供個(gè)性化服務(wù),以挖掘結(jié)果為依據(jù),針對(duì)不同用戶提供不同服務(wù),比如不同的圖書(shū)館系統(tǒng)管理界面。
充分發(fā)揮管理職能
知識(shí)管理是一個(gè)系統(tǒng)工程,包含平臺(tái)開(kāi)發(fā)、體系構(gòu)建、文化培養(yǎng)等,其在實(shí)踐中設(shè)計(jì)大量的數(shù)據(jù)操作。數(shù)據(jù)挖掘技術(shù)可在知識(shí)管理的實(shí)踐過(guò)程中為各項(xiàng)信息處理工作提供支撐,從而為操作人員提供便利,間接縮短知識(shí)管理的周期時(shí)間。將高校知識(shí)管理與數(shù)據(jù)挖掘技術(shù)相結(jié)合可有效促進(jìn)知識(shí)管理具體操作中的工作效率。兩者的結(jié)合對(duì)高校人員管理具有積極作用,數(shù)據(jù)挖掘與知識(shí)管理在實(shí)踐中相互影響,提升操作人員素養(yǎng)。數(shù)據(jù)挖掘需要專業(yè)人員進(jìn)行操作,操作人員的綜合素養(yǎng)將決定挖掘成果的質(zhì)量。知識(shí)管理可有效促進(jìn)數(shù)據(jù)挖掘人員對(duì)知識(shí)的認(rèn)知,使操作人員對(duì)不同要求所對(duì)應(yīng)的挖掘技術(shù)、模型的選擇更為準(zhǔn)確,提升挖掘成果的質(zhì)量,使知識(shí)更加清晰、獨(dú)立、可接受。
摘要:學(xué)習(xí)成績(jī)是評(píng)價(jià)學(xué)生素質(zhì)的重要方面,也是教師檢驗(yàn)教學(xué)能力、反思教學(xué)成果的重要標(biāo)準(zhǔn)。利用大連民族大學(xué)統(tǒng)計(jì)學(xué)專業(yè)本科生有關(guān)數(shù)據(jù)(專業(yè)基礎(chǔ)課成績(jī)、平時(shí)成績(jī)和回歸分析期末成績(jī)),建立多元線性回歸模型,對(duì)影響回歸分析期末成績(jī)的因素進(jìn)行深入研究,其結(jié)果對(duì)今后的教學(xué)方法改進(jìn)和教學(xué)質(zhì)量提高具有十分重要的指導(dǎo)意義。
關(guān)鍵詞:多元線性回歸;專業(yè)基礎(chǔ)課成績(jī);平時(shí)成績(jī);期末成績(jī)
為了實(shí)現(xiàn)教學(xué)目標(biāo),提高教學(xué)質(zhì)量,有效提高學(xué)生學(xué)習(xí)成績(jī)是很有必要的。我們知道專業(yè)基礎(chǔ)課成績(jī)必定影響專業(yè)課成績(jī),而且平時(shí)成績(jī)也會(huì)影響專業(yè)課成績(jī),這兩類成績(jī)與專業(yè)課成績(jī)基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問(wèn)題,本文主要選取了2016級(jí)統(tǒng)計(jì)專業(yè)50名學(xué)生的四門(mén)專業(yè)基礎(chǔ)課成績(jī)以及回歸分析的平時(shí)成績(jī)和期末成績(jī),運(yùn)用SPSS統(tǒng)計(jì)軟件進(jìn)行分析研究,尋求回歸分析期末成績(jī)影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強(qiáng)化學(xué)生的后續(xù)學(xué)習(xí)和提高老師的教學(xué)質(zhì)量提供了有利依據(jù)。
一、數(shù)據(jù)選取
回歸分析是統(tǒng)計(jì)專業(yè)必修課,也是統(tǒng)計(jì)學(xué)中的一個(gè)非常重要的分支,它在自然科學(xué)、管理科學(xué)和社會(huì)、經(jīng)濟(jì)等領(lǐng)域應(yīng)用十分廣泛。因此研究影響統(tǒng)計(jì)學(xué)專業(yè)回歸分析成績(jī)的相關(guān)性是十分重要的。
選取了統(tǒng)計(jì)專業(yè)50名學(xué)生的專業(yè)基礎(chǔ)課成績(jī)(包括數(shù)學(xué)分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時(shí)成績(jī)和期末成績(jī),結(jié)合多元線性回歸的基礎(chǔ)理論知識(shí)[1-2],建立多元回歸方程,進(jìn)行深入研究,可以直觀、高效、科學(xué)地分析各種因素對(duì)回歸分析期末成績(jī)?cè)斐傻挠绊憽?/p>
二、建立多元線性回歸模型1及數(shù)據(jù)分析
運(yùn)用SPSS統(tǒng)計(jì)軟件對(duì)回歸分析期末成績(jī)的影響因素進(jìn)行研究,可以得到準(zhǔn)確、科學(xué)合理的數(shù)據(jù)結(jié)果,全面分析評(píng)價(jià)學(xué)生考試成績(jī),對(duì)教師以后的教學(xué)工作和學(xué)生的學(xué)習(xí)會(huì)有較大幫助。自變量x1表示數(shù)學(xué)分析成績(jī),x2表示高等代數(shù)成績(jī),x3表示解析幾何成績(jī),x4表示概率論成績(jī),x5表示平時(shí)成績(jī);因變量y1表示回歸分析期末成績(jī),根據(jù)經(jīng)驗(yàn)可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關(guān)系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個(gè)基本假設(shè),
1.隨機(jī)誤差項(xiàng)具有零均值和等方差,即
(2)
這個(gè)假定通常稱為高斯-馬爾柯夫條件。
2.正態(tài)分布假定條件
由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機(jī)變量y1服從n維正態(tài)分布。
從表1描述性統(tǒng)計(jì)表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標(biāo)準(zhǔn)差分別為10.847,11.531,8.929,9.018,9.221,y1的標(biāo)準(zhǔn)差為8.141;有效樣本量n=50。
回歸分析期末成績(jī)y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過(guò)t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對(duì)y1的影響不顯著,其他自變量對(duì)y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數(shù)據(jù)分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F(xiàn)統(tǒng)計(jì)量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關(guān)系是顯著的。
四、結(jié)束語(yǔ)
通過(guò)對(duì)上述模型進(jìn)行分析,即各個(gè)自變量對(duì)因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當(dāng)數(shù)學(xué)分析成績(jī)提高一分,則回歸分析成績(jī)可提高0.242分[4-5];同理,當(dāng)解析幾何成績(jī)、概率論成績(jī)和平時(shí)成績(jī)每提高一分,則回歸分析成績(jī)分別提高0.149分、0.377分和0.293分。
通過(guò)對(duì)學(xué)生專業(yè)基礎(chǔ)課成績(jī)、平時(shí)成績(jī)與回歸分析期末成績(jī)之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學(xué)課堂,提高教師意識(shí),注重專業(yè)基礎(chǔ)課教學(xué)的重要性,同時(shí),當(dāng)學(xué)生平時(shí)成績(jī)不好時(shí),隨時(shí)調(diào)整教學(xué)進(jìn)度提高學(xué)生平時(shí)學(xué)習(xí)能力;另一方面使學(xué)生認(rèn)識(shí)到,為了更好地掌握回歸分析知識(shí),應(yīng)加強(qiáng)專業(yè)基礎(chǔ)課的學(xué)習(xí),提高平時(shí)學(xué)習(xí)的積極性。因此,通過(guò)對(duì)回歸分析期末成績(jī)影響因素的研究能有效的解決教師教學(xué)和學(xué)生學(xué)習(xí)中的許多問(wèn)題。
統(tǒng)計(jì)學(xué)畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專業(yè)“數(shù)據(jù)挖掘”課程的教學(xué)探討論文
摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)的蓬勃發(fā)展,造就了一個(gè)嶄新的大數(shù)據(jù)時(shí)代,這些變化對(duì)統(tǒng)計(jì)學(xué)專業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應(yīng)用型課程,被廣泛納入統(tǒng)計(jì)學(xué)本科專業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點(diǎn),結(jié)合實(shí)際教學(xué)經(jīng)驗(yàn),對(duì)統(tǒng)計(jì)學(xué)本科專業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程進(jìn)行教學(xué)探討,以期達(dá)到更好的教學(xué)效果。
關(guān)鍵詞:統(tǒng)計(jì)學(xué)專業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學(xué)
一、引言
通常人們總結(jié)大數(shù)據(jù)有“4V”的特點(diǎn):Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價(jià)值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價(jià)值,是這個(gè)時(shí)代帶給我們的機(jī)遇與挑戰(zhàn),同時(shí)對(duì)數(shù)據(jù)分析技術(shù)的要求也相應(yīng)提高。傳統(tǒng)教學(xué)模式并不能適應(yīng)和滿足學(xué)生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對(duì)于常常和數(shù)據(jù)打交道的統(tǒng)計(jì)學(xué)專業(yè)的學(xué)生來(lái)說(shuō),更是如此。
二、課程教學(xué)探討
針對(duì)統(tǒng)計(jì)學(xué)本科專業(yè)的學(xué)生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙?jí)或者四年級(jí)所開(kāi)設(shè),他們?cè)谇捌谝呀?jīng)學(xué)習(xí)完統(tǒng)計(jì)學(xué)、應(yīng)用回歸分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學(xué)內(nèi)容選擇上要有所取舍,同時(shí)把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學(xué)生全部掌握,對(duì)學(xué)生來(lái)說(shuō)是不太現(xiàn)實(shí)的,需要為統(tǒng)計(jì)學(xué)專業(yè)本科生“個(gè)性化定制”教學(xué)內(nèi)容。
(1)“數(shù)據(jù)挖掘”課程的教學(xué)應(yīng)該偏重于應(yīng)用,更注重培養(yǎng)學(xué)生解決問(wèn)題的能力。因此,教學(xué)目標(biāo)應(yīng)該是:使學(xué)生樹(shù)立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學(xué)生的實(shí)際動(dòng)手能力,為在大數(shù)據(jù)時(shí)代,進(jìn)一步學(xué)習(xí)各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個(gè)目標(biāo),教學(xué)內(nèi)容應(yīng)以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學(xué)生了解和掌握各種技術(shù)和方法的來(lái)龍去脈、功能及優(yōu)缺點(diǎn);以算法講解為輔,由于有R語(yǔ)言、python等軟件,學(xué)生了解典型的算法,能用軟件把算法實(shí)現(xiàn),對(duì)軟件的計(jì)算結(jié)果熟練解讀,對(duì)各種算法的改進(jìn)和深入研究則不作要求,有興趣的同學(xué)可以自行課下探討。
(2)對(duì)于已經(jīng)學(xué)過(guò)的內(nèi)容不再詳細(xì)講解,而是側(cè)重介紹它們?cè)跀?shù)據(jù)挖掘中的功能及綜合應(yīng)用。在新知識(shí)的講解過(guò)程中,注意和已學(xué)過(guò)知識(shí)的融匯貫通,既復(fù)習(xí)鞏固了原來(lái)學(xué)過(guò)的知識(shí),同時(shí)也無(wú)形中降低了新知識(shí)的難度。比如,在數(shù)據(jù)挖掘模型評(píng)估中,把混淆矩陣、ROC曲線、誤差平方和等知識(shí)點(diǎn)就能和之前學(xué)過(guò)的內(nèi)容有機(jī)聯(lián)系起來(lái)。
(3)結(jié)合現(xiàn)實(shí)數(shù)據(jù),讓學(xué)生由“被動(dòng)接收”式的學(xué)習(xí)變?yōu)椤爸鲃?dòng)探究”型的學(xué)習(xí)。在講解每種方法和技術(shù)之后,增加一個(gè)或幾個(gè)案例,以加強(qiáng)學(xué)生對(duì)知識(shí)的理解。除了充分利用已有的國(guó)內(nèi)外數(shù)據(jù)資源,還可以鼓勵(lì)學(xué)生去搜集自己感興趣的或者國(guó)家及社會(huì)大眾關(guān)注的問(wèn)題進(jìn)行研究,提升學(xué)生學(xué)習(xí)的成就感。
(4)充分考慮前述提到的三點(diǎn),課程內(nèi)容計(jì)劃安排見(jiàn)表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實(shí)踐應(yīng)用性,所以需要結(jié)合平時(shí)課堂表現(xiàn)、平時(shí)實(shí)驗(yàn)項(xiàng)目完成情況和期末考試來(lái)綜合評(píng)定成績(jī)。采取期末閉卷理論考試占50%,平時(shí)實(shí)驗(yàn)項(xiàng)目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評(píng)價(jià)學(xué)生的表現(xiàn)。
三、教學(xué)效果評(píng)估
經(jīng)過(guò)幾輪的教學(xué)實(shí)踐后,取得了如下的教學(xué)效果:
(1)學(xué)生對(duì)課程的興趣度在提升,課下也會(huì)不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問(wèn)題后會(huì)一起交流與討論。
(2)在大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目或者數(shù)據(jù)分析的有關(guān)競(jìng)賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來(lái)越多,部分同學(xué)的成果還能在期刊上正式發(fā)表,有的同學(xué)還能在競(jìng)賽中取得優(yōu)秀的成績(jī)。
(3)統(tǒng)計(jì)學(xué)專業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來(lái)完成的論文越來(lái)越多,論文的完成質(zhì)量也在不斷提高。
(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說(shuō)明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學(xué)生的學(xué)習(xí)興趣得以激發(fā)。