時間:2023-01-12 18:57:22
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇數(shù)據(jù)挖掘課程,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
2、基于模塊化方法的課程內容分析
模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養(yǎng)目標指導下,將全部教學內容按照一定標準或規(guī)則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規(guī)則有選擇性的重新組合。該方法在20世紀70年代,由國際勞工組織引入教學之中,開發(fā)出以現(xiàn)場教學為主,以技能培訓為核心的模塊化教學模式,在很多國家得到廣泛應用。由于該教學法具有針對性、靈活性、現(xiàn)實性等特點,越來越受到教育界的關注。模塊化教學本質上是以知識點與實踐的細化為出發(fā)點研究,本課程的知識點細化分為兩個層次:一是從宏觀角度,參考ACM的SIGKDD的數(shù)據(jù)挖掘課程建設建議,設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度,針對較為復雜的算法進行的知識點劃分。課程內容的一至五章屬于基礎內容模塊,介紹本課程的基礎理論和入門的數(shù)據(jù)挖掘技術;六至第八章介于基礎內容與高級主題之間,介紹數(shù)據(jù)挖掘的核心算法,可以根據(jù)學生情況進行靈活處理,可強調應用,也可深化算法介紹;第九、十章為高級主題模塊,可以作為擴展材料介紹應用,或為感興趣同學提供算法介紹;課程實踐模塊包含數(shù)據(jù)倉庫建設與數(shù)據(jù)挖掘算法的應用,難度居中,可以在引導學生思考的前提下給出實驗步驟,并引導學生使用類似的方法處理不同的數(shù)據(jù)。
3、基于模塊化方法進行重要知識點的模塊化分析
重要知識點內涵較為豐富,一般體現(xiàn)在經典數(shù)據(jù)挖掘算法上,通常一大類算法下還分有多個算法,不同算法的在難度上有漸進層次,同一種算法也有很大改進研究空間,講授彈性比較大。因此,適合使用模塊化方法進行處理,并且需要在課程設計中明確一定課時量所要達到的內容和難度?;A部分為必選內容,介紹基本概念和基本原理;決策樹作為數(shù)據(jù)挖掘分類算法的最基礎算法也是必選內容,決策樹算法有多種分類,需要進行按照難易程度進行選擇;最后要根據(jù)難度選擇其他分類算法進行介紹。
【關鍵詞】 網絡課程;數(shù)據(jù)挖掘;挖掘模式
【中圖分類號】 G40-034 【文獻標識碼】 A 【文章編號】 1009―458x(2014)09―0068―04
一、引言
隨著互聯(lián)網以及移動設備的迅速普及,人們使用網絡的時長在不斷增加,通過網絡進行學習的需求及能力也在迅速提高。據(jù)美國Ambient Insight研究報告指出,2009年美國中學以后的教育機構中,有44%的學生通過網絡進行課程學習,預計到2018年,美國通過網絡學習的學生人數(shù)將超過面授學生的總人數(shù)。在韓國,78%的高校都提供網絡教學(Allen et al. 2008)。在中國,教育部于2011年10月啟動了國家開放課程建設工作,教育部《教育信息化十年發(fā)展規(guī)劃》(2011-2020年)中也明確提出了“推動信息技術與高等教育融合,創(chuàng)新人才培養(yǎng)模式”的要求,融合的關鍵就是要選擇有效的網絡教學模式,因此,對網絡教學的質量和有效性研究正被人們所關注。
本文以Moodle網絡課程平臺為基礎,分析并提出有針對性的數(shù)據(jù)挖掘方法構架,以達到對課程建設情況和學生學習應用情況的跟蹤分析,為教師改進教學策略、提高網絡課程教學質量提供有力支持。
二、選擇Moodle網絡課程平臺的理由
之所以選擇Moodle課程管理系統(tǒng)建設網絡課程平臺,是由于Moodle課程管理系統(tǒng)是一個開源免費軟件,更主要的是其模塊化的設計非常易于課程的創(chuàng)建,能使課程教師擺脫課程網站建設的技術屏障,還可以使教師從課程內容的設計者轉變?yōu)榻虒W資源與活動的組織者。[1]
在國外Moodle系統(tǒng)的應用得到了迅速推廣。有數(shù)據(jù)顯示,使用Moodle的國家和地區(qū)有200多個,注冊使用機構有67,000多所,注冊用戶數(shù)量達5,800萬,運行課程有600多萬門。注冊用戶最多的前五位國家分別是美國、西班牙、巴西、英國和德國。[2]
三、教師所關注問題調查
根據(jù)教育部頒布的《CELTS-31教育資源建設技術規(guī)范》,將教育資源建設分為素材、課程、評價和資源管理系統(tǒng)開發(fā)四個層次。其中素材與課程是網絡教育資源建設的基礎,評價和資源管理系統(tǒng)則分別是確保質量與實現(xiàn)資源建設的工具與手段。[3]對于建設網絡課程的教師需要了解它的使用情況,從而分析課程結構是否合理,調整課程內容的分布情況,優(yōu)化網絡課程的設計,提高教學效果。
為了解教師使用網絡課程的期待值和目的性,我們采取目的抽樣和隨機抽樣相結合的方式,樣本來自筆者所在的三個教師專用QQ群人員。調查問卷設計從了解教師對網絡課程的需求、認識、應用三個主要層面展開,具體的問卷內容為四個部份:了解參與問卷教師的基本情況;了解教師對網絡技術應用的需求情況;了解教師對網絡課程的認識及使用困難所在;了解教師希望網絡課程能幫助解決教學中的哪些問題。問卷在公共專業(yè)問卷調查網站(問卷星)上,一周后回收有效問卷159份。數(shù)據(jù)分析基本報告可見鏈接:http:///report/3234099.aspx。
筆者所在院校為云南普通高校,與問卷的地圖分布情況相吻合,應該更能代表云南普通高校的普遍情況(見圖1)。
圖1 問卷來源地理分布比率圖
問卷中有96.61%的教師認為應該在教學中整合網絡技術,有38.98%的教師因為技術應用能力的不足,不夠明確如何使用網絡技術(見圖2),這說明我們建設網絡課程應該選擇如同Moodle這樣簡單易用的課程管理系統(tǒng)。
對于建設網絡課程,教師關注度較高的前4個方面是:學生學習過程參與的情況、網絡資源的使用情況、學生在線學習時間以及學生參與討論的頻度情況(見圖3)。
圖2 教師對網絡技術與教學融合的意見
圖3 教師關注信息統(tǒng)計
四、網絡課程數(shù)據(jù)挖掘模式構架
數(shù)據(jù)挖掘技術是獲取相關信息的有效技術手段。對于教師所關心的幾個方面內容,這里提供幾種可借鑒的方法:
1. 學生學習過程分析
美國教育評價專家斯克里文(G F. Scriven)在1967年所著的《評價方法論》中,提出形成性評價是為正在進行的教育活動提供反饋信息,以提高正在進行的教育活動質量的評價,是一種對學習進程的動態(tài)評價。教師和學生可以依據(jù)獲取的反饋信息了解學習狀態(tài),及時調整教學或學習。[4]
在Moodle平臺中具備學生學習進展跟蹤功能。
方法一:通過設置“課程進度跟蹤”,了解學生各項學習活動的完成情況。
如圖4所示,進入課程,在“課程管理”/“課程進度跟蹤”進行跟蹤條件設置,然后再選擇“課程管理”/“報表”/“課程進度”,就會顯示選修該門課程的所有學生的各項學習活動的完成情況。
圖4 課程進度跟蹤設置
方法二:分析學生各項學習活動的參與度。
通過選擇“課程管理”/“報表”/“課程成員”,可以詳細地顯示各項課程活動學生的參與情況,以及參與的次數(shù),更清楚地分析學生的學習努力程度。如圖5所示,列出了數(shù)據(jù)庫原理及應用這門課程的“第一部分測驗”活動、每個學生參與的次數(shù)。
方法三:采用數(shù)據(jù)挖掘手段,了解學生的學習風格。
此方法要求具備一定的數(shù)據(jù)挖掘知識及應用能力。通過Mysql系統(tǒng)提取Moodle后臺數(shù)據(jù)庫(\server\mysql\data\mysql)進行關聯(lián)規(guī)則分析。
關聯(lián)規(guī)則數(shù)據(jù)挖掘,可以發(fā)現(xiàn)學生學習行為之間的關系,通過對學生的某兩類網絡學習行為之間取值關系進行分析就可以得出它們之間的關聯(lián)性,進而預測學生將要進行的下一個行為,從而挖掘網絡學生學習行為之間的關系,使得學生學習風格顯性化。[5]
2. 課程資源利用情況分析
課程資源建設是影響網絡教學應用質量的重要因素。甘振韜等通過SQL Server的Analysis Services 工具,對網絡課程的資源配置情況,包括資源配置指數(shù)和訪問量進行分析。[6]
Moodle平臺能很直觀地呈現(xiàn)課程各項資源的訪問情況。
方法:選擇“課程管理”/“報表”/“課程活動”,課程設計的各項活動被訪問量被詳細統(tǒng)計出,如圖6所示,教師可以清楚了解課程資源的利用率情況,分析學生的學習喜好,適當調整各活動資源的配比。
圖6 課程資源訪問情況
3. 學生在線學習時間分析
對于某門課程,通過分析學生的日志,可以掌握學生的在線學習時間,以及學習時段的分布情況。
方法:點擊“課程管理”/“報表”/“日志”,其中可以設定查看所有成員或是某一個成員、所有活動或是某一項活動,以及所有日期或是某一天,學生的在線學習情況。如圖7所示。
圖7 學生日志
4. 學生參與討論的頻度分析
學生參與課程討論的頻度,可以反映學生的學習主動性,教師通過觀察可以即時進行有針對性的教學干預。
方法:選擇“課程管理”/“報表”/“課程成員”,如圖8所示,學生參與“課程聊吧”活動的情況。
圖8 學生參與討論活動的頻度
5. 學習成績分析
學生的最終學習情況需要一個成績評定,Moodle平臺的設計理念中非常強調過程性評價,它能夠記錄學生學習過程中的各項活動成績,包括師生、生生相互評價的成績,匯總成學生的最終成績。
方法一:查看教學活動的單項成績情況。
直接使用Moodle平臺所提供的課程管理功能,點擊“課程管理”/“成績”選項,打開成績管理菜單,再選擇“類別和項”下的“簡略視圖”(如圖9),可以查看教學活動過程各項匯總成績。并可以設置學習過程中各部分占總成績的比率。
方法二:對測驗試題結構分析。
在Moodle中若選擇測驗,則出現(xiàn)“測驗管理”,再選擇“測驗管理”/“統(tǒng)計”,可以得到本次測驗的統(tǒng)計分析報告。包括此測驗的標準偏差、測驗的分數(shù)分布偏度、分數(shù)的分布峰度等。還有此測驗試題的結構分析結果,包括容易度指數(shù)、試題的標準偏差等(如圖10),能讓教師科學地調整測驗的結構組成,試題的難易程度和分數(shù)的布局等。
圖10 測驗試題結構
方法三:在成績管理菜單下選擇“導出”為Excel、OpenDocument電子表格或其它文檔,再進行統(tǒng)計分析。
6. 群組分析(分組)
學生分組開展學習,可以促進學生的集體意識及合作能力的培養(yǎng),但如何分組?各分組成員真的能很好地協(xié)作嗎?這需要教師特別注意,需要考慮如何分組才能更好地激發(fā)學生的學習積極性。
方法一:選擇“課程管理”/“用戶”/“小組”,可以自主創(chuàng)建小組,也可以用“自動創(chuàng)建小組”方式創(chuàng)建,如圖11所示,就是以自動方式創(chuàng)建的小組,其中還可以指定小組數(shù)量或是每個小組成員數(shù)。這種方式設置的小組較為隨機,如果希望分組能考慮成員的凝聚性可以選擇方法二進行。
方法二:應用社會網絡分析軟件,如UCINET等,可以開展學習社群的關系距離及中心性分析,以及小團體分析等分析。通過收集學生在討論區(qū)或是聊天室中的問答的關系情況獲得分析數(shù)據(jù)。對于社會網絡結構的特征分析可以輔助判斷師生交互網絡發(fā)展的成熟程度。
五、小結
本文基于Moodle網絡課程管理系統(tǒng),介紹了教師關心的幾個方面的數(shù)據(jù)分析方法,為想要分析自己網絡課程使用情況的教師提供方法借鑒,從而教師能夠更好地調整網絡課程的內容組成、結構布局,以及教學方法策略的調整。同時,本研究也適當突破Moodle網絡課程平臺,提供了在其它網絡課程平臺中進行數(shù)據(jù)挖掘分析的方法和思路。通過幾個方面數(shù)據(jù)分析方法的整合,目的是提供一種進行網絡課程數(shù)據(jù)挖掘模式架構的研究。今后,研究還應深入底層數(shù)據(jù)的分析,提供更具通用性的網絡課程數(shù)據(jù)挖掘模式方法。
[參考文獻]
[1] 黎加厚. 信息化課程設計――Moodle 信息化學習環(huán)境創(chuàng)設[M]. 上海:華東師范大學出版社,2007.
[2] 張偉遠,段承貴. 網絡教學平臺發(fā)展的全球合作和共建共享[J]. 中國遠程教育,2012,(10):32-36.
[3] 鄧康橋. workflow技術在網絡課程開發(fā)管理系統(tǒng)中的應用研究[J].中國遠程教育,2013,(4):63-68.
[4] 劉納. 基于數(shù)據(jù)挖掘技術的網絡學習形成性評價研究[D]. 上海:華東師范大學,2012.
[5] 李素珍. 基于網絡學習行為分析的網絡學習風格與學習偏好挖掘模型研究[D]. 武漢:華中師范大學,2009.
中圖分類號:TP311 文獻標志碼:A 文章編號:1006-8228(2014)04-59-03
Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.
Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation
0 引言
近年來,傳統(tǒng)科學研究(如天文物理學、生物醫(yī)學等)、電子商務、網絡搜索引擎(如GOOGLE和百度等)和物聯(lián)網等產生的數(shù)據(jù)已經以PB或ZB(10的21次方)來計算。以分布式數(shù)據(jù)倉庫、流計算的實時數(shù)據(jù)倉庫技術為代表的最新數(shù)據(jù)存儲技術,讓全世界的數(shù)據(jù)存儲量越來越大,由人、機、物三元素高度融合構成的信息化的社會引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)處理模式的高度復雜化,大數(shù)據(jù)(Big Data)時代已經到來[1]。因此,數(shù)據(jù)具有越來越強的可視性、可操作性和可用性,能夠越來越細致、精準、全面和及時地反映人的思維、行為和情感,以及事物的特性和發(fā)展規(guī)律,要想讓這些大數(shù)據(jù)以更加有效的方式為提升人類各方面的生產力和生活質量服務,離不開以非平凡的方法發(fā)現(xiàn)蘊藏在大量數(shù)據(jù)集中的有用知識為根本目的數(shù)據(jù)挖掘技術的支撐。
市場上對于有大數(shù)據(jù)背景知識又懂數(shù)據(jù)挖掘技術的專業(yè)人才的需求也將越來越大,作為一名高校計算機專業(yè)教師,根據(jù)自己三年來研究生數(shù)據(jù)挖掘課程的授課經歷,結合當前大數(shù)據(jù)的時代背景,對數(shù)據(jù)挖掘課程教學進行了新的思考和探索。
1 明確大數(shù)據(jù)背景下學習數(shù)據(jù)挖掘知識的重要性
1.1 大數(shù)據(jù)的定義
“大數(shù)據(jù)”是最近幾年才出現(xiàn)的新名詞,尚無統(tǒng)一的概念,維基百科上的解釋是:大數(shù)據(jù)是由數(shù)量巨大、結構復雜、類型眾多數(shù)據(jù)構成的數(shù)據(jù)集合,是基于云計算的數(shù)據(jù)處理與應用模式,通過數(shù)據(jù)的整合共享,交叉復用形成的智力資源和知識服務能力。
1.2 大數(shù)據(jù)的特征
大數(shù)據(jù)的特征可以總結為四方面,即4V。
⑴ 數(shù)據(jù)量浩大(Volume)――數(shù)據(jù)集合的規(guī)模不斷擴大,已從GB到TB再到PB級,甚至開始以EB和ZB來計數(shù)。例如:1立方毫米電子顯微鏡重建出的大腦突觸網絡的圖像數(shù)據(jù)就超過1PB。
⑵ 模態(tài)繁多、異構(Variety)――大數(shù)據(jù)面向的是一切計算機可以存儲的數(shù)據(jù)格式,類型包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù),包括互聯(lián)網上的各種網頁、圖片、音頻、視頻、文檔、報表,以及搜索引擎中輸入的關鍵詞、社交網絡中的留言、喜好和各種傳感器自動收集的監(jiān)控結果等等。
⑶ 生成快速(Velocity)――大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)、快速地產生,具有很強的時效性,同時,數(shù)據(jù)自身的狀態(tài)與價值也往往隨時空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。
⑷ 價值巨大(Value)――數(shù)據(jù)顯性或隱性的網絡化存在使得數(shù)據(jù)之間的復雜關聯(lián)無所不在,將對信息科學、社會科學、網絡科學、系統(tǒng)科學、心理學、經濟學等諸多領域的研究和應用起到革命性的作用,價值巨大[2]。
Gartner、IBM和牛津大學2012年聯(lián)合的關于大數(shù)據(jù)的研究報告指出:交易數(shù)據(jù)、記錄數(shù)據(jù)、事件和電子郵件是四大主要數(shù)據(jù);數(shù)據(jù)挖掘,數(shù)據(jù)可視化,預測,建模與數(shù)據(jù)優(yōu)化是五大數(shù)據(jù)能力[3]。大數(shù)據(jù)的潛在價值只有通過數(shù)據(jù)挖掘才能顯現(xiàn),因此,國外的Google、IBM、Amazon、Oracle、Microsoft、EMC;國內的騰訊、百度、新浪、淘寶等知名企業(yè)已經開始著眼大數(shù)據(jù),從不同角度進行數(shù)據(jù)挖掘,以便改善自身服務,創(chuàng)造更大的商業(yè)價值。所以,作為高校教師,首先要讓學生了解大數(shù)據(jù)的基本特點,明確數(shù)據(jù)挖掘知識和技術對當今社會的重要意義。
2 利用概念圖,構建數(shù)據(jù)挖掘課程的知識體系結構
在大學里,設置一門課程,不能只關注這門課程所含的內容,更要考慮教育培養(yǎng)學生基本專業(yè)能力、可持續(xù)發(fā)展能力等本質性的問題。
數(shù)據(jù)挖掘是一門結合數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、神經網絡、知識系統(tǒng)、信息檢索、高性能計算和可視化等多門學科知識的交叉學科[4]。而且,該課程既包括各種理論知識,又離不開相關的實踐技術,整個教學過程是培養(yǎng)和提高學生的創(chuàng)新能力和綜合解決問題能力的重要途徑。因此,針對計算機專業(yè)的學生,教學的首要任務是構建起整個課程的核心知識結構(如圖1所示),同時,簡單介紹相關的統(tǒng)計學、機器學習等計算機專業(yè)學生不太了解的非專業(yè)知識。
課程核心知識結構是教學的主線,是學生必須要掌握的。首先,讓學生明確數(shù)據(jù)挖掘前要先經過預處理,再存入數(shù)據(jù)倉庫;其次,針對具體情況利用相關的挖掘工具和挖掘算法進行挖掘;最后,挖掘結果以可視化的形式有效地展示給用戶。教學的重點是挖掘算法和挖掘工具。對于挖掘算法,以數(shù)據(jù)挖掘國際會議ICDM(the IEEE International Conference on Data Mining)的專家評選出的十大經典算法(見表1)為主[5],結合相關實例給學生介紹各種算法的基本思想和相關概念,重點介紹使用較多的分類、聚類、關聯(lián)、序列和機器學習這幾種算法,先為學生打下良好的理論基礎。
3 以實例為切入點,注重理論結合實踐
數(shù)據(jù)挖掘課程主要針對我校研究生開設,考慮到學生就業(yè)和當前市場需求,以及課程本身實踐性強的特點,在教學過程中要注重理論結合實踐,注意培養(yǎng)學生解決實際問題的能力。因此,在給學生介紹目前常用的數(shù)據(jù)挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基礎上,結合市場應用需求,以實例為切入點,分別分析數(shù)據(jù)挖掘在互聯(lián)網日志分析、電子郵件分析、互聯(lián)網廣告挖掘、電子商務、移動互聯(lián)網等各大領域中的實際應用情況和成功案例(表2)。同時,還可以從內容挖掘、結構挖掘和用戶訪問模式挖掘這三個方面簡單介紹WEB挖掘的基本知識[6]。這樣,課程本身就脫離了枯燥的理論,讓學生對數(shù)據(jù)挖掘有了感性認識,激發(fā)學習興趣。
⑵ 過濾垃圾郵件。\&互聯(lián)網廣告\&⑴ 通過大數(shù)據(jù)挖掘,精準定位各類客戶的廣告形式;
⑵ 準確評估廣告效果。\&電子商務\&用數(shù)據(jù)提升整體營銷;通過日志挖掘做客戶分析;用序列算法分析商品上架時間;用聚類算法對商品分類、提升會員管理。\&移動互聯(lián)網\&⑴ 鎖定用戶的數(shù)據(jù)價值,通過地理位置信息挖掘出有價值的東西;
⑵ 文本挖掘。\&]
在教學過程中,貫穿以“能力培養(yǎng)為目標”的實踐教學理念,提供有效的網絡資源,讓學生自己動手動腦,分析成功案例,完成教師給定的虛擬挖掘任務,強化學生參與意識,教師在以學生為主體的教學過程中當好指導者和激勵者,從而充分調動學生的主觀能動性,掌握不同應用領域大數(shù)據(jù)的挖掘問題的基本解決方法,培養(yǎng)學生的創(chuàng)新能力。例如,給學生一個文本挖掘的分類題目,讓他們熟悉從原始數(shù)據(jù)的清洗、預處理、降維、建立模型、測試、得到結論等一系列環(huán)節(jié)。
4 改革教學評價,實施分類化評價
數(shù)據(jù)挖掘課程是一門融合了多個學科的實踐性很強的課程,對應的考核方式應該與其他專業(yè)課程有所區(qū)別,應該更重視學生學習過程中的表現(xiàn)和能力的提升。
理論知識的考核注重學生對數(shù)據(jù)挖掘基本概念、挖掘流程和主要挖掘算法的掌握情況,主要以試卷考核的方式為主,注意主觀題和客觀題的數(shù)量比例,采用統(tǒng)一考核方式和評判標準。對于實踐技能的考核,主要強調的是學生對不同類型數(shù)據(jù)進行挖掘時應掌握的相關軟件使用技能的考查,考核時除了要體現(xiàn)學生對實驗原理的掌握外,更重要的是要反映出學生在實驗方法的掌握、設計、操作過程中的實際能力,我們取消了以往把一次性考試結果作為總成績的方法,而把學生平時課堂實驗成績作為總成績的主要部分,考核成績占課程總成績一定比例。
教師教學質量的評價與學生考核成績相對應,可采用單獨評價和統(tǒng)一評價兩種方式。單獨評價是指將社會實踐作為一個獨立的質量評價過程對教師教學質量進行考核;統(tǒng)一評價是指將教師實踐教學與理論教學綜合起來統(tǒng)一考核,以一定比例計入教師總體評價。
無論是對學生,還是對教師,這種分類化的教學評價方式,不僅有利于學生實際能力的培養(yǎng),而且對教師的教學水平也是一種促進,有利于課程教學質量的不斷提高。
5 結束語
大數(shù)據(jù)時代,誰能發(fā)掘出數(shù)據(jù)背后的巨大商業(yè)和社會價值,誰就能在激烈的市場競爭中處于優(yōu)勢。數(shù)據(jù)挖掘作為計算機應用專業(yè)的研究生核心課程之一,也是學生今后就業(yè)必需的專業(yè)技能之一。以往的教學過程理論性強,枯燥乏味,考核形式單一,學生學習熱情普遍不高,不利于學生專業(yè)能力的培養(yǎng)。本文結合當前大數(shù)據(jù)的時代背景,在構架課程核心知識體系的前提下,結合實際應用領域和案例,分析數(shù)據(jù)挖掘常見算法和常用工具,強調學生的參與和主觀能動性的發(fā)揮,而采用分類化的教學評價又能比較客觀、公正地評價學生對課程知識和專業(yè)實踐技能的掌握情況以及教師的教學效果。課程開設三年來的教學實踐證明,學生綜合運用計算機專業(yè)知識的能力得到提高,理論與實踐結合的創(chuàng)新能力得到鍛煉,教師在教學過程中不斷完善了自身的知識結構,提高了教學水平,實現(xiàn)了教學相長,得到了學生的好評。
參考文獻:
[1] Anand Rajaraman, Jeffrey David Ullman.大數(shù)據(jù):互聯(lián)網大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].人民郵電出版社,2012.
[2] 李國杰.大數(shù)據(jù)研究的科學價值[J].中國計算機學會通訊,2012.8:8-15
[3] Jiawei Han,Micheline Kamber,Jian Pei等.數(shù)據(jù)挖掘概念與技術(第3版)[M].機械工業(yè)出版社,2012.
二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標
數(shù)據(jù)挖掘課程是一門綜合性很強的前沿學科,對計算機軟硬件、數(shù)據(jù)庫、人工智能技術、統(tǒng)計學算法、優(yōu)化算法等基礎知識都有較高的要求。因此該門課程開設在學生大三下學期,既有相關知識的基礎,又為大四做畢業(yè)設計提供了一種思路。信息管理專業(yè)是計算機與管理相結合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開發(fā)能力與信息資源分析與處理能力的綜合應用型人才。對信息管理專業(yè)的學生而言,本課程主要的目標是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務管理問題中的應用以及常用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘軟件的熟練應用和二次開發(fā)。
三、基于模塊化方法的課程內容分析
模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養(yǎng)目標指導下,將全部教學內容按照一定標準或規(guī)則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學生可以根據(jù)個人興趣和職業(yè)取向在不同模塊之間進行選擇和搭配,從而實現(xiàn)不同的教學目標和人才培養(yǎng)要求。模塊化教學本質上是以知識點與實踐的細化為出發(fā)點研究的。商務智能方法本身非常豐富,實踐應用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度針對較為復雜的教學內容進行的知識點劃分。
1.課程主要內容模塊化分析。目前該課程包括十章理論內容,分別為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本知識、數(shù)據(jù)倉庫的OLAP技術、數(shù)據(jù)預處理、數(shù)據(jù)挖掘系統(tǒng)的結構、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫中的關聯(lián)規(guī)則、分類與預測、聚類分析、復雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內容的第一至五章屬于基礎理論部分和簡單數(shù)據(jù)挖掘技術的介紹,可以作為基礎內容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎理論與技術方法,又可深入到較難的方法和復雜的應用,因此介于基礎內容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數(shù)據(jù)倉庫的建設又包含數(shù)據(jù)挖掘算法的應用,難度也介于基礎內容與高級主題之間。
2.復雜知識點的模塊化管理。從微觀角度對知識點進行設計主要針對的是上述的高級主題、以及難度介于基礎內容與高級主題之間的章節(jié),由于這些章節(jié)知識點在難度上有一定層次,講授內容彈性比較大,因此需要在課程設計中明確一定課時量所要達到的難度。以商務智能技術中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎算法———決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預測時,還要分析預測準確度;最終要將所學知識加以應用。這樣就形成了一個結構清晰、難度循序漸進的知識點模塊的層次關系。在宏觀角度、微觀角度對教學內容進行分類的前提下進行相應的授課方法與考查方法的研究,才能真正有助于學生的學習。
四、授課與考核方法設計
對不同層次學生要求不同,這種不同既體現(xiàn)在知識點的要求上,又直接體現(xiàn)在任務的難易性程度上,這都需要教師在課程設計時充分考慮不同要求情況下的不同的授課方式,并使學生清楚自己需要掌握的程度。對于高級算法和實現(xiàn)部分,通??梢赃x擇一到兩章內容采用專題探討式的教學方法。這種方法是指在教師啟發(fā)和引導下,以學生為主體,選擇某個基本教學單元為專題,學生自主研究作為知識傳遞的基本形式,將多種靈活的教學方式綜合運用到教學環(huán)節(jié)的教學方法。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標、以及對學生調研的情況,實踐環(huán)節(jié)比較適合選擇成熟的商務智能工具進行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法。可以針對學生管理基礎課與IT基礎課知識的掌握情況,選擇合適的工具為學生設計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數(shù)據(jù)與工具,讓學生自己設計數(shù)據(jù)倉庫、進行數(shù)據(jù)挖掘、并對挖掘結果進行多種形式的展示。
中圖分類號:G642 文獻標志碼:A 文章編號:1006-8228(2014)11-65-02
Course construction of data mining course for IT specialty in application-oriented university
Li Zhong, Li Shanshan
(Institute of Disaster Prevention, Sanhe, Hebei 065201, China)
Abstract: Aiming at the content differences of data mining course in the application-oriented university, the training objectives and requirement for different specialty are analyzed. The content system and hours arrangements of data mining courses for IT specialty starting are given from the three major functions of data mining. Based on the last two years' student teaching effectiveness of data mining courses, it is concluded that combining theoretical and experimental training content settings with appropriate teaching methods can improve learning interest, stimulate learning enthusiasm, improve operating ability and achieve training objectives.
Key words: data mining; course content system; IT specialty; teaching effectiveness
0 引言
毋庸置疑,我們正處在信息時代。根據(jù)國際互聯(lián)網管理機構2012年的數(shù)據(jù),每天全球互聯(lián)網流量累計達1EB(即10億GB),這意味著每天產生的信息量可以刻滿1.88億張DVD光盤[1]。要想在如此浩瀚的數(shù)字海洋里尋找有用的信息,簡直是大海撈針!因此數(shù)據(jù)挖掘技術應運而生。大概十幾年前,微軟創(chuàng)始人比爾?蓋茨就預言,數(shù)據(jù)挖掘技術將是未來計算機發(fā)展的重要方向之一,事實也的確如此。
數(shù)據(jù)挖掘技術誕生于20世紀80年代末,是統(tǒng)計學和計算機科學的交叉學科,涉及數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、神經網絡、模式識別、知識發(fā)現(xiàn)、專家系統(tǒng)、信息檢索、高性能計算、可視化以及面向對象程序設計等若干學科知識,在商業(yè)、金融、保險、體育、勘探、生物技術等領域獲得廣泛應用。也正因為該課程涉及的內容寬泛,要求知識面寬廣、數(shù)學基礎扎實等,前幾年主要在研究生階段開設。但是隨著信息技術的快速發(fā)展,本科生能力要求提高,知識傳授的重心下移,很多高校已在本科階段開設數(shù)據(jù)挖掘課程,以提高大學生解決實際問題的能力,進而為課程設計和畢業(yè)設計打下必要的基礎[2]。
1 國內高校本科數(shù)據(jù)挖掘課程開設現(xiàn)狀
通過院校實地交流,結合網絡搜索,我們已經收集了十幾所高校的數(shù)據(jù)挖掘課程教學大綱,開設專業(yè)包含有計算機類專業(yè)、經濟統(tǒng)計類專業(yè)、電氣自動化類專業(yè)、生物技術專業(yè)等,各專業(yè)根據(jù)自己的人才培養(yǎng)目標制訂教學大綱、教學計劃、考試大綱等,其內容存在很大差異。其中985、211高校主要以英語授課,采用國外原版教材,課程內容涉及算法、編程較多;而一般院校多采用中文教材,根據(jù)專業(yè)不同,內容也有很大差異。
經濟統(tǒng)計類專業(yè)開設數(shù)據(jù)挖掘課程,要求學生了解什么是數(shù)據(jù)挖掘,以及如何用數(shù)據(jù)挖掘來解決實際問題,了解如何通過幾種數(shù)據(jù)挖掘技術建立數(shù)學模型,了解主流數(shù)據(jù)挖掘系統(tǒng)的特點,能夠安裝、使用,要求能夠熟練使用典型的挖掘工具對實際數(shù)據(jù)進行分析,具備從數(shù)據(jù)資源提取信息與知識并進行輔助決策的基本能力。
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2014)30-0240-03
隨著數(shù)據(jù)挖掘、商務智能技術的快速發(fā)展與廣泛應用,亟需對信息管理專業(yè)的本科生加強對相關知識的介紹,此時進行課程改革,調整、增加授課學時和實踐環(huán)節(jié)有重要意義。數(shù)據(jù)挖掘是一門與多學科交叉的新興計算機專業(yè)課程,其課程內容豐富、應用范圍廣、實踐工具類型繁多。在有限授課時間內,如何選擇適合于信息管理專業(yè)的本科生的課程內容、案例與軟件工具,選用何種有針對性的教學方法,是進行數(shù)據(jù)挖掘課程設計需要解決的主要問題。
一、國內外數(shù)據(jù)挖掘類課程建設研究分析
近年來,數(shù)據(jù)挖掘與商務智能技術發(fā)展迅速,充分借鑒國外相關研究,尤其是ACM SIGKDD課程委員會對數(shù)據(jù)挖據(jù)課程建設建議,對進行數(shù)據(jù)挖掘類課程的教學建設研究有重要意義。ACM(美國計算機協(xié)會)于1998年成立了SIGKDD(知識發(fā)現(xiàn)興趣小組),致力于知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的相關研究,ACM SIGKDD課程委員會連續(xù)多年多次更新其主要課程――數(shù)據(jù)挖據(jù)課程的建議,其中委員會將數(shù)據(jù)挖掘課程分為基礎部分與高級主題,基礎部分覆蓋了數(shù)據(jù)挖掘的基本方法,高級主題既有數(shù)據(jù)挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學的計算機科學學院、商學院都開設了數(shù)據(jù)挖掘類課程并同時進行相關研究。波士頓大學開設了“數(shù)據(jù)管理與商務智能”課程,課程主要包括基礎、核心技術、應用三部分。許多國外著名大學建立了教學管理系統(tǒng),提供大量的案例、在線討論和在線輔導功能。國內很多學校都開設了數(shù)據(jù)挖掘的相關課程,我國大多數(shù)高校的課程大綱內容與國外大致相同,只是在實踐部分選用了不同的商務案例。數(shù)據(jù)挖掘的應用領域廣泛,因此可以根據(jù)開課學院和專業(yè)選擇合適的實例。
二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標
數(shù)據(jù)挖掘課程是一門綜合性很強的前沿學科,對計算機軟硬件、數(shù)據(jù)庫、人工智能技術、統(tǒng)計學算法、優(yōu)化算法等基礎知識都有較高的要求。因此該門課程開設在學生大三下學期,既有相關知識的基礎,又為大四做畢業(yè)設計提供了一種思路。信息管理專業(yè)是計算機與管理相結合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開發(fā)能力與信息資源分析與處理能力的綜合應用型人才。對信息管理專業(yè)的學生而言,本課程主要的目標是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務管理問題中的應用以及常用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘軟件的熟練應用和二次開發(fā)。
三、基于模塊化方法的課程內容分析
模塊化教學模式是按照程序模塊化的構想和原則來設計教學內容的一整套教學體系,它是在既定的培養(yǎng)目標指導下,將全部教學內容按照一定標準或規(guī)則進行分解,使其成為多個相對獨立的教學模塊,且各教學模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學生可以根據(jù)個人興趣和職業(yè)取向在不同模塊之間進行選擇和搭配,從而實現(xiàn)不同的教學目標和人才培養(yǎng)要求[1,2]。模塊化教學本質上是以知識點與實踐的細化為出發(fā)點研究的。商務智能方法本身非常豐富,實踐應用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設計課程的基礎內容模塊和高級主題模塊;二是從微觀角度針對較為復雜的教學內容進行的知識點劃分。
1.課程主要內容模塊化分析。目前該課程包括十章理論內容,分別為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本知識、數(shù)據(jù)倉庫的OLAP技術、數(shù)據(jù)預處理、數(shù)據(jù)挖掘系統(tǒng)的結構、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫中的關聯(lián)規(guī)則、分類與預測、聚類分析、復雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內容的第一至五章屬于基礎理論部分和簡單數(shù)據(jù)挖掘技術的介紹,可以作為基礎內容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎理論與技術方法,又可深入到較難的方法和復雜的應用,因此介于基礎內容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數(shù)據(jù)倉庫的建設又包含數(shù)據(jù)挖掘算法的應用,難度也介于基礎內容與高級主題之間。
2.復雜知識點的模塊化管理。從微觀角度對知識點進行設計主要針對的是上述的高級主題、以及難度介于基礎內容與高級主題之間的章節(jié),由于這些章節(jié)知識點在難度上有一定層次,講授內容彈性比較大,因此需要在課程設計中明確一定課時量所要達到的難度。以商務智能技術中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎算法――決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預測時,還要分析預測準確度;最終要將所學知識加以應用。這樣就形成了一個結構清晰、難度循序漸進的知識點模塊的層次關系。在宏觀角度、微觀角度對教學內容進行分類的前提下進行相應的授課方法與考查方法的研究,才能真正有助于學生的學習。
四、授課與考核方法設計
對不同層次學生要求不同,這種不同既體現(xiàn)在知識點的要求上,又直接體現(xiàn)在任務的難易性程度上,這都需要教師在課程設計時充分考慮不同要求情況下的不同的授課方式,并使學生清楚自己需要掌握的程度。對于高級算法和實現(xiàn)部分,通??梢赃x擇一到兩章內容采用專題探討式的教學方法。這種方法是指在教師啟發(fā)和引導下,以學生為主體,選擇某個基本教學單元為專題,學生自主研究作為知識傳遞的基本形式,將多種靈活的教學方式綜合運用到教學環(huán)節(jié)的教學方法[3]。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標、以及對學生調研的情況,實踐環(huán)節(jié)比較適合選擇成熟的商務智能工具進行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法。可以針對學生管理基礎課與IT基礎課知識的掌握情況,選擇合適的工具為學生設計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數(shù)據(jù)與工具,讓學生自己設計數(shù)據(jù)倉庫、進行數(shù)據(jù)挖掘、并對挖掘結果進行多種形式的展示。
五、結論
本文通過國內外數(shù)據(jù)挖掘課程內容、分類、教學方法的分析,針對信管專業(yè)本科生的培養(yǎng)要求,研究了數(shù)據(jù)挖掘課程建設的主要內容,并針對知識點的不同模塊,實行不同的授課方式,使學生更加明確重點、難點和擴展內容,提高了學生的聽課效率,對教學內容的模塊化分類、以及相應的授課方式的研究成果仍可繼續(xù)發(fā)揮作用,并進行更深入的研究和實踐。
參考文獻:
[1]韋艷艷,張超群.模塊化教學與學習遷移[J].當代教育論壇,2018,(5).
[2]鄭浩,陶虎,王曉輝.高校模塊化教學模式及其效果評價方法[J].科技信息,2012,(25).
摘 要:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘是大數(shù)據(jù)時代產生的一門新興交叉的課程。針對該課程的特點,將CDIO工程教學理念融合到教學過程,重新設置了教學目標與大綱、調整了教學內容、改進了教學方法,總結了數(shù)據(jù)挖掘課程教學實踐的一般流程并給出具體的實驗教學設計方案。
關鍵詞 :教學改革;數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;CDIO
中圖分類號:G642 文獻標識碼:A doi:10.3969/j.issn.1665-2272.2015.09.040
收稿日期:2015-03-15
1 CDIO簡介
CDIO工程教育模式是基于項目的學習的一種模式。CDIO中,C(Conceive)構思,根據(jù)工程實踐,讓學生掌握專業(yè)知識的基本原理,確定未來發(fā)展方向;D(Design)設計,以產品設計與規(guī)劃為核心,解決具體問題;I(Implement)執(zhí)行,以制造為核心,組織一體化的課程實踐,其中包括學生必須掌握的理論知識與實踐能力;O(Operate)運作,即產品應用的各個環(huán)節(jié)。它以產品的研發(fā)到運行的生命周期為載體,通過系統(tǒng)的產品設計讓學生以主動的、實踐的、課程有機聯(lián)系的方式學習。CDIO代表工程項目生命全周期,是產業(yè)轉型升級對創(chuàng)新人才需求的形勢。
CDIO培養(yǎng)大綱將工程畢業(yè)生的能力分為技術知識與推理、個人專業(yè)能力和素質、團隊合作與溝通能力、在企業(yè)和社會環(huán)境下CDIO系統(tǒng)四個層面,大綱要求以綜合的培養(yǎng)方式達到這四個層面的預定目標。其精髓在于:以工程項目設計為導向、工程能力培養(yǎng)為目標的工程教育模式。
2 “數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程概況
當今的大數(shù)據(jù)時代,人們處理數(shù)據(jù)的能力大大增強,快速增長的海量數(shù)據(jù)已經遠遠超出人們的理解能力,因此數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術得到了廣泛關注,有效地挖掘和運用海量數(shù)據(jù),獲得有價值的知識和信息,從而幫助人們制定正確的決策。很多高校為工程類專業(yè)本科生開設這門專業(yè)課,研究如何將信息處理技術運用于企業(yè)管理決策的具體實際。
本工程課程涉及到數(shù)據(jù)倉庫的設計與構建技術、聯(lián)機分析處理OLAP技術、分類與預測、聚類、關聯(lián)規(guī)則算法、數(shù)據(jù)挖掘應用綜合項目技術等多方面的知識和技能。通過課程的學習,不僅要求學生掌握在數(shù)據(jù)倉庫與數(shù)據(jù)挖掘方面的知識,還要求培養(yǎng)學生的工程CDIO能力。
但是目前許多高校在工程教育采用的教學方式存在以下問題:培養(yǎng)目標不清楚,學術化傾向嚴重;人才培養(yǎng)模式單一,缺乏多樣性和適應性;工程性缺失和實踐環(huán)節(jié)薄弱;課程體系與產業(yè)結構調整不適應等。在教學過程中,強調教師的主導作用,卻忽視了學生的主體作用,忽視了學生的工程意識、工程素質和工程實踐能力的培養(yǎng)。這與高校培養(yǎng)創(chuàng)新性應用型人才的目標相悖。因此,改革勢在必行。
3 “數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程改革實踐
3.1 基于CDIO理念的教學目標與大綱
CDIO教育理念所提倡的工程畢業(yè)生的能力分為技術知識與推理、個人專業(yè)能力和素質、團隊合作與溝通能力、在企業(yè)和社會環(huán)境下CDIO系統(tǒng)四個層面,四個層面上進行綜合培養(yǎng)的教學模式。在CDIO能力培養(yǎng)目標方面,課程在四個能力層面上建立培養(yǎng)目標。
針對“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述”內容,知識點是數(shù)據(jù)倉庫的含義與特征、數(shù)據(jù)挖掘的任務、多維數(shù)據(jù)模型。講授數(shù)據(jù)倉庫的概念、特點、構成以及數(shù)據(jù)挖掘和數(shù)據(jù)處理的基本知識,使學生有一個初步的理解。培養(yǎng)學生技術知識與推理能力。
針對“聯(lián)機分析處理OLAP”內容,知識點是數(shù)據(jù)倉庫的數(shù)據(jù)組織、數(shù)據(jù)預處理、數(shù)據(jù)存儲、基于多維數(shù)據(jù)模型的數(shù)據(jù)分析。本階段如果不結合直觀的舉例講解,學生就失去了興趣,因此筆者要布置一些思考題,教會學生自主學習,自己查閱教材、網絡等資源資料,從中提煉出結論。培養(yǎng)個人分析問題、解決問題的能力、所學知識的靈活應用能力;
針對“分類與預測、聚類、關聯(lián)規(guī)則”內容,知識點是數(shù)據(jù)采集、關聯(lián)規(guī)則算法的設計、結果分析。在這個階段經常會是“數(shù)據(jù)的堆砌”,講了很廣泛的算法知識卻沒有足夠的時間進行深入理解。因此應抓住關鍵的概念、能力,引導學生提出問題,并學會調查研究,為學生提供深層學習的機會,并把在第一層面所學的知識運用到對問題的解決之中去。這樣,學習的焦點就從“覆蓋”的方式過渡到以學生為中心的學習方式。培養(yǎng)數(shù)據(jù)獲取能力、程序設計能力、問題表達能力;
針對“數(shù)據(jù)挖掘應用綜合項目”內容,知識點是項目的準備、進度管理、文檔管理和項目設計和實現(xiàn)。實際工作牽涉到企業(yè)或者組織的各個部門多類人員,所有團隊成員之間協(xié)同、合作,會有分工、溝通、協(xié)調,甚至會有妥協(xié),這就要求在運用實例的過程中一定要具有團隊合作精神。培養(yǎng)工程系統(tǒng)能力和人際團隊能力。
3.2 改革教學內容
在教學內容中安排了兩級項目:多種初級項目和一個高級項目。初級項目是將課程內容分成各種項目,數(shù)據(jù)主要來源于SQL Server 2008的示例數(shù)據(jù)倉庫Adventure Works DW,以項目實現(xiàn)促進理論學習;高級項目是綜合性項目:“卷煙產品銷售規(guī)律挖掘”,利用卷煙產品歷史銷售數(shù)據(jù)中蘊含的信息,采用數(shù)據(jù)挖掘技術對各個卷煙品種銷售的關聯(lián)關系進行分析并預測,以制定更加合理的卷煙產品營銷策略。具體項目設置如下:
項目一:基于SQL Server 2008的數(shù)據(jù)倉庫數(shù)據(jù)庫及多維數(shù)據(jù)模型設計。步驟如下:分析組織的業(yè)務狀況及數(shù)據(jù)源結構組織需求調研,收集分析需求采用信息包圖法設計數(shù)據(jù)倉庫的概念模型利用星型圖設計邏輯模型物理模型設計構建多維數(shù)據(jù)模型。本項目旨在個人能力的培養(yǎng)(分析問題、解決問題的能力、所學知識的靈活運用能力等)。
項目二:關聯(lián)規(guī)則挖掘。使用商業(yè)智能開發(fā)工具進行購物籃分析,以達到重新設計網站功能,提高產品的零售量。
項目三:潛在客戶分析即分類及預測。使用商業(yè)智能開發(fā)工具分析購買自行車的潛在客戶。
項目四:K-Means聚類分析。使用商業(yè)智能開發(fā)工具分析客戶購買自行車情況分析。
項目五:貝葉斯網絡應用。使用商業(yè)智能開發(fā)工具解決一個簡單的預測和診斷問題。
項目二至五旨在培養(yǎng)學生個人能力(數(shù)據(jù)獲取能力、程序設計能力等)和人際團隊能力(問題表達能力、人際交流能力),倡導學生樂于探究、勤于動手。
高級項目:數(shù)據(jù)挖掘應用綜合項目“卷煙產品銷售規(guī)律挖掘”。將一個相對獨立的項目交由學生自己處理,從信息的收集,方案的設計,到項目實施及最終評價,都由學生自己負責,學生通過該項目的進行,了解并把握整個過程及每一個環(huán)節(jié)中的基本要求。通過綜合項目,學生完成了CDIO的四個階段,提升CDIO所提倡的四大能力,具體體現(xiàn)如表1所示。
3.3 改革教學方法
在課程教學方法是項目教學法為主,任務驅動法和案例教學法為輔的教學模式,起到很好的教學效果。
4 結語
CDIO工程教育模式由麻省理工學院和瑞典皇家工程學院提出,包括構思、設計、實現(xiàn)和運作四個環(huán)節(jié),是國際流行的工程人才培養(yǎng)理念,強調對學生創(chuàng)新思維、實踐能力和團隊協(xié)作精神的培養(yǎng)。本文體現(xiàn)了CDIO理念的能力培養(yǎng)要求,將數(shù)據(jù)倉庫設計開發(fā)方法和數(shù)據(jù)挖掘技術融入具有較強工程背景與應用價值的項目設計與開發(fā)中,理論與實踐緊密結合,推動課程建設和課程教學改革。
參考文獻
1 顧佩華,沈民奮,陸小華譯.重新認識工程教育—國際CDIO培養(yǎng)模式與方法[M].北京:高等教育出版社,2009
2 郭長虹. 重構CDIO特色的工程圖學課程體系[J].圖文學報,2013(3)
關鍵詞: 數(shù)據(jù)挖掘技術;課程;教學
Key words: data mining technology;course;teaching
中圖分類號:G642.0 文獻標識碼:A 文章編號:1006-4311(2011)25-0155-01
0 引言
數(shù)據(jù)挖掘技術是電子商務專業(yè)的一門重要專業(yè)課程,它是信息化時代對信息與數(shù)據(jù)管理的必然要求。一方面,在生產、生活和商業(yè)活動中,我們產生了海量的數(shù)據(jù),這些數(shù)據(jù)有著不同的表現(xiàn)形式,如最常見的超市記錄單、各種各樣的公司或商業(yè)數(shù)據(jù)庫,還包括音頻、視頻等;另一方面,我們需要從這些數(shù)據(jù)中尋求規(guī)律,對數(shù)據(jù)進行“挖掘”,使數(shù)據(jù)發(fā)揮更大的作用[1]。數(shù)據(jù)挖掘正是從大量的數(shù)據(jù)中提取出隱含的、以前不為人所知的、可信而有效的知識[2]。數(shù)據(jù)挖掘技術教學的目的就是要使學生掌握典型的數(shù)據(jù)挖掘技術,并能夠運用數(shù)據(jù)挖掘技術解決實際問題,為今后運用數(shù)據(jù)挖掘技術解決實際問題打下扎實的基礎。
1 數(shù)據(jù)挖掘技術課程特點
數(shù)據(jù)挖掘技術具有自己獨特的課程特點:
1.1 新穎性 1995年,在加拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學術會議(International Conference on Knowledge Discovery and Data Mining),由于把數(shù)據(jù)庫中的數(shù)據(jù)形象地比喻為“礦床”,“數(shù)據(jù)挖掘”一詞很快流傳開來[3]。數(shù)據(jù)挖掘的發(fā)展僅有10余年的時間,數(shù)據(jù)挖掘技術課程是一門新興學科。
1.2 內容廣 數(shù)據(jù)挖掘包括關聯(lián)規(guī)則挖掘、分類規(guī)則挖掘、特征規(guī)則挖掘、時序規(guī)則挖掘、偏差規(guī)則挖掘、聚類規(guī)則挖掘和預測這七大任務,相應的,每種任務都有自己專門的挖掘技術[4],如關聯(lián)規(guī)則挖掘的典型技術為Apriori算法及其衍生技術,分類規(guī)則挖掘的典型技術為ID3或C4.5決策樹算法及其改進算法等。
1.3 有深度 數(shù)據(jù)挖掘技術作為一門計算機與數(shù)據(jù)處理相結合的新興學科,具有一定的難度。其中的任何一個技術都可以獨立成篇,如粗糙集分類算法自原理至實例推廣就是一門單獨的課程;作為數(shù)據(jù)處理的重要內容,聚類算法同樣可以獨立成籍。
1.4 交叉性 誠如前面所述,數(shù)據(jù)挖掘技術有著廣泛的支撐背景,既包括信息論方法和集合論方法等歸納學習類技術,又包括神經網絡方法、遺傳算法方法、蟻群算法等仿生物技術,還包括成熟的統(tǒng)計分析技術和模糊數(shù)學技術,此外還有公式發(fā)現(xiàn)類技術和可視化技術等。可以這樣說,數(shù)據(jù)挖掘總是在廣泛吸取其他各門學科的先進技術,并加以轉化、發(fā)展的。
2 數(shù)據(jù)挖掘技術教學過程存在的問題剖析
數(shù)據(jù)挖掘技術作為一門新學科、新課程,發(fā)展迅速,但是其缺點也是不言而喻的,主要包括:
2.1 課程教材不統(tǒng)一 目前,數(shù)據(jù)挖掘技術的教材層出不窮,這些教材盡管總體涵蓋內容相近,均自成體系,但是有的細節(jié)卻并不一致,如多數(shù)教材主張采用E-R圖進行數(shù)據(jù)倉庫(數(shù)據(jù)挖掘通??偸桥c數(shù)據(jù)倉庫連接在一起的)設計,但也有教材持反駁態(tài)度[3];對數(shù)據(jù)倉庫系統(tǒng)的體系結構說法也不盡一致,不同的教材給出不同的體系結構,有的甚至將數(shù)據(jù)結構等同于體系結構[5]。這主要是由于學科和課程的新穎性導致的,使得教材的編寫多帶有研究探索的性質,未能達成統(tǒng)一。
2.2 教學重點不統(tǒng)一 教材的不統(tǒng)一和學時的不統(tǒng)一(如有的院校是36課時,有的是48課時)導致教學重點也不統(tǒng)一,有的考慮到學生掌握知識的淺顯性,將重點放在統(tǒng)計分析技術,而對神經網絡技術和遺傳算法技術等相對較難的技術一筆帶過;有的則考慮到體系的完整性,對所有數(shù)據(jù)挖掘技術等同對待,均勻筆墨。
2.3 教學方式不統(tǒng)一 數(shù)據(jù)挖掘技術是一門實驗技術較強的課程,但是有的教師在安排授課時,僅設置理論課時,沒有實驗課時;有的教師則將課程直接放在實驗室來上,偏重于對學生實驗技巧的掌握。當然,更多的是將實驗課時與理論課時交錯進行的。對實驗安排的處理也不盡相同,有的分組進行,有的則由學生獨立完成。
3 提高數(shù)據(jù)挖掘技術課程效果的對策建議
3.1 精心編排課程講義 課程教材是授課的首要基礎,一本好的教材不僅便于教師的備課、授課,更有利于學生的理解。當然,教材與課時、教學大綱有著密切關系,教師在選擇教材時應充分考慮學生的學科基礎、授課課時數(shù)、教學大綱規(guī)定的培養(yǎng)目標等各種因素,從大量層出不窮的教材中選擇最理想的教材,適當?shù)臅r候也可根據(jù)相關教材,整理一份恰當?shù)闹v義教材,組織學生使用。
3.2 合理安排教學內容 數(shù)據(jù)挖掘技術的教學內容應考到學科體系的完整性,既要為學生打牢理論基礎,又要突出學生實踐能力的培養(yǎng)。因此要以“掌握理論、強化應用、突出能力”作為數(shù)據(jù)挖掘技術課程的培養(yǎng)目標,通過精選具有充分代表性、源于實際問題的典型例題與案例,使它們能基本覆蓋在實際中最常見的數(shù)據(jù)挖掘問題,在講解這些從實踐中抽取并經過精心改造和設計的例題和案例的過程中,逐步地建立起學生應該掌握的數(shù)據(jù)挖掘技術理論框架。
4 結束語
數(shù)據(jù)挖掘技術教學具有十分重要的現(xiàn)實意義,通過科學講述數(shù)據(jù)挖掘技術,有助于培養(yǎng)學生對理論知識的現(xiàn)實應用轉化能力,培養(yǎng)學生從現(xiàn)實世界出發(fā)提出問題、分析問題和解決問題的能力。數(shù)據(jù)挖掘技術的教學應以培養(yǎng)學生能力為主線,精心組織教學內容,有效采用多種方式,增進學生對知識的理解與掌握,顯著提高教學效果與質量。
參考文獻:
[1]陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].北京:清華大學出版社,2006.
[2]Jiawei Han,Micheline Kamber著.范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社,2007.
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)16-21267-03
Data Mining Based Course Competence Development of C Programming Language for Vocational College
GUO Xiao-chen1,2
(Chenzhou Vocational Technical College,Chenzhou 423000,China)
Abstract:In this paper we utilize the data mining technology into the course of C programming language in vocational colleges in order to classify and predict the examination result, and eventually find out the implied information. This is helpful to make guidance for improving the quality of teaching and deepen the teaching reform.
Key words: data mining; concept description;class comparision; C Programming Language
1 引言
C語言程序設計課程是計算機應用和電子信息工程專業(yè)的必修程序設計課,是知識性、技能性和實踐性很強的課程。主要培養(yǎng)學生利用計算機來處理實際問題的能力和培養(yǎng)學生程序設計的思維能力,使學生能夠掌握C語言的基本語法和算法,能利用C語言進行基本的程序設計。
C語言程序設計主要由數(shù)據(jù)描述、程序控制兩大模塊組成,包括基礎數(shù)據(jù)類型、流程控制、函數(shù)和復雜數(shù)據(jù)類型等四個單元的內容。筆者從事多年的C語言程序設計教學工作,如何利用有效數(shù)據(jù)分析工具,將所積累的豐富的數(shù)據(jù)轉換為有價值的知識,了解和分析學生的知識掌握及能力培養(yǎng)情況,并采用相應的教學改革。
2 數(shù)據(jù)挖掘技術的概念和內涵
數(shù)據(jù)挖掘(DataMining)是對大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù),進行抽取、轉換、分析和模型化處理,從而提取能輔助決策的關鍵性數(shù)據(jù),并能結合應用領域的特點,推導出有用的知識的過程;簡而言之,數(shù)據(jù)挖掘就是深層次的數(shù)據(jù)信息分析方法。通常采用概念/類描述、關聯(lián)分析、分類和預測、聚類分析及演變分析等方法來完成數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過程是一個線性的過程,依據(jù)不同信息平臺的數(shù)據(jù)類型,采用面向環(huán)境的管理方式,實現(xiàn)面向環(huán)境要求的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過程一般由數(shù)據(jù)準備、數(shù)據(jù)挖掘、結果的解釋與評估四個階段組成。
3 數(shù)據(jù)挖掘技術在《C語言程序設計》課程能力培養(yǎng)分析中的應用
3.1 數(shù)據(jù)倉庫的建立
挖掘所需要的數(shù)據(jù)來源于某高職院校近3年來計算機應用和電子信息工程兩專業(yè)近860名學生的C語言程序設計這門課程的期末考試成績、實驗成績及實習成績,給定屬性學號(ID)、姓名(name)、性別(gender)、專業(yè)(major)、科類(section)、成績(result)。成績部分包括考試成績(test_result簡稱為t_r)、實驗成績(experimental_result簡稱為e_r) 、實習成績(practice_result簡稱為p_r)及總分數(shù)(total_score簡稱為t_s),其中總分數(shù)=考試成績×70%+實習成績×20%+實驗成績×10%。通過對考試試卷的分析統(tǒng)計,基礎數(shù)據(jù)類型(Foundation Data Type簡稱為FDT)、流程控制(Process Control簡稱為PC)、函數(shù)(Function簡稱為F)和復雜數(shù)據(jù)類型(Complicated Data Type簡稱為CDT)四個單元的分數(shù)比重分別為20%,30%,20%,30%,綜合考慮各單元的內容,匯總統(tǒng)計出各單元的滿分分值為14,21,14,21。
該數(shù)據(jù)挖掘任務可以用DMQL表示如下:
Define cub discretmath〔ID,name,gender,section,major,result〕。
total_score=sum (result);
define dimension result(test_result,Programes_result,practice_ result);
define dimension test_result(FDT,PC,F, CDT)。
數(shù)據(jù)倉庫的結構如表1:
3.2 數(shù)據(jù)的預處理
由于現(xiàn)實中的數(shù)據(jù)多半是不完整的、有噪聲的、不一致的,某些學生的成績會因教師個人感情或其它因素而分數(shù)偏高或偏低,從而導致現(xiàn)有分數(shù)含有一定偏差的噪聲數(shù)據(jù),對此可以通過數(shù)據(jù)的預處理技術改進數(shù)據(jù)的質量,提高其后的挖掘過程的精度和性能。本文利用數(shù)據(jù)清理中的聚類中K_平均算法找出孤立點,并利用分箱技術將噪聲去掉。表2為經過數(shù)據(jù)預處理的二維視圖。
以上數(shù)據(jù)倉庫中的數(shù)據(jù),就是經過預處理后,得到的是集成的、概念分層的、不含有噪聲的數(shù)據(jù),該數(shù)據(jù)可以用來進行準確的數(shù)據(jù)挖掘工作。
3.3概念/類描述
3.3.1數(shù)據(jù)概化
數(shù)據(jù)庫中的數(shù)據(jù)和對象通常包含原始概念層的細節(jié)信息,在多數(shù)情況下,感興趣的一般是在不同抽象層上得到的數(shù)據(jù)的量化信息或統(tǒng)計信息。因此,首先采用解析特征化進行屬性相關分析,來幫助識別不相關或弱相關屬性,將它們排除在概念描述過程之外。概化過程如下:
1)收集目標類數(shù)據(jù),它由計算機專業(yè)的集合組成,對比類數(shù)據(jù)取電子信息工程專業(yè)的集合;
2)用保守的屬性概化閾值進行面向屬性的歸納,通過屬性刪除和屬性概化進行預相關分析。
ID:由于ID存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;name:由于name存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;gender:由于gender只有兩個不同值,該屬性保留,并且不對其進行概化;major:假定已定義了一個概念分層,允許將屬性major概化到值{計算機應用,電子信息工程};section:假定已定義了一個概念分層,允許將屬性科類概化到值{理科,文科,對口};total_score:該屬性存在大量不同值,因此應當概化它。假定存在total的概念分層,將分數(shù)數(shù)值區(qū)間{100_85,84一70,69_60,59_0}按等級(grade){A,B,C,D}分組,這樣該屬性可以被概化。
表3通過對表2的數(shù)據(jù)進行概化得到的關系
3.3.2類比較的實現(xiàn)
通過概化處理,數(shù)據(jù)倉庫中的屬性基本已經得到了單個類的描述。但我們希望挖掘一個描述是它能將一個類與其它可比較的類相區(qū)分,因此采用挖掘類比較來實現(xiàn)?,F(xiàn)給定了屬性gender, section,major, test_result,program_result,practice_ result和grade。
1)專業(yè)類別分析
首先確定目標類與對比類為屬性major中計算機應用和電子信息工程兩個不同專業(yè)的學生;其次,對兩個數(shù)據(jù)上進行維相關分析,不相關或弱相關的維從結果類刪除;再次,在目標類上進行同步概化,產生主目標類關系,如表4所示。
從表4可以看出,與電子信息工程專業(yè)相比,計算機應用專業(yè)的學生趨向平均分、實習成績及實驗成績這三部分分數(shù)較高,體現(xiàn)出學生在知識應用能力和計算機編程能力上較強,但對知識掌握出現(xiàn)兩極分化嚴重,針對這部分基礎知識掌握不牢固的學生,教師在執(zhí)教時就應考慮加強基礎知識的鞏固。相對而言電子信息工程專業(yè)的學生對基礎知識的掌握基本較好,但對該課程的靈活應用有所欠缺,這就使得在教學過程中應適當注重培養(yǎng)學生的應用能力,加強對他們編程、實驗及實習的輔導。
2)性別類別分析
首先確定目標類與對比類為屬性gender中的男和女;其次,對兩個數(shù)據(jù)上進行維相關分析,不相關或弱相關的維從結果類刪除;再次,在目標類上進行同步概化,產生主目標類關系,如表5所示。
表4 主類(計算機應用)與目標類(電子信息工程)關系 表5 主類(男)與目標類(女)關系
從表5可以看出,與女生相比,男生從總體上對該門課程的學習效果較差,不及格率較高,且優(yōu)秀率低,基礎知識掌握不牢固,體現(xiàn)出不少男生學習態(tài)度不端正,目的不明確,缺乏學習的積極性。而女生這門課的成績比男生好,優(yōu)秀率高,及格率高,對基礎知識掌握牢固,但在知識的應用能力方面欠佳不能很好地靈活運用;由此可見,教師在教學過程中須考慮學生的性別差異,因材施教。
3)科類類別分析
首先確定目標類與對比類為屬性section中文科類、理科類和對口類;其次,對兩個數(shù)據(jù)上進行維相關分析,不相關或弱相關的維從結果類刪除;再次,在目標類上進行同步概化,產生主目標類關系,如表6所示:
從表6可以看出,與理科類、文科類相比,通過對口高招進來的學生不管對理論知識的掌握還是在實踐技能上都比較突出,且目的性非常強。而文科類與理科類相比, 文科類對基礎知識的學習優(yōu)于理科類,但在知識的應用能力上較差,理科類則恰恰相反。可見,教師在教學過程中除了考慮普遍學生存在的問題外,還需要注意學生的差異,對于對口類學生而言應多準備一些相對大的項目,讓其能“吃飽”,而對于理科類和文科類學生一方面要加強理論基礎知識的學習指導,另一方面要適當注意培養(yǎng)其應用能力,加強對編程及實踐方面的輔導。
4 結論
利用多年的C語言程序設計課程的成績的數(shù)據(jù),通過數(shù)據(jù)挖掘技術探索和發(fā)現(xiàn)兩個專業(yè)學生對這門課程的知識掌握及能力培養(yǎng)的情況,可以有針對性地進行教學內容和教學方式的改革,使得學生更好地掌握C語言程序設計這門課的知識,培養(yǎng)各方面的能力,為以后的課程學習、專業(yè)發(fā)展打下堅實的基礎。
參考文獻:
[1] JiaweiH,MichelineK.DataMiningConceptsandTechniquo5[M].Beijing:China Machine Press,2006.
[2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國科技大學出版社,2O02.
[3] 張錦祥.高級程序設計語言課程教學改革與實踐[J].浙江教育學院學報,2007(4)71-76.
YANG Nan-yue
(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)
Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.
Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching
我校的多媒體技術公選課面向全校各年級各專業(yè)本科生開課,因此選修本課程的學生來源較復雜,其計算機基礎參差不齊。過往統(tǒng)一步調的授課模式滿足不了不同層次學生的需求,所以從2011年開始,本門課程實施教學改革,以多媒體技術在線學習平臺為基礎,結合課堂授課開展個性化教學,把多媒體技術包含的四大媒體技術課程:圖像處理、音頻處理、視頻處理和動畫制作做成講座的形式,每一門課程分別包含兩到三次的講座,學生根據(jù)自己的情況選聽選學。每門媒體技術不同難易度的學習資料都放在學習平臺里,學生可以自由選擇學習資源,并通過網絡或課堂與同學和老師進行學習交流??己朔绞綖槊恳婚T課程最后一次講座講完后在學習平臺上進行隨堂考試,要求每位學生至少選考其中三門。本門課程期末考試也在學習平臺上進行,要求全體學生都必須參加。本教改實施五年來,學生反應良好,同時多媒體技術學習平臺網站上存在著大量學生成績和教師教學及管理過程中的相關數(shù)據(jù),那么這些數(shù)據(jù)之間存在著怎樣的聯(lián)系,是否蘊藏著教與學之間的知識和規(guī)律?由于數(shù)據(jù)挖掘技術能夠發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的潛在聯(lián)系和規(guī)則,從而預測未來的發(fā)展趨勢[1],因此我們把該技術引入學習平臺中的信息資源管理系統(tǒng),把大量積累的教學基礎數(shù)據(jù)建立數(shù)據(jù)倉庫[2],在這基礎上運用數(shù)據(jù)挖掘手段從中快速準確地提取出重要的信息和有價值的知識,找出影響學習成績的因素,為進一步改善個性化教學的教學質量提供數(shù)據(jù)支持和決策參考。
1 數(shù)據(jù)倉庫多維數(shù)據(jù)模型的建立
數(shù)據(jù)倉庫的邏輯數(shù)據(jù)模型是多維數(shù)據(jù)模型。目前使用的多維數(shù)據(jù)模型主要有星型模型和雪花模型。一個典型的星型模式包括一個大型的事實表和一組邏輯上圍繞這個事實表的維度表[3]。雪花模型是對星型模型的擴展,將星型模型的維度表進一步層次化,原來的各維度表被擴展為小的事實表,形成一些局部的層次區(qū)域[3-4]。建立本課程數(shù)據(jù)倉庫時,為了減少數(shù)據(jù)冗余,改善查詢性能我們采用雪花模型結構,如圖1所示。建立以學生選課為中心的選課事實表,三個主維度表“學生表”、“成績表”和“時間表”分別通過“學生鍵”、“成績鍵”和“時間鍵”與事實表直接關聯(lián)。其中,主維度表中的“學生表”和“成績表”都有各自的二級維度表,與事實表間接關聯(lián)[5]。
2 采用Apriori算法的關聯(lián)規(guī)則挖掘
關聯(lián)規(guī)則用于揭示數(shù)據(jù)與數(shù)據(jù)之間未知的相互依賴關系,即在給定的一個事物數(shù)據(jù)庫D,在基于支持度-置信度框架中,發(fā)現(xiàn)數(shù)據(jù)與項目之間大量有趣的相關聯(lián)系,生成所有的支持度和可信度分別高于用戶給定的最小支持度(min_sup)和最小可信度(min_conf)的關聯(lián)規(guī)則。關聯(lián)規(guī)則挖掘算法歸結為下面兩個問題:(1)找到所有支持度大于等于最小支持度(min_sup)的項目集(Item Sets),即頻繁項目集(Frequent Item Sets)。(2)使用步驟(1)找到的頻繁項目集,產生期望的規(guī)則。兩步中,第(2)步是在第(1)步的基礎上進行的,工作量非常小,因此挖掘的重點在步驟(1)上,即查找數(shù)據(jù)庫中的所有頻繁項目集和它的支持度[4]。本課題對多媒體技術課程學習平臺中所有考試成績進行關聯(lián)規(guī)則挖掘,采用Apriori算法查找頻繁項目集。
Apriori算法通過逐層迭代來找出所有的頻繁項目集L。用戶需要輸入事物數(shù)據(jù)庫D和最小支持度閥值min_sup。實現(xiàn)過程為:
1)單次掃描數(shù)據(jù)庫D計算出各個1項集的支持度,得到頻繁1項集構成的集合L1。
2)連接:為了產生頻繁K項集構成的集合,通過連接運算預先生成一個潛在頻繁k項集的集合Ck。
3)剪枝:利用Apriori算法“任何非頻繁的(k-1)項集必定不是頻繁k項集的子集”的性質,從Ck中刪除掉含有非頻繁子集的那些潛在k項集。
4)再次掃描數(shù)據(jù)庫D,計算Ck中各個項集的支持度。
5)剔除Ck中不滿足最小支持度的項集,得到由頻繁k項集構成的集合Lk。
Apriori算法如下:
[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潛在頻繁項集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潛在頻繁項集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]
求出頻繁項集L后,1)對于L中的每一個頻繁項目集l,產生l的所有非空子集。2)對于l的每一個非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],則輸出規(guī)則:SL-S[4]。
本課題對近五年選修多媒體技術的學生所有成績數(shù)據(jù)進行清洗,填補空缺值,去噪,類型轉換,集成等處理后放入數(shù)據(jù)倉庫中,系統(tǒng)采用Apriori算法找出所有的頻繁項集。為了便于進行關聯(lián)規(guī)則的挖掘,對成績數(shù)據(jù)進行離散化處理,轉變成標稱型變量[5]。成績score(簡化為“s”)在85-100區(qū)間的表示“優(yōu)秀”,標記為“1”,在70-84區(qū)間的表示“中等”,標記為“2”,在60-70區(qū)間的表示“合格”,標記為“3”。多媒體技術每門媒體技術課程:圖像處理、音頻處理、視頻處理、動畫制作和最后的期末考試分別用A、B、C、D、E表示。學生的學號用StudentID表示,那么每個學生選修的N門課和最后期末考試的成績可以表示為{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范圍是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示學號為2011204543021的學生,選修了圖像處理,音頻處理和動畫制作這三門媒體技術,其中圖像處理成績?yōu)楹细?,音頻處理成績?yōu)閮?yōu)秀,動畫制作成績?yōu)楹细?,期末考試成績?yōu)楹细?,該名學生沒有選修視頻處理,故沒有這門科目的成績。
設定最小支持度閥值min_sup為3%,最小置信度閥值min_conf為70%,系統(tǒng)采用Apriori算法進行數(shù)據(jù)挖掘,得到滿足最小置信度閥值的規(guī)則和相應的置信度如表1。
挖掘結果分析:表1的關聯(lián)規(guī)則體現(xiàn)學生選修的媒體技術課程種類、科目數(shù)量與期末考試成績之間的相互關系??梢钥吹狡谀┛荚嚦煽儗儆谥械龋‥2)或合格(E3)級別的,學生全選四門媒體技術比只選學三門的置信度高,即選課數(shù)量多的較容易及格或獲得中等的期末成績。另外,在選課種類方面,選B這門課,即選音頻處理的學生比較多,是一個概率比較高的事件,可能這門課內容比較少和易掌握,因此選學選考的學生就多。但這門課的成績對期末考試成績影響不明顯,說明教師這門課出的考題區(qū)分度低,沒能反映出學生的水平層次。在最小支持度閥值min_sup為3%的情況下,選A(圖像處理),C(視頻處理)和D(動畫制作)這幾門課并獲得優(yōu)秀成績(A1,C1,D1)的很少,即小概率事件被過濾掉了,沒能挖掘出它們與期末成績之間的關聯(lián)性。但這幾門課程成績中等或合格與期末成績存在內在關系,也就是說如果這幾門課成績都是中等的,期末考試成績大部分都為中等,一小部分可以達到優(yōu)秀。如果這幾門課成績都是合格,期末考試成績就是合格。說明這幾門課程的考題比較真實反映出學生掌握技能的實際水平,致使期末綜合性的考試成績與學生平時掌握程度相符合。這也意味著個性化教學具有一定的成效。
本課題對近五年的學生多媒體技術每科成績與期末成績進行聚類分析,把學生劃分到若干不同的類中,分析各個類的特征,從而考察實施個性化教學后的效果。設定85分,75分和65分為三個初始的聚類中心,對學生的所有成績進行聚類分析,找出同一類別學生的學號,以此為索引,查找到該類中各個學生的專業(yè)與年級,繪制出餅狀圖,再繪制出該類學生所選各門媒體技術的平均分柱狀圖,通過這幾個圖表考察不同專業(yè)不同年級學生在本門課程優(yōu)秀中等合格若干成績區(qū)間的分布情況,從而檢查實施個性化教學的效果,為今后的改進方案提供參考。例如調整后得到的最終聚類中心為82分的學生,各門媒體技術的平均分和專業(yè)、年級分布如圖3~圖5所示。
從上面幾個圖可以看出,成績?yōu)閮?yōu)秀的學生主要來自美術、計算機和電信這幾個專業(yè),大三、大四的學生比較多。分析其中的原因,主要是美術學院很多專業(yè)課需要用二維、三維圖像軟件或視頻軟件進行制作和處理,他們對這門課程已經有一定的基礎,所以學起來比較輕松,也容易取得高分。而計算機和電信專業(yè)中高年級的學生學習和使用軟件的能力比較強,因此掌握多媒體技術各個媒體軟件較其他專業(yè)學生快,并且能夠靈活運用,因而較易取得比較優(yōu)異的成績。
最終聚類中心為64分的學生,各門媒體技術的平均分和專業(yè)、年級分布如圖6~圖8所示。