數(shù)據(jù)挖掘論文錦集15篇
在平時的學習、工作中,大家都跟論文打過交道吧,借助論文可以達到探討問題進行學術研究的目的。你知道論文怎樣寫才規(guī)范嗎?下面是小編為大家收集的數(shù)據(jù)挖掘論文,僅供參考,大家一起來看看吧。
數(shù)據(jù)挖掘論文1
0引言
隨著我國信息化建設進程的不斷推進,許多高校都已經(jīng)建立起各類基于業(yè)務的數(shù)據(jù)庫用于日常管理,作為應用廣泛的新興學科,數(shù)據(jù)挖掘技術在高校教育信息化中的應用前景較好,為高校的管理、建設、服務過程的絕學提供了全新而科學的分析途徑。在新形勢下,高校學生思政管理工作面臨著巨大挑戰(zhàn),所以適時不斷調整思想工作的途徑,加強先進經(jīng)驗的交流,可以有效的提高高校思政工作的效果,對此,本文借助數(shù)據(jù)挖掘技術進行嘗試,通過聚類結果分析,所挖掘到的信息對學生工作具有一定的參考價值。
1數(shù)據(jù)挖掘技術在思想政治教育中的實際應用
。保彼枷胝谓逃芾黼S著高等教育的不斷發(fā)展與普及,給高校思想政治教育帶來一定挑戰(zhàn),在通常情況下,學校相關部門會對教育管理工作進行數(shù)據(jù)收集,但是目前對這些數(shù)據(jù)的處理還處于底層的查找與簡單分析階段,不能夠挖掘出其中的價值。為了更加具體的了解思政教育工作者的工作情況,學校每學期會組織學生對輔導員的工作進行評議,填寫輔導員“工作考核量化表”如何從中提取有價值的信息,對高校思想政治教育有非常重要的意義[1]。1.2解決方案數(shù)據(jù)挖掘屬于一個方案得到肯定的過程,是數(shù)據(jù)分析研究的深層系手段,將數(shù)據(jù)挖掘技術運用到輔導員工作考核中具有特別意義。例如:通過數(shù)據(jù)挖掘技術手段分析“輔導員工作考核量化表”中的數(shù)據(jù),可以了解“某所高校思政管理整體水平”,在管理中“哪些方面做得好,哪些方面做得不到位”等相關問題。通過這些結論進一步完善高校思政教育管理。本文提出運用聚類分析的數(shù)據(jù)挖掘技術對輔導員的工作成效數(shù)據(jù)進行分析,將大批的數(shù)據(jù)轉換為聚類結果,從而更好的對數(shù)據(jù)加以利用。數(shù)據(jù)挖掘過程.步驟1:明確數(shù)據(jù)挖掘的對象和主要目的,通過數(shù)據(jù)挖掘雖然不能預測最終結果,但是可以對所研究的問題進行預測,所以挖掘目標的確定是數(shù)據(jù)挖掘的關鍵步驟[2]。步驟2:數(shù)據(jù)采集,該過程的任務比較繁重,并且需要時間比較多。在品勢的教育管理中,要認真的收集數(shù)據(jù)信息,一部分數(shù)據(jù)是直接可以拿到的,一部分數(shù)據(jù)則需要通過調研才能獲得。步驟3:數(shù)據(jù)預處理,將收集到的數(shù)據(jù)轉變成可分析的數(shù)據(jù)模型,該模型是根據(jù)算法來準備的,不同的算法對數(shù)據(jù)模型的要求是不一樣的。步驟4:數(shù)據(jù)類聚挖掘,通過類聚挖掘能夠將數(shù)據(jù)模型劃分為相似的多個組,該過程主要為數(shù)據(jù)模型的輸入過程以及聚類算法的選擇進行實現(xiàn)。步驟5:聚類結果分析,該過程主要分析研究聚類數(shù)據(jù)挖掘之后得到的多個組屬性。步驟6:知識應用,將研究所得的信息集成到輔導員的管理教育環(huán)節(jié)中,思政工作者通過該結論促進教學管理,形成良好的管理方針[3]。
2數(shù)據(jù)挖掘技術在思政教育工作中具體方案實施
。玻贝_定數(shù)據(jù)挖掘對象收集并整理某大學2017年“輔導員工作考核量化表”,整理其中關于輔導員教育管理的120張考核量化表,嘗試解答高校思政教育中存在的問題,經(jīng)過對有價值數(shù)據(jù)的挖掘,得出結論為教學管理帶來有效的指導價值。2.2數(shù)據(jù)采集從學校學生工作處,搜集2017年度“輔導員工作考核量化表”。2.3數(shù)據(jù)預處理“輔導員工作考核量化表”要求輔導員在“堅持標準,獎懲分明,客觀公正的對待每一位學生!薄罢J真做好勤工助學活動。”“正確分析學生的思想動態(tài)”等幾個指標項目中,根據(jù)輔導員的實際工作表現(xiàn),劃分為“優(yōu)秀、良好、合格、較差、差”五等類型等級。最終獲得比較完整的考核記錄工作考核量化表117張。2.4數(shù)據(jù)轉換在工作考核量化表中考核等級的`項目共15項,如何將數(shù)據(jù)合成到一個聚類分析的模式中非常關鍵,按照“管理態(tài)度”“管理能力”“管理方法”“管理效果”四方面屬性來對工作考核量化表中的數(shù)據(jù)進行重新組合:其中“管理態(tài)度”=(堅持標準+與同學之間感情融洽+言談得體+辦事客觀)/4“管理能力”=(準確掌握貧困生情況+準確掌握特殊群體+嚴格教育與查出違紀學生+勝任工作+組織學生做好評優(yōu)工作)/5“管理方法”=(每周3次以上探入班級宿舍+積極參加檢查學生早操+學生獎學金發(fā)放到位+有準備的與學生談話+檢查宿舍衛(wèi)生)/5“管理效果”=(積極參加團活班會+課下了解學生思想狀況+評論與建議)/3通過以上處理,可以將工作考核量化表關系到的十五個考評等級統(tǒng)一演化到四個屬性中。然后針對117份數(shù)據(jù)樣本信息的4個屬性采取聚類挖掘的方法進行研究。通過樣本預處理得到數(shù)據(jù)樣本.2.5數(shù)據(jù)聚類挖掘數(shù)據(jù)的聚類挖掘采用劃分方法中的經(jīng)典算法K均值以及K中心點算法,其中K代表類別個數(shù)(K=3),主要挖掘思路為:將n個對象劃分為K個簇,使同一簇中的對象具有較高的相似度,K均值算法主要是使用簇中對象的平均值作為參考值。K均值算法的復雜度可以通過進一步計算得出O(nkt),n代表簇的數(shù)量,t代表反復迭代的次數(shù),在一般情況下,k與t都會遠小于n。針對所要分析的數(shù)據(jù)樣本,四類屬性都是通過數(shù)據(jù)轉換而得到的,所要的數(shù)據(jù)都是算術平均值,所以產(chǎn)生孤立點的可能性非常小,最終選用K均值的算法來運用于本研究的數(shù)據(jù)聚類中。一般情況下,K均值算法當局部取得最優(yōu)解時會終止,所以一定要對數(shù)據(jù)樣本進行改進,考察數(shù)據(jù)樣本信息的綜合比例分布情況,采取進一步措施對K均值算法進行改進得到三個等級樣本,3數(shù)據(jù)挖掘算法流程3.1算法實現(xiàn)的流程算法實現(xiàn)流程。在K均值算法中,函數(shù)LoadPatterns的作用主要是將數(shù)據(jù)信息裝載到程序中,目的是為了從數(shù)據(jù)庫文件中讀取相關信息,并且將文件中的數(shù)據(jù)轉換成樣本數(shù)組。函數(shù)RunK-Means()的作用是算法的主程序,將所有對象同簇中心距離進行對比,然后將對象劃分到最近的簇中。函數(shù)Show-Centers()代表算法所描述的聚類中心。函數(shù)ShowClusters()表示樣本的標識符號[4]。3.2主控程序RunKMeans()的調用從而找到最短距離的簇,然后運用DistributeSam-ples()將所有對象劃分到最近的簇當中,算出所有簇中對象的平均值,作為新的質心,如果所有新的質心不發(fā)生改變,則聚類結束。
3聚類結果分析
本文運用K均值算法對120個數(shù)據(jù)通過數(shù)據(jù)轉換得到的樣本數(shù)據(jù)進行分析,對管理態(tài)度、管理能力、管理方法、管理效果4個屬性進行數(shù)據(jù)挖掘聚類,設置初始k值為3,最終挖掘到的結果.根據(jù)以上結果,每個簇所包括的數(shù)據(jù)樣本最后的比例分布范圍如下:簇1(較好)共計36個樣本,刪除定義樣本,剩余35個數(shù)據(jù)樣本,占35/117=30%。簇2(中等)共計74個樣本,刪除一個標準樣本,剩余73個數(shù)據(jù)樣本,占73/117=62%。簇3(較差)共計10個樣本,刪除一個標準樣本,剩余9個數(shù)據(jù)樣本,占9/117=8%“管理態(tài)度”=0.77*30%+0.61*62%+0.31*8%=0.634“管理能力”=0.77*30%+0.57*62%+0.31*8%=0.6092“管理方法”=0.74*30%+0.54*62%+0.28*8%=0.5792“管理效果”=0.79*30%+0.56*62%+0.30*8%=0.6082從總體得分由高到低排序為:管理態(tài)度、管理能力、管理效果、管理方法?傮w上證明該校的思政管理水平屬于中等偏上的。
4總結
數(shù)據(jù)挖掘,主要是通過對原始數(shù)據(jù)的分析、提煉,找到最優(yōu)價值的信息的過程,屬于一類深層次的數(shù)據(jù)分析方法。將數(shù)據(jù)挖據(jù)技術運用在高校思想政治教育中,有利于對思政教育工作者的多項工作指標進行分析,對其綜合能力進行評定,為高校進一步完善思想政治教育管理決策,準確定位人才培養(yǎng)目標,加強教育團隊建設提供有效的數(shù)據(jù)依據(jù)。
參考文獻
[1]劉強珺,丁養(yǎng)斌.基于數(shù)據(jù)挖掘技術的高校思政教育管理研究[J].電子測試,2015(1):101-103.
。郏玻莘跺肺,韓松洋.思想政治教育在高校內(nèi)涵式發(fā)展中的重新定位[J].中共珠海市委黨校珠海市行政學院學報,2015(4):50-54.
。郏常輩切↓垼瑥堺慃悾髷(shù)據(jù)視角下高校思想政治理論教育創(chuàng)新[J].江西理工大學學報,2017(8):20-23.
。郏矗堇钇綐s.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術與應用[J].重慶三峽學院學報,2014(5):159.
。郏担菔嬲澹疁\談數(shù)據(jù)挖掘技術及其應用[J].中國西部科技,2010(2):148-150.
作者:關翠玲 單位:陜西財經(jīng)職業(yè)技術學院
數(shù)據(jù)挖掘論文2
[摘要] 電子商務是現(xiàn)代商業(yè)模式,數(shù)據(jù)挖掘是先進的信息處理技術,因此數(shù)據(jù)挖掘在電子商務中具有廣闊的應用前景。本文主要介紹了web數(shù)據(jù)挖掘的概念和分類,論述了電子商務中web數(shù)據(jù)挖掘的過程和方法,最后闡述了web數(shù)據(jù)挖掘技術在電子商務中的應用。
[關鍵詞] web 數(shù)據(jù)挖掘 電子商務
一、引言
電子商務是利用計算機技術、網(wǎng)絡技術和遠程通信技術,實現(xiàn)整個商務(買賣)過程中的電子化、數(shù)字化和網(wǎng)絡化。在全球范圍內(nèi),基于internet的電子商務迅猛發(fā)展,促使各企業(yè)經(jīng)營者必須及時搜集大量的數(shù)據(jù),并且將這些數(shù)據(jù)轉換成有用的信息,為企業(yè)創(chuàng)造更多潛在的利潤。利用web數(shù)據(jù)挖掘技術可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù),提取出有效信息,進而指導企業(yè)調整營銷策略,給客戶提供動態(tài)的個性化的高效率服務。
二、web數(shù)據(jù)挖掘
1.web數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是指從數(shù)據(jù)庫中的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的過程。web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術在web環(huán)境下的應用,是從web文檔和web活動中發(fā)現(xiàn)潛在的、有用的模式或信息。它是一項綜合技術,涉及到internet、人工智能、計算機語言學、信息學、統(tǒng)計學等多個領域。
2.web數(shù)據(jù)挖掘的類型
電子商務中web信息的多樣性決定了挖掘任務的多樣性。按照web處理對象的不同,web數(shù)據(jù)挖掘可以分為以下三種類型:
(1)web內(nèi)容挖掘(web content mining):可分為web頁面內(nèi)容挖掘和搜索結果挖掘。WWW.133229.COM前者指的是對web頁面上的數(shù)據(jù)進行挖掘。而后者指的是以某一搜索引擎為基礎,對已搜索結果的挖掘,以得到更精確有用的信息。web內(nèi)容挖掘常用的方法有weboql和ahoy。
(2)web結構挖掘(web structure mining):可分為超鏈接挖掘、內(nèi)容挖掘和url挖掘。整個web空間里,有用的知識不僅包含在web頁面的內(nèi)容之中,而且包含在頁面的結構之中。web結構挖掘是挖掘web潛在的鏈接結構模式,是對web頁面超鏈接關系、文檔內(nèi)部結構、文檔url中的目錄途徑結構的挖掘。page2rank方法就是利用文檔間鏈接信息來查找相關的web頁。
(3)web使用挖掘(web usage mining):可分為一般訪問模式挖掘和個性化服務模式挖掘。它是從web的訪問記錄中抽取感興趣的模式。/dianzijixie/">電子商務中,關聯(lián)規(guī)則的發(fā)現(xiàn)也就是找到客戶對網(wǎng)站上各種文件之間訪問的相互聯(lián)系。聯(lián)系的問題就是得到如下形式的規(guī)則:“”, 其中與均為在數(shù)據(jù)庫中相關數(shù)據(jù)特征屬性值的集合。例如,用關聯(lián)規(guī)則技術,我們可以發(fā)現(xiàn):如果客戶在一次訪問行為中,訪問了頁面/page1時,一般也會訪問頁面/page2。進行web上的數(shù)據(jù)挖掘,構建關聯(lián)模型,我們可以更好地組織站點,減少用戶過濾信息的負擔,實施有效的市場策略,增加交叉銷售量。
4.序列模式(sequential pattern)
序列模式分析的目的是為了挖掘出數(shù)據(jù)間的前后或因果關系,就是在時間戳有序的事務集中,找到那些“一些項跟隨另一個項”的內(nèi)部事務模式。例如,在/page1上進行過在線訂購的顧客,有60%的人在過去10天內(nèi)也在/page2上下過定單。通過序列模式的發(fā)現(xiàn),能夠便于電子商務的經(jīng)營者預測客戶的'訪問模式,在服務器方選取有針對性的頁面,以滿足訪問者的特定要求;網(wǎng)站的管理員可將訪問者按瀏覽模式分類,在頁面上只展示具有該瀏覽模式的訪問者經(jīng)常訪問的鏈接,而用一個“更多內(nèi)容”指向其他未被展示的內(nèi)容。當訪問者瀏覽到某頁面時,檢查他的瀏覽所符合的序列模式,并在顯眼的位置提示“訪問該頁面的人通常接著訪問”的若干頁面。
5.分類規(guī)則(classification regulation)
分類要解決的問題是為一個事件或對象歸類。設有一個數(shù)據(jù)庫和一組具有不同特征的類別(標記),該數(shù)據(jù)庫中的每一個記錄都賦予一個類別的標記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其它數(shù)據(jù)庫中的記錄進行分類。例如,經(jīng)過web挖掘發(fā)現(xiàn),在/page1進行過在線訂購的客戶中有60%是20歲~30歲生活在大中城市的年輕人。得到分類后,就可以針對這一類客戶的特點展開商務活動,提供有針對性的個性化的信息服務。用于分類分析的方法有統(tǒng)計方法的貝葉斯分類、機器學習的判定樹歸納分類、神經(jīng)網(wǎng)絡的后向傳播分類、k-最臨近分類、mbr、遺傳法、粗糙集和模糊集等。
6.聚類分析(clustering analysis)
聚類分析不同于分類規(guī)則,其輸入集是一組未標定的記錄,也就是說,此時輸入的記錄還沒有進行任何分類。其目的是根據(jù)一定的規(guī)則,合理地劃分記錄集合,并用顯式或隱式的方法描述不同的類別。在電子商務中,通過聚類具有相似瀏覽行為的客戶,可使經(jīng)營者更多地了解客戶,為客戶提供更好的服務。例如,一些客戶在一個時間段內(nèi)經(jīng)常瀏覽“wedding celebration”,經(jīng)過分析可將這些客戶聚類為一組,并可進一步得知這是一組即將結婚的客戶,對他們的服務就應該有別于其他的聚類客戶,如“經(jīng)理人員階層組”、“學生階層組”。這樣,web可自動給這個特定的顧客聚類發(fā)送新產(chǎn)品信息郵件,為這個顧客聚類動態(tài)地改變一個特殊的站點。在一定程度上滿足客戶的要求,這對客戶和銷售商來說更有意義。
三、web數(shù)據(jù)挖掘技術在電子商務中的應用
1.挽留老顧客,挖掘潛在客戶
通過web挖掘,電子商務的經(jīng)營者可以獲知每位訪問者的個人愛好,充分地了解客戶的需要,根據(jù)每一類顧客的獨特需求提供定制化的產(chǎn)品,并根據(jù)需求動態(tài)地向客戶做頁面推薦,調整web頁面,提高客戶滿意度,延長客戶駐留的時間,最終達到留住客戶的目的。通過挖掘web日志記錄,可以先對已經(jīng)存在的訪問者進行分類,然后從它的分類判斷出某個新客戶是否是潛在的客戶。
2.制定產(chǎn)品營銷策略,優(yōu)化促銷活動
通過對商品訪問情況和銷售情況進行挖掘,企業(yè)能夠獲取客戶的訪問規(guī)律,確定顧客消費的生命周期,根據(jù)市場的變化,針對不同的產(chǎn)品制定相應的營銷策略。
3.降低運營成本,提高企業(yè)競爭力
電子商務的經(jīng)營者通過web數(shù)據(jù)挖掘,可以得到可靠的市場反饋信息,認真分析顧客的將來行為,進行有針對性的電子商務營銷活動;可以根據(jù)關心某產(chǎn)品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率,從而降低運營成本,提高企業(yè)競爭力。
4.提高站點點擊率,完善電子商務網(wǎng)站設計
通過挖掘客戶的行為記錄和反饋情況為站點設計者提供改進的依據(jù),進一步優(yōu)化網(wǎng)站組織結構以提高網(wǎng)站的點擊率。比如利用關聯(lián)規(guī)則的發(fā)現(xiàn),可以針對不同客戶動態(tài)調整站點結構,使客戶訪問的有關聯(lián)的文件間的鏈接更直接,讓客戶容易地訪問到想要的頁面,就能給客戶留下好的印象,增加下次訪問的機率。
同時對網(wǎng)站上各種數(shù)據(jù)的統(tǒng)計分析有助于改進系統(tǒng)性能,增強系統(tǒng)安全性,并提供決策支持。
四、結束語
當今時代,電子商務的發(fā)展勢頭越來越強勁,面向電子商務的數(shù)據(jù)挖掘將是一個非常有前景的領域。但是,不可否認,在面向電子商務的數(shù)據(jù)挖掘中還存在很多急需解決的問題, 比如:怎樣將服務器的日志數(shù)據(jù)轉化成適合某種數(shù)據(jù)挖掘技術的數(shù)據(jù)格式;怎樣解決分布性、異構性數(shù)據(jù)源的挖掘問題;如何控制整個web上的知識發(fā)現(xiàn)過程等。
參考文獻:
[1]jiawei han,micheline kamber著,范明孟小峰譯:數(shù)據(jù)挖掘概念與技術.機械工業(yè)出版社,20xx,8
[2]凌傳繁:web挖掘技術在電子商務中的應用[j].情報雜志,20xx,(1)
[3]柳:web挖掘技術與電子商務[j].商場現(xiàn)代化,20xx,(03x)
數(shù)據(jù)挖掘論文3
摘要:隨著信息技術的發(fā)展與進步,大數(shù)據(jù)時代已經(jīng)悄然走進人們身邊,云計算技術的運用已經(jīng)隨處可見,并改變和影響著人們的生活。在此基礎上,數(shù)據(jù)挖掘技術產(chǎn)生并發(fā)展,其在信息安全系統(tǒng)開發(fā)和建設方面產(chǎn)生重要影響和作用,以數(shù)據(jù)挖掘技術為依托構建相應的信息安全系統(tǒng)則更加能夠讓網(wǎng)絡信息建設可靠、安全。
關鍵詞:數(shù)據(jù)挖掘技術;信息安全系統(tǒng);開發(fā)研究
一、數(shù)據(jù)挖掘的主要任務
在數(shù)據(jù)挖掘的主要任務中,包含關聯(lián)分析、聚類分析、異常檢測等任務。關聯(lián)分析也叫頻繁模式分析,其指的是就同一任務或者統(tǒng)一事件的查找過程中,另一事件也同樣會發(fā)生相同規(guī)律,兩者之間具有緊密聯(lián)系。聚類分析主要是的是對各個數(shù)據(jù)內(nèi)在的規(guī)律摸索,以及特點分析,通過對特點和規(guī)律進行對比,依照特點和規(guī)律進行數(shù)據(jù)源分類,使其成為若干個數(shù)據(jù)庫。異常檢測指的是對數(shù)據(jù)樣本的范本進行建設,利用這一范本,與數(shù)據(jù)源中所存在的數(shù)據(jù)開展對比分析工作,將數(shù)據(jù)中的異常樣本查找出來[1]。在監(jiān)督學習中,主要包含分類與預測兩種形式,利用已知樣本的類型與大小,對新到樣本開展有關預測活動。
二、基于數(shù)據(jù)挖掘的網(wǎng)絡信息安全策略
1.安全的網(wǎng)絡環(huán)境
(1)對控制技術進行隔離與訪問,包括物理隔離、可信網(wǎng)絡隔離、邏輯隔離與不可信網(wǎng)絡隔離,相關用戶如果需要進行網(wǎng)絡資源搜集或者訪問,需要得到相關授權。
。2)對防病毒技術進行運用,由于網(wǎng)絡安全已受到病毒的嚴重威脅,應當對病毒預警、防護以及應急機制進行建設,確保網(wǎng)絡的安全性;
。3)通過網(wǎng)絡入侵檢測技術的應用,能夠對非法入侵者的破壞行為及時發(fā)現(xiàn),并依照存在的隱患進行預警機制的建設。網(wǎng)絡安全環(huán)境的建設還包括對系統(tǒng)安全性開展定期分析,在第一時間對系統(tǒng)漏洞進行查找,并制定有關解決措施;
(4)通過有關分析審計工作的開展,可以對計算機網(wǎng)絡中的各種運行活動進行記錄,不僅可以對網(wǎng)絡訪問者予以確定,而且還能夠對系統(tǒng)的使用情況進行記錄;
。5)通過網(wǎng)絡備份與災難恢復工作,能夠利用最短的時間回復已破壞的系統(tǒng)。
2.保證數(shù)據(jù)挖掘信息安全的策略。安全的數(shù)據(jù)挖掘信息指的是數(shù)據(jù)挖掘信息的儲存、傳送以及運用工作的安全性。在數(shù)據(jù)挖掘信息的存儲安全中,主要包括其物理完整性、邏輯完整性以及保密性。利用數(shù)據(jù)完整性技術、數(shù)據(jù)傳輸加密技術以及防抵賴性技術,使數(shù)據(jù)挖掘信息傳送的安全性得到充分保障。數(shù)據(jù)挖掘信息運用的安全性指的是針對網(wǎng)絡中的主體,應當開展有關驗證工作,預防非授權主體對網(wǎng)絡資源進行私自運用。
3.基于數(shù)據(jù)挖掘的網(wǎng)絡安全數(shù)據(jù)分析策略
。1)關聯(lián)性分析。在一次攻擊行為中,利用源地址、目的地址以及攻擊類型這三要素,通過三要素之間的隨意指定或組合,都能夠將具備一定意義的網(wǎng)絡攻擊態(tài)勢反映出來。
。2)事件預測機制。對某一事件的發(fā)展情況進行跟蹤,通過數(shù)據(jù)聚類算法的應用,對依照網(wǎng)絡事件所構建的模型進行分析,進而做出判定。一般來說,規(guī)模比較大的網(wǎng)絡事件中,擴散一般是其所呈現(xiàn)的重要特征。
(3)可控數(shù)量預測模型。利用對事件中受控主機狀態(tài)增長數(shù)量進行觀測,判斷該事件的感染能力。所謂的受控主機狀態(tài)增長指的'是,先前未檢測出主機受到某類攻擊,利用有關檢測,對其狀態(tài)變化增長情況予以發(fā)現(xiàn)[2]。
(4)分析處理模型。通過分析處理模型,能夠科學分析運營商事件處理反饋情況,并對其針對被控主機的處理能力進行判定。利用對所有運營商所開展的綜合評估,能夠對其管轄范圍內(nèi)的主機處理能力予以綜合判斷。
。5)網(wǎng)絡安全數(shù)據(jù)分析模型。針對網(wǎng)絡事件進行數(shù)據(jù)分析,通過分析構建相應模型,結合模型進行異常情況的跟進和跟蹤,從而為網(wǎng)絡安全環(huán)境的營造創(chuàng)造條件。其運行過程主要包括兩個階段:
、僭趯W習階段中,用戶主要是對事件進行確定,并在計算機系統(tǒng)中進行定義,對各個時間段所發(fā)生的安全事件數(shù)量進行統(tǒng)計。一般來說,統(tǒng)計以小時為單位,單位時間內(nèi)的安全事件平均數(shù)為x,方差為σ。
、谠趯崟r檢測階段中,根據(jù)時間間隔各類安全事件的數(shù)量ix對安全事件數(shù)量是否出現(xiàn)異常情況進行判定,正常的安全事件數(shù)量輕度異常的安全事件數(shù)量中度異常的安全事件數(shù)量重度異常的安全事件數(shù)量在建設模型的過程中開展有關配置工作,依據(jù)不同的情形,對該參數(shù)進行調整,各類安全事件數(shù)量異常的最高值也就是安全事件數(shù)量指標值。
三、結語
云計算和大數(shù)據(jù)時代都對信息技術提出了更高的安全要求和標準,網(wǎng)絡安全系統(tǒng)的構建影響著人們的生活和生產(chǎn),并對相關的數(shù)據(jù)起到重要保護作用。結合數(shù)據(jù)挖掘技術進行信息安全系統(tǒng)的開發(fā)和建設,則能夠更好地促進網(wǎng)絡安全性的提升,能夠有效抵制網(wǎng)絡不法分子的侵襲,讓網(wǎng)絡安全性真正為人們的生活工作提供幫助。
參考文獻
[1]趙悅品.網(wǎng)絡信息安全防范與Web數(shù)據(jù)挖掘系統(tǒng)的設計與實現(xiàn)[J].現(xiàn)代電子技術,20xx,40(04):61-65.
[2]梁雪霆.數(shù)據(jù)挖掘技術的計算機網(wǎng)絡病毒防御技術研究[J].科技經(jīng)濟市場,20xx(01):25.
數(shù)據(jù)挖掘論文4
摘要:橡膠是一種重要的戰(zhàn)略物資, 其種植受到土地資源、地理環(huán)境、橡膠機械化的影響, 產(chǎn)量波動很大。本文對農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工引入數(shù)據(jù)挖掘技術的必要性進行了初步探究, 指出通過提取土壤圖像的特征, 用支持向量機的算法可以發(fā)現(xiàn)橡膠種植、生產(chǎn)加工的規(guī)律, 進而制定精準的橡膠產(chǎn)業(yè)相關策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤。
關鍵詞:橡膠種植; 數(shù)據(jù)挖掘; 特征提取; 支持向量機.
基金:廣東農(nóng)工商職業(yè)技術學院校級課題“基于數(shù)據(jù)挖掘技術的橡膠產(chǎn)業(yè)的數(shù)字化研究” (xykt1601)橡膠是一種重要的戰(zhàn)略物資, 與石油、鋼鐵、煤炭并稱為四大工業(yè)原料。我國是全球最大的天然橡膠消費國和進口國, 國內(nèi)天然橡膠長期處于缺口狀態(tài), 需求的2/3依賴進口來滿足[1]。天然橡膠產(chǎn)業(yè)屬于資源約束型、勞動密集型產(chǎn)業(yè), 相對其他農(nóng)作物來說, 具有周期長、收益長等特點。農(nóng)墾橡膠業(yè)的產(chǎn)生、發(fā)展與壯大實際上是中國橡膠業(yè)發(fā)展的一個縮影, 一直是學術界研究的熱點。根據(jù)農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工的歷史數(shù)據(jù)進行數(shù)據(jù)挖掘, 發(fā)現(xiàn)其種植、生產(chǎn)加工的規(guī)律, 進而制定精準的橡膠產(chǎn)業(yè)相關策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤的數(shù)字化研究, 目前國內(nèi)還比較少。
1 引入數(shù)據(jù)挖掘技術的必要性
天然橡膠以其獨具的高彈性、高強度、高伸長率、耐磨、耐撕裂、耐沖擊、耐酸堿、耐油、耐腐蝕、耐高低溫和絕緣性好、粘合性、密封性強等特點, 始終處于不可替代的地位。我國天然橡膠需求量大, 近幾年一直處于供不應求的狀態(tài)。造成這種局面的原因主要有以下兩點:一、國內(nèi)輪胎工業(yè)迅猛發(fā)展;二、天然橡膠的種植條件苛刻。其種植條件苛刻主要體現(xiàn)在對種植地要求高, 如對土地的含碳、含氮、濕度等要求都很嚴格;容易受到寒害、蟲害、臺風的襲擊。橡膠的供應不足阻礙了我國經(jīng)濟 (特別是輪胎行業(yè)) 的發(fā)展;诖吮尘跋, 本文通過數(shù)據(jù)挖掘技術對橡膠樹生長地的土壤進行評價研究, 為尋找出最適合橡膠樹生長的土壤和尋找橡膠樹種植地提供依據(jù), 一方面可以降低種植橡膠的成本, 另一方面可以讓新的橡膠農(nóng)更容易掌握種植橡膠技巧, 讓更多的人加入種植橡膠的隊伍中。
2 數(shù)字化流程圖
2.1 樣本采集
研究的橡膠林可以分為4種不同林齡膠林:幼林早期 (0~2齡) 、幼林晚期 (2~7齡) 、開割數(shù) (7~16齡) 、老齡即將更新數(shù) (>16齡) 。取土壤樣本的時間要在晴天上午, 如果遇雨天, 則等2個晴天后再進行取樣。每個林齡段中隨機設置n個樣地:每個樣地的面積a (m) ×b (m) , 分0~15cm、15~30cm、30~45cm、45~60cm4個層次拍攝土壤樣品, 每個層次拍攝m張。每張土壤樣品圖片的命名規(guī)則為“膠林-層次.jpg”。
2.2 特征提取
通過拍攝得到的土壤圖像, 由于圖像的維度過大, 不容易分析, 需要從中提取土樣圖像的特征, 提取反應圖像本質的一些關鍵指標, 以達到自動進行圖像識別的目的。
圖像的特征主要包括顏色特征、紋理特征、形狀特征等。本文主要運用圖片的顏色特征和紋理特征建立圖片自動識別模型。
2.2.1 顏色特征
圖片的顏色特征用顏色矩表示;陬伾靥崛D像特征的數(shù)學基礎在于圖像中任何的顏色分布均可以用它的矩來表示。顏色的矩包含各個顏色通道的一階矩、二階矩和三階矩, 對于一幅RGB顏色空間的圖像, 具有R、G和B三個顏色通道, 共有9個分量。
2.2.2 紋理特征
圖片的紋理特征主要灰度共生矩陣里面中提取。因為紋理是由灰度分布在空間位置上反復交替變化而形成的, 因而在圖像空間中相隔某距離的兩個像素間一定存在一定的'灰度關系, 稱為是圖像中灰度的空間相關特性。
其中L表示圖像的灰度級, i, j分別表示像素的灰度。d表示兩個像素間的空間位置關系。不同的d決定了兩個像素間的距離和方向。元素Pd (1, 0) 代表了圖像上位置關系為d的兩個像素灰度分別為1和0的情況出現(xiàn)的次數(shù)。
在建模中一般不直接用圖片的灰度共生矩陣建模, 往往要從灰度共生矩陣中提取它的特征參數(shù)用戶建模。灰度共生矩陣的特征參數(shù)有二階距、對比度、相關、熵。
3 模型構建
特征提取完之后, 用支持向量機算法對圖像進行圖片識別。根據(jù)識別出的結果就可以有針對性的對土壤做些有利于橡膠樹生長的干預工作, 如:如果識別出土壤缺少氮元素, 可以給土壤適當?shù)氖┬┑?如果識別出土壤的水分較少, 就要給土壤澆水, 給農(nóng)墾橡膠產(chǎn)業(yè)提供數(shù)學指導意義。
4 結論
本文分析了橡膠種植中引入數(shù)據(jù)挖掘技術的必要性, 對橡膠種植數(shù)字化研究做了初步闡述。可以給橡膠業(yè)提供一定的參考意義。
參考文獻
[1]黃冠, 吳紅宇.廣東農(nóng)墾天然橡膠種植現(xiàn)狀及“走出去”戰(zhàn)略實踐.中國熱帶農(nóng)業(yè), 20xx, 3 (4) , 18-21.
[2]李煒.廣東農(nóng)墾“走出去”做強做大橡膠產(chǎn)業(yè).今日熱作, 20xx, 19 (1) , 52-53.
[3]Rapepun Wititsuwannakul, Piyaporn Pasitkul, et.al.Hevea latex lectin binding protein in C-serum as an anti-latex coagulating factor and its role in a proposed new model for latex coagulation, Phytochemistry 20xx, 69 (1) , 656–662.
[4]勒碧.數(shù)據(jù)挖掘算法及其生產(chǎn)優(yōu)化應用中的研究.浙江大學碩士學位論文, 20xx.
數(shù)據(jù)挖掘論文5
摘要:本文主要以電力調度自動化系統(tǒng)中數(shù)據(jù)挖掘技術運用分析為重點進行闡述,結合當下數(shù)據(jù)挖掘概述為主要依據(jù),從神經(jīng)網(wǎng)絡法、灰色分析法、模糊分析法、線路故障專家系統(tǒng)、負荷管理專家系統(tǒng)、狀態(tài)檢修專家系統(tǒng)這六方面進行深入探索與研究,其目的在于提升電力調度自動化系統(tǒng)中數(shù)據(jù)挖掘技術運用效率,為加強電力調度自動化系統(tǒng)的實效性做鋪墊。
關鍵詞:數(shù)據(jù)挖掘;電力調度自動化;數(shù)據(jù)倉庫
0引言
對于電力調度自動化系統(tǒng)來講合理應用數(shù)據(jù)挖掘技術十分重要,其是確保電力調度自動化系統(tǒng)效用充分發(fā)揮的基礎,也是推動現(xiàn)代化社會持續(xù)穩(wěn)定發(fā)展的關鍵;诖耍嚓P人員需給予數(shù)據(jù)挖掘技術高度重視,促使其存在的價值與效用在電力調度自動化系統(tǒng)中發(fā)揮出最大,為提高我國國民生活水平奠定基礎。本文主要分析電力調度自動化系統(tǒng)中數(shù)據(jù)挖掘技術運用,具體如下。
1數(shù)據(jù)挖掘相關概述
從技術層面講,數(shù)據(jù)挖掘便是在諸多數(shù)據(jù)中,利用多種分析工具探尋數(shù)據(jù)同模型間的關系,并通過此種關系的發(fā)現(xiàn)為決策提供有效依據(jù)。由于數(shù)據(jù)挖掘的飛速發(fā)展,隨著出現(xiàn)了許多多元化的技術與方法,基于此便形成了多種不同的分類。通俗的講,能夠把數(shù)據(jù)挖掘分為驗證驅動性和發(fā)現(xiàn)驅動型這兩種知識發(fā)現(xiàn)。驗證驅動型指的是客戶利用多元化工具對自己所提的假設進行查詢與檢索,來否定或是驗證假設的一個過程;而發(fā)現(xiàn)驅動型是通過統(tǒng)計或是機器學習等技術來研究新的假設。
2數(shù)據(jù)挖掘技術在電力調度自動化系統(tǒng)中的運用
。1)灰色分析法。在對時間線上相關聯(lián)的數(shù)據(jù)進行分析時會應用到灰色分析法,通過應用一定的數(shù)學方法,把數(shù)據(jù)中的白色部分當作主要依據(jù),找出它同黑色部分有關聯(lián)的地方,進而實現(xiàn)數(shù)據(jù)灰色化。在挖掘電力數(shù)據(jù)時,灰色分析法為最普遍的利用方法之一,主要把其應用到電力數(shù)據(jù)預測及分析中。它的優(yōu)點為盡管數(shù)據(jù)不完整或是數(shù)據(jù)有限皆能夠應用與分析,但其不足為不能將大數(shù)據(jù)的使用價值充分的發(fā)揮出。
。2)神經(jīng)網(wǎng)絡法。所謂神經(jīng)網(wǎng)絡法指的是合理應用計算機的計算機能力的前提下,對離散數(shù)據(jù)展開邏輯處理的一種方式,為專家系統(tǒng)中應用的基礎方式。通過對計算機云計算的能力合理應用,這些專家系統(tǒng)能夠對電力數(shù)據(jù)進行深度分析、充分挖掘,其對電力數(shù)據(jù)預測與整理具有不可或缺的作用,事實上,神經(jīng)網(wǎng)絡法屬于人工智能法,其能夠實現(xiàn)對諸多數(shù)列展開聯(lián)動分析,并明確每個數(shù)列間的關系,讓其邏輯性得到有效發(fā)揮。
。3)模糊分析法。此種方法為聚類分析法的一種,是最常應用聚類方法,其主要是對已知數(shù)列進行聚類與分析,讓數(shù)據(jù)能夠展開全面、綜合的分類。同灰色分析法差異點為,利用模糊分析法能夠合理應用大數(shù)據(jù)優(yōu)勢,滿足對其的實質性需求。
3電力調度自動化對數(shù)據(jù)挖掘技術的具體需求
目前,我國數(shù)據(jù)挖掘技術,因五防系統(tǒng)等技術還處于發(fā)展的初級階段,對應的管理措施還未完全構成,所以,盡管說數(shù)據(jù)挖掘的專家系統(tǒng)以能夠在多方面展現(xiàn)出優(yōu)勢,但若想實現(xiàn)遙控系統(tǒng)和專家系統(tǒng)是一件不可能實現(xiàn)的事。
(1)負荷管理系統(tǒng)。電力負荷管理為電力調度自動化系統(tǒng)中的主要環(huán)節(jié)。依據(jù)冗余回路間的負荷分布,電能能夠自動對負荷的上級節(jié)點進行連續(xù)與切換。另外,當其中有一個節(jié)點出現(xiàn)故障,符合管理系統(tǒng)則能夠充分發(fā)揮效用,讓該故障節(jié)點在事故出現(xiàn)以后被自動切除。負荷管理系統(tǒng)的實際工作原理為依據(jù)對各線路的.負荷狀態(tài)進行全面監(jiān)測,并通過合理應用數(shù)據(jù)挖掘技術,對滿足這些狀態(tài)表現(xiàn)出的數(shù)據(jù)進行預測,并分析、判斷、整理這些數(shù)據(jù)變化形式,基于此來對負荷進行道閘分配。目前,在我國電力調度中,負荷管理系統(tǒng)已投入應用,但因有關技術的滯后性,不能實現(xiàn)同電網(wǎng)遠控系統(tǒng)完美對接,所以還沒有實現(xiàn)廣泛應用,對于調度系統(tǒng)中所發(fā)布的命令皆由人工來實現(xiàn)。
。2)線路故障系統(tǒng)。傳統(tǒng)的電力線路檢修,一般都是在線路出現(xiàn)嚴重故障以后,才開展利用相應方法對電力線路進行巡查,并且探尋出存在其中的故障。但若是把線路故障系統(tǒng)利用到其中,那么該系統(tǒng)會依據(jù)電力線路兩端產(chǎn)生故障形式,在電力線路產(chǎn)生故障以后自動且及時的判斷出電力線路受損的部位。相比于較完善的線路故障系統(tǒng)而言,還能夠同時判斷多個故障點。通過將線路故障系統(tǒng)利用到電力調動自動化系統(tǒng)之中,不但能夠將冗雜的線路切除掉,還能減小電力線路故障發(fā)生率,以及停電檢修率,并且還能在很大程度上監(jiān)督電力線路巡查力度,讓電力維修人員能夠有足夠的實踐對線路出現(xiàn)故障的部位分析、判斷,并制定與之對應的補救措施。特別是一些地埋線路等,利用此種能夠定位的線路故障系統(tǒng)具有積極作用。
(3)狀態(tài)檢修系統(tǒng)。對變壓器、電纜、開關等設施的具體運行狀態(tài)進行充分分析,外加對互感器、集中器等設備的運行狀況進行判斷,狀態(tài)檢修系統(tǒng)能夠以此來對電力調度自動化系統(tǒng)的運行狀態(tài)進行檢查,探究其是否健康,并深入規(guī)劃故障設備切除方案,自動的把故障設備切除掉。合理利用狀態(tài)檢修系統(tǒng)是電力檢修的前提條件,為實現(xiàn)對全部設備充分管理的關鍵點,并且其利用價值為能夠自動化更換再用設備,使倒閥變成檢修的狀態(tài),并朝著調動系統(tǒng)進行報警。當然,因有關技術的不成熟,導致狀態(tài)檢修系統(tǒng)在部分企業(yè)依舊處于閑置的狀態(tài),致使其含有的效用無法充分的發(fā)揮出。
4結束語
綜上所述,若想電力調度自動化系統(tǒng)存在的價值發(fā)揮出最大,有關人員加強數(shù)據(jù)挖掘技術應用勢在必行。因其是保證電力調度自動化系統(tǒng)穩(wěn)定性的根本要素,還是推動電力調度自動化系統(tǒng)效用發(fā)揮的關鍵點。為此,有關部門需合理應用數(shù)據(jù)挖掘技術,讓其包含的作用都利用到電力調度自動化系統(tǒng)中,為進一步提高社會公眾生活水平提供有效依據(jù)。
參考文獻:
[1]聶宇,羅超,高小芊,寇霄宇,何宇雄,苑晉沛,李蔚.基于電力調度自動化系統(tǒng)中數(shù)據(jù)挖掘技術的應用[J].科技創(chuàng)新與應用,20xx(03):143-144.
[2]周洋.數(shù)據(jù)挖掘在電力調度自動化系統(tǒng)中的應用解析[J].科技創(chuàng)新與應用,20xx(35):149-150.
[3]劉雅銘.解析電力調度自動化系統(tǒng)中數(shù)據(jù)挖掘技術應用[J].低碳世界,20xx(33):66-67.
[4]朱維佳,曹堅.電力調度自動化系統(tǒng)中數(shù)據(jù)挖掘技術的應用[J].電氣時代,20xx(07):108-111.
數(shù)據(jù)挖掘論文6
1.軟件工程數(shù)據(jù)的挖掘測試技術
1.1代碼編寫
通過對軟件數(shù)據(jù)進行分類整理,在進行缺陷軟件的排除工作以后,根據(jù)軟件開發(fā)過程中的各種信息進行全新的代碼編寫。基于代碼編寫人員的編寫經(jīng)驗,在一般情況,對結構功能與任務類似的模塊進行重新編寫,這些重新編寫的模塊應遵循特定的編寫規(guī)則,這樣才能保證代碼編寫的合理有效性。
1.2錯誤重現(xiàn)
代碼編寫完成以后開發(fā)者會將這些代碼進行版本的確認,然后將正確有效的代碼實際應用到適當版本的軟件中去。而對于存在缺陷的代碼,開發(fā)者需要針對代碼產(chǎn)生缺陷的原因進行分析,通過不但調整代碼內(nèi)的輸入數(shù)據(jù),直到代碼內(nèi)的數(shù)據(jù)與程序報告中的描述接近為止。存在缺陷的代碼往往會以缺陷報告的形式對開發(fā)者予以說明,由于缺陷報告的模糊性,常常會誤導開發(fā)者,進而造成程序設計混亂。
1.3理解行為
軟件開發(fā)者在設計軟件的過程中需要明確自己設計軟件中每一個代碼的內(nèi)容,同時還需要理解其他開發(fā)者編寫的代碼,這樣才能有效地完善軟件開發(fā)者的編寫技術。同時,軟件開發(fā)者在進行代碼編寫的過程中,需要對程序行為進行準確的理解,以此保證軟件內(nèi)文檔和注釋的準確性。
1.4設計推究
開發(fā)者在準備對軟件進行完善設計的過程中,首先需要徹底了解軟件的總體設計,對軟件內(nèi)部復雜的系統(tǒng)機構進行詳細研究與分析,充分把握軟件細節(jié),這有這樣才能真正實現(xiàn)軟件設計的合理性與準確性。
2.軟件工程數(shù)據(jù)挖掘測試的有效措施
2.1進行軟件工程理念和方法上的創(chuàng)新
應通過實施需求分析,將數(shù)據(jù)挖據(jù)逐漸演變成形式化、規(guī)范化的需求工程,在軟件開發(fā)理念上,加強對數(shù)據(jù)挖掘的重視,對軟件工程的架構進行演化性設計與創(chuàng)新,利用新技術,在軟件開發(fā)的過程中添加敏捷變成與間件技術,由此,提高軟件編寫水平。
2.2利用人工智能
隨著我國科學技術的不斷發(fā)展與創(chuàng)新,機器學習已經(jīng)逐漸被我國各個領域所廣泛應用,在進行軟件工程數(shù)據(jù)挖掘技術創(chuàng)新的'過程中,可以將機器學習及數(shù)據(jù)挖掘技術實際應用于軟件工程中,以此為我國軟件研發(fā)提供更多的便捷。人工智能作為我國先進生產(chǎn)力的重要表現(xiàn),在實際應用于軟件工程數(shù)據(jù)的挖掘工作時,應該利用機器較強的學習能力與運算能力,將數(shù)據(jù)統(tǒng)計及數(shù)據(jù)運算通過一些較為成熟的方法進行解決。在軟件工程數(shù)據(jù)挖掘的工作中,合理化的將人工智能實際應用于數(shù)據(jù)挖掘,以此為數(shù)據(jù)挖掘提供更多的開發(fā)測試技術。
2.3針對數(shù)據(jù)挖掘結果進行評價
通過分析我國傳統(tǒng)的軟件工程數(shù)據(jù)挖掘測試工作,在很多情況下,傳統(tǒng)的數(shù)據(jù)挖掘測試技術無法做到對發(fā)掘數(shù)據(jù)的全面評價與實際應用研究,這一問題致使相應的軟件數(shù)據(jù)在被發(fā)掘出來以后無法得到有效地利用,進而導致我國軟件開發(fā)工作受到嚴重的抑制影響。針對這一問題,數(shù)據(jù)開發(fā)者應該利用挖掘缺陷檢驗報告,針對缺陷檢驗的結果,制定相應的挖掘結構報告。同時,需要結合軟件用戶的體驗評價,對挖掘出的數(shù)據(jù)進行系統(tǒng)化的整理與分析,建立一整套嚴謹、客觀的服務體系,運用CodeCity軟件,讓用戶在的體驗過后可以對軟件進行評價。考慮到軟件的服務對象是人,因此,在軟件開發(fā)的過程中要將心理學與管理學應用于數(shù)據(jù)挖掘,建立數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)挖掘評價系統(tǒng)。
3.結束語
綜上所述,由于軟件工程數(shù)據(jù)挖掘測試技術廣闊的應用前景,我國相關部門已經(jīng)加大了對軟件技術的投資與開發(fā)力度,當下,國內(nèi)已經(jīng)實現(xiàn)了軟件工程的數(shù)據(jù)挖掘、人工智能、模式識別等多種領域上的發(fā)展。
數(shù)據(jù)挖掘論文7
題目:檔案信息管理系統(tǒng)中的計算機數(shù)據(jù)挖掘技術探討
摘要:伴隨著計算機技術的不斷進步和發(fā)展, 數(shù)據(jù)挖掘技術成為數(shù)據(jù)處理工作中的重點技術, 能借助相關算法搜索相關信息, 在節(jié)省人力資本的同時, 提高數(shù)據(jù)檢索的實際效率, 基于此, 被廣泛應用在數(shù)據(jù)密集型行業(yè)中。筆者簡要分析了計算機數(shù)據(jù)挖掘技術, 并集中闡釋了檔案信息管理系統(tǒng)計算機數(shù)據(jù)倉庫的建立和技術實現(xiàn)過程, 以供參考。
關鍵詞:檔案信息管理系統(tǒng); 計算機; 數(shù)據(jù)挖掘技術; 1 數(shù)據(jù)挖掘技術概述
數(shù)據(jù)挖掘技術就是指在大量隨機數(shù)據(jù)中提取隱含信息, 并且將其整合后應用在知識處理體系的技術過程。若是從技術層面判定數(shù)據(jù)挖掘技術, 則需要將其劃分在商業(yè)數(shù)據(jù)處理技術中, 整合商業(yè)數(shù)據(jù)提取和轉化機制, 并且建構更加系統(tǒng)化的分析模型和處理機制, 從根本上優(yōu)化商業(yè)決策。借助數(shù)據(jù)挖掘技術能建構完整的數(shù)據(jù)倉庫, 滿足集成性、時變性以及非易失性等需求, 整和數(shù)據(jù)處理和冗余參數(shù), 確保技術框架結構的完整性。
目前, 數(shù)據(jù)挖掘技術常用的工具, 如SAS企業(yè)的Enterprise Miner、IBM企業(yè)的Intellient Miner以及SPSS企業(yè)的Clementine等應用都十分廣泛。企業(yè)在實際工作過程中, 往往會利用數(shù)據(jù)源和數(shù)據(jù)預處理工具進行數(shù)據(jù)定型和更新管理, 并且應用聚類分析模塊、決策樹分析模塊以及關聯(lián)分析算法等, 借助數(shù)據(jù)挖掘技術對相關數(shù)據(jù)進行處理。
2 檔案信息管理系統(tǒng)計算機數(shù)據(jù)倉庫的建立
2.1 客戶需求單元
為了充分發(fā)揮檔案信息管理系統(tǒng)的優(yōu)勢, 要結合客戶的實際需求建立完整的處理框架體系。在數(shù)據(jù)庫體系建立中, 要適應迭代式處理特征, 并且從用戶需求出發(fā)整合數(shù)據(jù)模型, 保證其建立過程能按照整體規(guī)劃有序進行, 且能按照目標和分析框架參數(shù)完成操作。首先, 要確立基礎性的數(shù)據(jù)倉庫對象, 由于是檔案信息管理, 因此, 要集中劃分檔案數(shù)據(jù)分析的主題, 并且有效錄入檔案信息, 確保滿足檔案的數(shù)據(jù)分析需求。其次, 要對日常工作中的用戶數(shù)據(jù)進行集中的挖掘處理, 從根本上提高數(shù)據(jù)倉庫分析的完整性。
(1) 確定數(shù)據(jù)倉庫的基礎性用戶, 其中, 主要包括檔案工作人員和使用人員, 結合不同人員的工作需求建立相應的數(shù)據(jù)倉庫。
(2) 檔案工作要利用數(shù)據(jù)分析和檔案用戶特征分析進行分類描述。
(3) 確定檔案的基礎性分類主題, 一般而言, 要將文書檔案歸檔情況、卷數(shù)等基礎性信息作為分類依據(jù)。
2.2 數(shù)據(jù)庫設計單元
在設計過程中, 要針對不同維度建立相應的參數(shù)體系和組成結構, 并且有效整合組成事實表的主鍵項目, 建立框架結構。
第一, 建立事實表。事實表是數(shù)據(jù)模型的核心單元, 主要是記錄相關業(yè)務和統(tǒng)計數(shù)據(jù)的表, 能整合數(shù)據(jù)倉庫中的信息單元, 并且提升多維空間處理效果, 確保數(shù)據(jù)儲存過程切實有效。 (1) 檔案管理中文書檔案目錄卷數(shù)事實表:事實表主鍵, 字段類型Int, 字段為Id;文書歸檔年份, 字段類型Int, 字段為Gdyear_key;文書歸檔類型, 字段類型Int, 字段為Ajtm_key;文書歸檔單位, 字段類型Int, 字段為Gddw_key;文書檔案生成年份, 字段類型Int, 字段為Ajscsj_key, 以及文書檔案包括的文件數(shù)目。 (2) 檔案管理中文書檔案卷數(shù)事實表:事實表主鍵, 字段類型Int, 字段為Id;文書歸檔利用日期, 字段類型Int, 字段為Date_key;文書歸檔利用單位, 字段類型Int, 字段為Dw_key;文書歸檔利用類別, 字段類型Int, 字段為Dalb_key;文書歸檔利用年份, 字段類型Int, 字段為Dayear_key等[1]。
第二, 建立維度表, 在實際數(shù)據(jù)倉庫建立和運維工作中, 提高數(shù)據(jù)管理效果和水平, 確保建立循環(huán)和反饋的系統(tǒng)框架體系, 并且處理增長過程和完善過程, 有效實現(xiàn)數(shù)據(jù)庫模型設計以及相關維護操作。首先, 要對模式的基礎性維度進行分析并且制作相應的表, 主要包括檔案年度維表、利用方式維表等。其次, 要建構數(shù)據(jù)庫星型模型體系。最后, 要集中判定數(shù)據(jù)庫工具, 保證數(shù)據(jù)庫平臺在客戶管理工作方面具備一定的優(yōu)勢, 集中制訂商務智能解決方案, 保證集成環(huán)境的穩(wěn)定性和數(shù)據(jù)倉庫建模的效果, 真正提高數(shù)據(jù)抽取以及轉換工作的實際水平。需要注意的是, 在全面整合和分析處理數(shù)據(jù)的過程中, 要分離文書檔案中的數(shù)據(jù), 相關操作如下:
from dag gd temp//刪除臨時表中的數(shù)據(jù)
Ch count=dag 1.importfile (dbo.u wswj) //將文書目錄中數(shù)據(jù)導出到數(shù)據(jù)窗口
Dag 1.() //將數(shù)據(jù)窗口中的數(shù)據(jù)保存到臨時表
相關技術人員要對數(shù)據(jù)進行有效處理, 以保證相關數(shù)據(jù)合并操作、連接操作以及條件性拆分操作等都能按照數(shù)據(jù)預處理管理要求合理化進行, 從根本上維護數(shù)據(jù)處理效果。
2.3 多維數(shù)據(jù)模型建立單元
在檔案多維數(shù)據(jù)模型建立的過程中, 相關技術人員要判定聯(lián)機分析處理項目和數(shù)據(jù)挖掘方案, 整合信息系統(tǒng)中的數(shù)據(jù)源、數(shù)據(jù)視圖、維度參數(shù)以及屬性參數(shù)等, 保證具體單元能發(fā)揮其實際作用, 并且真正發(fā)揮檔案維表的穩(wěn)定性、安全性優(yōu)勢。
第一, 檔案事實表中的數(shù)據(jù)穩(wěn)定, 事實表是加載和處理檔案數(shù)據(jù)的基本模塊, 按照檔案目錄數(shù)據(jù)表和檔案利用情況表分析和判定其類別和歸檔時間, 從而提高數(shù)據(jù)獨立分析水平。一方面, 能追加有效的數(shù)據(jù), 保證數(shù)據(jù)倉庫信息的基本質量, 也能追加時間判定標準, 能在實際操作中減少掃描整個表浪費的時間, 從根本上提高實際效率。另一方面, 能刪除數(shù)據(jù), 實現(xiàn)數(shù)據(jù)更新, 檢索相關關鍵詞即可。并且也能同時修改數(shù)據(jù), 維護檔案撤出和檔案追加的動態(tài)化處理效果。
第二, 檔案維表的安全性。在維表管理工作中, 檔案參數(shù)和數(shù)據(jù)的安全穩(wěn)定性十分關鍵, 由于其不會隨著時間的推移出現(xiàn)變化, 因此, 要對其進行合理的處理和協(xié)調。維表本身的存儲空間較小, 盡管結構發(fā)生變化的概率不大, 但仍會對代表的對象產(chǎn)生影響, 這就會使得數(shù)據(jù)出現(xiàn)動態(tài)的變化。對于這種改變, 需要借助新維生成的方式進行處理, 從而保證不同維表能有效連接, 整合正確數(shù)據(jù)的同時, 也能對事實表外鍵進行分析[2]。
3 檔案信息管理系統(tǒng)計算機數(shù)據(jù)倉庫的實現(xiàn)
3.1 描述需求
隨著互聯(lián)網(wǎng)技術和數(shù)據(jù)庫技術不斷進步, 要提高檔案數(shù)字化水平以及完善信息化整合機制, 加快數(shù)據(jù)庫管控體系的更新, 確保設備存儲以及網(wǎng)絡環(huán)境一體化水平能滿足需求, 尤其是在檔案資源重組和預測項目中, 只有從根本上落實數(shù)據(jù)挖掘體系, 才能為后續(xù)信息檔案管理項目升級奠定堅實基礎。另外, 在數(shù)據(jù)表和文書等基礎性數(shù)據(jù)結構模型建立的基礎上, 要按照規(guī)律制定具有個性化的主動性服務機制。
3.2 關聯(lián)計算
在實際檔案分析工作開展過程中, 關聯(lián)算法描述十分關鍵, 能對某些行為特征進行統(tǒng)籌整合, 從而制定分析決策。在進行關聯(lián)規(guī)則強度分析時, 要結合支持度和置信度等系統(tǒng)化數(shù)據(jù)進行綜合衡量。例如, 檔案數(shù)據(jù)庫中有A和B兩個基礎項集合, 支持度為P (A∪B) , 則直接表述了A和B在同一時間出現(xiàn)的基礎性概率。若是兩者出現(xiàn)的概率并不大, 則證明兩者之間的關聯(lián)度較低。若是兩者出現(xiàn)的概率較大, 則說明兩者的關聯(lián)度較高。另外, 在分析置信度時, 利用Confidence (A→B) = (A|B) , 也能有效判定兩者之間的關系。在出現(xiàn)置信度A的情況下, B的出現(xiàn)概率則是整體參數(shù)關系的關鍵, 若是置信度的數(shù)值達到100%, 則直接證明A和B能同一時間出現(xiàn)。
3.3 神經(jīng)網(wǎng)絡算法
除了要對檔案的實際內(nèi)容進行數(shù)據(jù)分析和數(shù)據(jù)庫建構, 也要對其利用情況進行判定, 目前較為常見的利用率分析算法就是神經(jīng)網(wǎng)絡算法, 其借助數(shù)據(jù)分類系統(tǒng)判定和分析數(shù)據(jù)對象。值得注意的是, 在分類技術結構中, 要結合訓練數(shù)據(jù)集判定分類模型數(shù)據(jù)挖掘結構。神經(jīng)網(wǎng)絡算法類似于人腦系統(tǒng)的運行結構, 能建立完整的信息處理單元, 并且能夠整合非線性交換結構, 確保能憑借歷史數(shù)據(jù)對計算模型和分類體系展開深度分析[3]。
3.4 實現(xiàn)多元化應用
在檔案管理工作中應用計算機數(shù)據(jù)挖掘技術, 能對檔案分類管理予以分析, 保證信息需求分類總結工作的完整程度。尤其是檔案使用者在對檔案具體特征進行差異化分析的過程中, 能結合不同的元素對具體問題展開深度調研。一方面, 計算機數(shù)據(jù)挖掘技術借助決策樹算法處理規(guī)則化的檔案分析機制。在差異化訓練體系中, 要對數(shù)據(jù)集合中的數(shù)據(jù)進行系統(tǒng)化分析以及處理, 確保構建要求能適應數(shù)據(jù)挖掘的基本結構[4]。例如, 檔案管理人員借助數(shù)據(jù)挖掘技術能整合檔案使用人員長期瀏覽與關注的信息, 并且能集中收集和匯總間隔時間、信息查詢停留時間等, 從而建構完整的數(shù)據(jù)分析機制, 有效向其推送或者是提供便捷化查詢服務, 保證檔案管理數(shù)字化水平的提高。另一方面, 在檔案收集管理工作中應用數(shù)據(jù)挖掘技術, 主要是對數(shù)據(jù)信息進行分析, 結合基本結果建立概念模型, 保證模型以及測試樣本之間的比較參數(shù)符合標準, 從而真正建立更加系統(tǒng)化的分類框架體系。
4 結語
總而言之, 在檔案管理工作中應用數(shù)據(jù)挖掘技術, 能在準確判定用戶需求的同時, 維護數(shù)據(jù)處理效果, 并且減少檔案數(shù)字化的成本, 為后續(xù)工作的進一步優(yōu)化奠定堅實基礎。并且, 數(shù)據(jù)庫的建立, 也能節(jié)省經(jīng)費和設備維護成本, 真正實現(xiàn)數(shù)字化全面發(fā)展的目標, 促進檔案信息管理工作的長效進步。
參考文獻
[1]曾雪峰.計算機數(shù)據(jù)挖掘技術開發(fā)及其在檔案信息管理中的運用研究[J].科技創(chuàng)新與應用, 20xx (9) :285.
[2]王曉燕.數(shù)據(jù)挖掘技術在檔案信息管理中的應用[J].蘭臺世界, 20xx (23) :25-26.
[3]韓吉義.基于數(shù)據(jù)挖掘技術的高校圖書館檔案信息管理平臺的構筑[J].山西檔案, 20xx (6) :61-63.
[4]哈立原.基于數(shù)據(jù)挖掘技術的高校圖書館檔案信息管理平臺構建[J].山西檔案, 20xx (5) :105-107.
數(shù)據(jù)挖掘論文四: 題目:機器學習算法在數(shù)據(jù)挖掘中的應用
摘要:隨著科學技術的快速發(fā)展, 各種新鮮的事物和理念得到了廣泛的應用。其中機器學習算法就是一則典型案例——作為一種新型的算法, 其廣泛應用于各行各業(yè)之中。本篇論文旨在探討機器學習算法在數(shù)據(jù)挖掘中的具體應用, 我們利用龐大的移動終端數(shù)據(jù)網(wǎng)絡, 加強了基于GSM網(wǎng)絡的戶外終端定位, 從而提出了3個階段的定位算法, 有效提高了定位的精準度和速度。
關鍵詞:學習算法; GSM網(wǎng)絡; 定位; 數(shù)據(jù);
移動終端定位技術由來已久, 其主要是利用各種科學技術手段定位移動物體的精準位置以及高度。目前, 移動終端定位技術主要應用于軍事定位、緊急救援、網(wǎng)絡優(yōu)化、地圖導航等多個現(xiàn)代化的領域, 由于移動終端定位技術可以提供精準的位置服務信息, 所以其在市場上還是有較大的需求的, 這也為移動終端定位技術的優(yōu)化和發(fā)展, 提供了推動力。隨著通信網(wǎng)絡普及, 移動終端定位技術的發(fā)展也得到了一些幫助, 使得其定位的精準度和速度都得到了全面的優(yōu)化和提升。同時, 傳統(tǒng)的定位方法結合先進的算法來進行精準定位, 目前依舊還是有較大的進步空間。在工作中我選取機器學習算法結合數(shù)據(jù)挖掘技術對傳統(tǒng)定位技術加以改進, 取得了不錯的效果, 但也遇到了許多問題, 例如:使用機器學習算法來進行精準定位暫時無法滿足更大的區(qū)域要求, 還有想要利用較低的設備成本, 實現(xiàn)得到更多的精準定位的要求比較困難。所以本文對機器學習算法進行了深入的研究, 希望能夠幫助其更快速的定位、更精準的定位, 滿足市場的需要。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘又名數(shù)據(jù)探勘、信息挖掘。它是數(shù)據(jù)庫知識篩選中非常重要的一步。數(shù)據(jù)挖掘其實指的就是在大量的數(shù)據(jù)中通過算法找到有用信息的行為。一般情況下, 數(shù)據(jù)挖掘都會和計算機科學緊密聯(lián)系在一起, 通過統(tǒng)計集合、在線剖析、檢索篩選、機器學習、參數(shù)識別等多種方法來實現(xiàn)最初的目標。統(tǒng)計算法和機器學習算法是數(shù)據(jù)挖掘算法里面應用得比較廣泛的兩類。統(tǒng)計算法依賴于概率分析, 然后進行相關性判斷, 由此來執(zhí)行運算。
而機器學習算法主要依靠人工智能科技, 通過大量的樣本收集、學習和訓練, 可以自動匹配運算所需的相關參數(shù)及模式。它綜合了數(shù)學、物理學、自動化和計算機科學等多種學習理論, 雖然能夠應用的領域和目標各不相同, 但是這些算法都可以被獨立使用運算, 當然也可以相互幫助, 綜合應用, 可以說是一種可以“因時而變”、“因事而變”的算法。在機器學習算法的領域, 人工神經(jīng)網(wǎng)絡是比較重要和常見的一種。因為它的優(yōu)秀的數(shù)據(jù)處理和演練、學習的能力較強。
而且對于問題數(shù)據(jù)還可以進行精準的識別與處理分析, 所以應用的頻次更多。人工神經(jīng)網(wǎng)絡依賴于多種多樣的建模模型來進行工作, 由此來滿足不同的數(shù)據(jù)需求。綜合來看, 人工神經(jīng)網(wǎng)絡的建模, 它的精準度比較高, 綜合表述能力優(yōu)秀, 而且在應用的過程中, 不需要依賴專家的輔助力量, 雖然仍有缺陷, 比如在訓練數(shù)據(jù)的時候耗時較多, 知識的理解能力還沒有達到智能化的標準, 但是, 相對于其他方式而言, 人工神經(jīng)網(wǎng)絡的優(yōu)勢依舊是比較突出的。
2 以機器學習算法為基礎的GSM網(wǎng)絡定位
2.1 定位問題的.建模
建模的過程主要是以支持向量機定位方式作為基礎, 把定位的位置柵格化, 面積較小的柵格位置就是獨立的一種類別, 在定位的位置內(nèi), 我們收集數(shù)目龐大的終端測量數(shù)據(jù), 然后利用計算機對測量報告進行分析處理, 測量柵格的距離度量和精準度, 然后對移動終端柵格進行預估判斷, 最終利用機器學習進行分析求解。
2.2 采集數(shù)據(jù)和預處理
本次研究, 我們采用的模型對象是我國某一個周邊長達10千米的二線城市。在該城市區(qū)域內(nèi), 我們測量了四個不同時間段內(nèi)的數(shù)據(jù), 為了保證機器學習算法定位的精準性和有效性, 我們把其中的三批數(shù)據(jù)作為訓練數(shù)據(jù), 最后一組數(shù)據(jù)作為定位數(shù)據(jù), 然后把定位數(shù)據(jù)周邊十米內(nèi)的前三組訓練數(shù)據(jù)的相關信息進行清除。一旦確定某一待定位數(shù)據(jù), 就要在不同的時間內(nèi)進行測量, 按照測量出的數(shù)據(jù)信息的經(jīng)緯度和平均值, 再進行換算, 最終, 得到真實的數(shù)據(jù)量, 提升定位的速度以及有效程度。
2.3 以基站的經(jīng)緯度為基礎的初步定位
用機器學習算法來進行移動終端定位, 其復雜性也是比較大的, 一旦區(qū)域面積增加, 那么模型和分類也相應增加, 而且更加復雜, 所以, 利用機器學習算法來進行移動終端定位的過程, 會隨著定位區(qū)域面積的增大, 而耗費更多的時間。利用基站的經(jīng)緯度作為基礎來進行早期的定位, 則需要以下幾個步驟:要將邊長為十千米的正方形分割成一千米的小柵格, 如果想要定位數(shù)據(jù)集內(nèi)的相關信息, 就要選擇對邊長是一千米的小柵格進行計算, 而如果是想要獲得邊長一千米的大柵格, 就要對邊長是一千米的柵格精心計算。
2.4 以向量機為基礎的二次定位
在完成初步定位工作后, 要確定一個邊長為兩千米的正方形, 由于第一級支持向量機定位的區(qū)域是四百米, 定位輸出的是以一百米柵格作為中心點的經(jīng)緯度數(shù)據(jù)信息, 相對于一級向量機的定位而言, 二級向量機在定位計算的時候難度是較低的, 更加簡便。后期的預算主要依賴決策函數(shù)計算和樣本向量機計算。隨著柵格的變小, 定位的精準度將越來越高, 而由于增加分類的問題數(shù)量是上升的, 所以, 定位的復雜度也是相對增加的。
2.5 以K-近鄰法為基礎的三次定位
第一步要做的就是選定需要定位的區(qū)域面積, 在二次輸出之后, 確定其經(jīng)緯度, 然后依賴經(jīng)緯度來確定邊長面積, 這些都是進行區(qū)域定位的基礎性工作, 緊接著就是定位模型的訓練。以K-近鄰法為基礎的三次定位需要的是綜合訓練信息數(shù)據(jù), 對于這些信息數(shù)據(jù), 要以大小為選擇依據(jù)進行篩選和合并, 這樣就能夠減少計算的重復性。當然了, 選擇的區(qū)域面積越大, 其定位的速度和精準性也就越低。
3 結語
近年來, 隨著我國科學技術的不斷發(fā)展和進步, 數(shù)據(jù)挖掘技術愈加重要。根據(jù)上面的研究, 我們證明了, 在數(shù)據(jù)挖掘的過程中, 應用機器學習算法具有舉足輕重的作用。作為一門多領域互相交叉的知識學科, 它能夠幫助我們提升定位的精準度以及定位速度, 可以被廣泛的應用于各行各業(yè)。所以, 對于機器學習算法, 相關人員要加以重視, 不斷的進行改良以及改善, 切實的發(fā)揮其有利的方面, 將其廣泛應用于智能定位的各個領域, 幫助我們解決關于戶外移動終端的定位的問題。
參考文獻
[1]陳小燕, CHENXiaoyan.機器學習算法在數(shù)據(jù)挖掘中的應用[J].現(xiàn)代電子技術, 20xx, v.38;No.451 (20) :11-14.
[2]李運.機器學習算法在數(shù)據(jù)挖掘中的應用[D].北京郵電大學, 20xx.
[3]莫雪峰.機器學習算法在數(shù)據(jù)挖掘中的應用[J].科教文匯, 20xx (07) :175-178.
數(shù)據(jù)挖掘論文五: 題目:軟件工程數(shù)據(jù)挖掘研究進展
摘要:數(shù)據(jù)挖掘是指在大數(shù)據(jù)中開發(fā)出有價值信息數(shù)據(jù)的過程。計算機技術的不斷進步, 通過人工的方式進行軟件的開發(fā)與維護難度較大。而數(shù)據(jù)挖掘能夠有效的提升軟件開發(fā)的效率, 并能夠在大量的數(shù)據(jù)中獲得有效的數(shù)據(jù)。文章主要探究軟件工程中數(shù)據(jù)挖掘技術的任務和存在的問題, 并重點論述軟件開發(fā)過程中出現(xiàn)的問題和相關的解決措施。
關鍵詞:軟件工程; 數(shù)據(jù)挖掘; 解決措施;
在軟件開發(fā)過程中, 為了能夠獲得更加準確的數(shù)據(jù)資源, 軟件的研發(fā)人員就需要搜集和整理數(shù)據(jù)。但是在大數(shù)據(jù)時代, 人工獲取數(shù)據(jù)信息的難度極大。當前, 軟件工程中運用最多的就是數(shù)據(jù)挖掘技術。軟件挖掘技術是傳統(tǒng)數(shù)據(jù)挖掘技術在軟件工程方向的其中一部分。但是它具有自身的特征, 體現(xiàn)在以下三個方面:
(1) 在軟件工程中, 對有效數(shù)據(jù)的挖掘和處理;
(2) 挖掘數(shù)據(jù)算法的選擇問題;
(3) 軟件的開發(fā)者該如何選擇數(shù)據(jù)。
1 在軟件工程中數(shù)據(jù)挖掘的主要任務
在數(shù)據(jù)挖掘技術中, 軟件工程數(shù)據(jù)挖掘是其中之一, 其挖掘的過程與傳統(tǒng)數(shù)據(jù)的挖掘無異。通常包括三個階段:第一階段, 數(shù)據(jù)的預處理;第二階段, 數(shù)據(jù)的挖掘;第三階段, 對結果的評估。第一階段的主要任務有對數(shù)據(jù)的分類、對異常數(shù)據(jù)的檢測以及整理和提取復雜信息等。雖然軟件工程的數(shù)據(jù)挖掘和傳統(tǒng)的數(shù)據(jù)挖掘存在相似性, 但是也存在一定的差異, 其主要體現(xiàn)在以下三個方面:
1.1 軟件工程的數(shù)據(jù)更加復雜
軟件工程數(shù)據(jù)主要包括兩種, 一種是軟件報告, 另外一種是軟件的版本信息。當然還包括一些軟件代碼和注釋在內(nèi)的非結構化數(shù)據(jù)信息。這兩種軟件工程數(shù)據(jù)的算法是不同的, 但是兩者之間又有一定的聯(lián)系, 這也是軟件工程數(shù)據(jù)挖掘復雜性的重要原因。
1.2 數(shù)據(jù)分析結果的表現(xiàn)更加特殊
傳統(tǒng)的數(shù)據(jù)挖掘結果可以通過很多種結果展示出來, 最常見的有報表和文字的方式。但是對于軟件工程的數(shù)據(jù)挖掘來講, 它最主要的職能是給軟件的研發(fā)人員提供更加精準的案例, 軟件漏洞的實際定位以及設計構造方面的信息, 同時也包括數(shù)據(jù)挖掘的統(tǒng)計結果。所以這就要求軟件工程的數(shù)據(jù)挖掘需要更加先進的結果提交方式和途徑。
1.3 對數(shù)據(jù)挖掘結果難以達成一致的評價
我國傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)初步形成統(tǒng)一的評價標準, 而且評價體系相對成熟。但是軟件工程的數(shù)據(jù)挖掘過程中, 研發(fā)人員需要更多復雜而又具體的數(shù)據(jù)信息, 所以數(shù)據(jù)的表示方法也相對多樣化, 數(shù)據(jù)之間難以進行對比, 所以也就難以達成一致的評價標準和結果。不難看出, 軟件工程數(shù)據(jù)挖掘的關鍵在于對挖掘數(shù)據(jù)的預處理和對數(shù)據(jù)結果的表示方法。
2 軟件工程研發(fā)階段出現(xiàn)的問題和解決措施
軟件在研發(fā)階段主要的任務是對軟件運行程序的編寫。以下是軟件在編碼和結果的提交過程中出現(xiàn)的問題和相應的解決措施。
2.1 對軟件代碼的編寫過程
該過程需要軟件的研發(fā)人員能夠對自己需要編寫的代碼結構與功能有充分的了解和認識。并能夠依據(jù)自身掌握的信息, 在數(shù)據(jù)庫中搜集到可以使用的數(shù)據(jù)信息。通常情況下, 編程需要的數(shù)據(jù)信息可以分為三個方面:
(1) 軟件的研發(fā)人員能夠在已經(jīng)存在的代碼中搜集可以重新使用的代碼;
(2) 軟件的研發(fā)人員可以搜尋可以重用的靜態(tài)規(guī)則, 比如繼承關系等。
(3) 軟件的開發(fā)人員搜尋可以重用的動態(tài)規(guī)則。
包括軟件的接口調用順序等。在尋找以上信息的過程中, 通常是利用軟件的幫助文檔、尋求外界幫助和搜集代碼的方式實現(xiàn), 但是以上方式在搜集信息過程中往往會遇到較多的問題, 比如:幫助文檔的準確性較低, 同時不夠完整, 可利用的重用信息不多等。
2.2 對軟件代碼的重用
在對軟件代碼重用過程中, 最關鍵的問題是軟件的研發(fā)人員必須掌握需要的類或方法, 并能夠通過與之有聯(lián)系的代碼實現(xiàn)代碼的重用。但是這種方式哦足跡信息將會耗費工作人員大量的精力。而通過關鍵詞在代碼庫中搜集可重用的軟件代碼, 同時按照代碼的相關度對搜集到的代碼進行排序, 該過程使用的原理就是可重用的代碼必然模式基本類似, 最終所展現(xiàn)出來的搜索結果是以上下文結構的方式展現(xiàn)的。比如:類與類之間的聯(lián)系。其實現(xiàn)的具體流程如下:
(1) 軟件的開發(fā)人員創(chuàng)建同時具備例程和上下文架構的代碼庫;
(2) 軟件的研發(fā)人員能夠向代碼庫提供類的相關信息, 然后對反饋的結果進行評估, 創(chuàng)建新型的代碼庫。
(3) 未來的研發(fā)人員在搜集過程中能夠按照評估結果的高低排序, 便于查詢, 極大地縮減工作人員的任務量, 提升其工作效率。
2.3 對動態(tài)規(guī)則的重用
軟件工程領域內(nèi)對動態(tài)規(guī)則重用的研究已經(jīng)相對成熟, 通過在編譯器內(nèi)安裝特定插件的方式檢驗代碼是否為動態(tài)規(guī)則最適用的, 并能夠將不適合的規(guī)則反饋給軟件的研發(fā)人員。其操作流程為:
(1) 軟件的研發(fā)人員能夠規(guī)定動態(tài)規(guī)則的順序, 主要表現(xiàn)在:使用某一函數(shù)是不能夠調用其他的函數(shù)。
(2) 實現(xiàn)對相關數(shù)據(jù)的保存, 可以通過隊列等簡單的數(shù)據(jù)結構完成。在利用編譯拓展中檢測其中的順序。
(3) 能夠將錯誤的信息反饋給軟件的研發(fā)人員。
3 結束語
在軟件工程的數(shù)據(jù)挖掘過程中, 數(shù)據(jù)挖掘的概念才逐步被定義, 但是所需要挖掘的數(shù)據(jù)是已經(jīng)存在的。數(shù)據(jù)挖掘技術在軟件工程中的運用能夠降低研發(fā)人員的工作量, 同時軟件工程與數(shù)據(jù)挖掘的結合是計算機技術必然的發(fā)展方向。從數(shù)據(jù)挖掘的過程來講, 在其整個實施過程和周期中都包括軟件工程。而對數(shù)據(jù)挖掘的技術手段來講, 它在軟件工程中的運用更加普遍。在對數(shù)據(jù)挖掘技術的研究過程中可以發(fā)現(xiàn), 該技術雖然已經(jīng)獲得一定的效果, 但是還有更多未被挖掘的空間, 還需要進一步的研究和發(fā)現(xiàn)。
參考文獻
[1]王藝蓉.試析面向軟件工程數(shù)據(jù)挖掘的開發(fā)測試技術[J].電子技術與軟件工程, 20xx (18) :64.
[2]吳彥博.軟件工程中數(shù)據(jù)挖掘技術的運用探索[J].數(shù)字通信世界, 20xx (09) :187.
[3]周雨辰.數(shù)據(jù)挖掘技術在軟件工程中的應用研究[J].電腦迷, 20xx (08) :27-28.
[4]劉桂林.分析軟件工程中數(shù)據(jù)挖掘技術的應用方式[J].中國新通信, 20xx, 19 (13) :119.
數(shù)據(jù)挖掘論文8
題目:數(shù)據(jù)挖掘技術在神經(jīng)根型頸椎病方劑研究中的優(yōu)勢及應用進展
關鍵詞:數(shù)據(jù)挖掘技術; 神經(jīng)根型頸椎病; 方劑; 綜述;
1 數(shù)據(jù)挖掘技術簡介
數(shù)據(jù)挖掘技術[1] (Knowledge Discovery in Datebase, KKD) , 是一種新興的信息處理技術, 它融匯了人工智能、模式別、模糊數(shù)學、數(shù)據(jù)庫、數(shù)理統(tǒng)計等多種技術方法, 專門用于海量數(shù)據(jù)的處理, 從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)集中, 提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識, 其目的是發(fā)現(xiàn)規(guī)律而不是驗證假設。數(shù)據(jù)挖掘技術主要適用于龐大的數(shù)據(jù)庫的研究, 其特點在于:基于數(shù)據(jù)分析方法角度的分類, 其本質屬于觀察性研究, 數(shù)據(jù)來源于日常診療工作資料, 應用的技術較傳統(tǒng)研究更先進, 分析工具、理論模型與傳統(tǒng)研究區(qū)別較大。其操作步驟包括[2]:選擇數(shù)據(jù), 數(shù)據(jù)處理, 挖掘分析, 結果解釋, 其中結果解釋是數(shù)據(jù)挖掘技術研究的關鍵。其方法包括分類、聚類、關聯(lián)、序列、決策樹、貝斯網(wǎng)絡、因子、辨別等分析[3], 其結果通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式圖[4]。當今數(shù)據(jù)挖掘技術的方向主要在于:特定數(shù)據(jù)挖掘, 高效挖掘算法, 提高結果的有效性、確定性和表達性, 結果的可視化, 多抽象層上的交互式數(shù)據(jù)挖掘, 多元數(shù)據(jù)挖掘及數(shù)據(jù)的安全性和保密性。因其優(yōu)勢和獨特性被運用于多個領域中, 且結果運用后取得顯著成效, 因此越來越多的中醫(yī)方劑研究者將其運用于方劑中藥物的研究。
2 數(shù)據(jù)挖掘術在神經(jīng)根型頸椎病治方研究中的優(yōu)勢
中醫(yī)對于神經(jīng)根型頸椎病的治療準則為辨證論治, 從古至今神經(jīng)根型頸椎病的中醫(yī)證型有很多, 其治方是集中醫(yī)之理、法、方、藥為一體的數(shù)據(jù)集合, 具有以“方-藥-證”為核心的多維結構。方劑配伍本質上表現(xiàn)為方與方、方與藥、藥與藥、藥與劑量, 以及方藥與證、病、癥交叉錯綜的關聯(lián)與對應[5], 而中醫(yī)方劑講究君臣佐使的配伍, 藥物有升降沉浮, 四氣五味及歸經(jīng)之別, 對于神經(jīng)根型頸椎病的治療, 治方中藥物的種類、炮制方法、用量、用法等都是千變?nèi)f化的, 而這些海量、模糊、看似隨機的藥物背后隱藏著對臨床有用的信息和規(guī)律, 但這些大數(shù)據(jù)是無法在可承受的時間范圍內(nèi)可用常規(guī)軟件工具進行捕捉、管理和處理的, 是需要一個新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力, 而數(shù)據(jù)挖掘技術有可能從這些海量的的數(shù)據(jù)中發(fā)現(xiàn)新知識, 揭示背后隱藏的關系和規(guī)則, 并且對未知的情況進行預測[6]。再者, 中醫(yī)辨治充滿非線性思維, “方-藥-證”間的多層關聯(lián)、序列組合、集群對應, 形成了整體論的思維方式和原則, 而數(shù)據(jù)挖掘技術數(shù)據(jù)挖掘在技術線路上與傳統(tǒng)數(shù)據(jù)處理方法不同在于其能對數(shù)據(jù)庫內(nèi)的數(shù)據(jù)以線性和非線性方式解析, 尤善處理模糊的、非量化的數(shù)據(jù)。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤突出癥的用藥規(guī)律時, 選取了100張治方, 因該病病因病機復雜, 證候不一, 骨傷名師張玉柱先生對該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數(shù)據(jù)庫, 采用SPPS Clementine12.0軟件對這些數(shù)據(jù)的用藥頻次、藥物關聯(lián)規(guī)則及藥物聚類進行分析, 最后總結出張氏骨傷治療腰椎間盤突出癥遵循病從肝治、病從血治、標本兼治的原則, 也歸納出治療三種不同證型的腰突癥的三類自擬方。由此看出數(shù)據(jù)挖掘技術在方劑研究中的應用對數(shù)據(jù)背后信息、規(guī)律等的挖掘及名家經(jīng)驗的推廣具有重大意義, 因此數(shù)據(jù)挖掘技術在神經(jīng)根型頸椎病的治方研究中也同樣發(fā)揮著巨大的作用。
3 數(shù)據(jù)挖掘技術在神經(jīng)根型頸椎治方中的應用進展
神經(jīng)根型頸椎病在所有頸椎病中最常見, 約占50%~60%[8], 醫(yī)家對其治方的研究也是不計其數(shù)。近年來數(shù)據(jù)挖掘技術也被運用于其治方研究中, 筆者通過萬方、中國知網(wǎng)等總共檢索出以下幾篇文獻, 雖數(shù)量不多但其優(yōu)勢明顯。劉向前等[9]在挖掘古方治療神經(jīng)根型頸椎病的用藥規(guī)律時, 通過檢索《中華醫(yī)典》并從中篩選以治療頸項肩臂痛為主的古方219首并建立數(shù)據(jù)庫, 對不同證治古方的用藥類別、總味數(shù)、單味藥使用頻數(shù)及藥對 (組) 出現(xiàn)頻數(shù)進行統(tǒng)計, 總結出風寒濕痹證、痰濕阻痹證、寒濕阻滯證、正虛不足證的用藥特點, 得出解表藥、祛風濕藥、活血化瘀藥、補虛藥是治療頸項肩臂痛古方組成的主要藥物。古為今用, 該研究對于現(xiàn)代醫(yī)家在治療該病中有很好的借鑒和參考意義。齊兵獻等[10]檢索CNKI (1980-20xx年) 相關文獻中治療神經(jīng)根型頸椎病的方劑建立數(shù)據(jù)庫, 采用SPSS11.5統(tǒng)計軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經(jīng)頻率分析比較, 治療神經(jīng)根型頸椎病的中藥共計99味, 使用頻次479味次;所用藥物種類依次以補益藥、活血化瘀藥、祛風濕藥運用最多, 其中藥味以辛、苦為主, 藥性以溫、寒為主, 歸經(jīng)以肝、脾、心為主, 而本病以肝腎虧虛, 氣血瘀滯為主, 臨床以補益藥、活血化瘀藥、祛風濕藥等中藥運用最多。這對于醫(yī)家治療該病選用藥物的性味、歸經(jīng)等具有指導意義。陳元川等[11]檢索20xx年1月至20xx年3月發(fā)表的以單純口服中藥治療神經(jīng)根型頸椎病的有關文獻, 對其中的方劑和藥物進行統(tǒng)計、歸類、分析, 最終納入32首方劑, 涉及111味中藥, 補氣藥、發(fā)散風寒藥、活血止痛藥、補血藥等使用頻次較高;葛根、白芍、黃芪、當歸、桂枝等藥物使用頻次較高, 證實與古方桂枝加葛根湯主藥相同, 且該方扶陽解表的治法與該研究得出的扶正祛邪的結果相吻合, 同時也證實石氏傷科強調治傷科病當“以氣為主, 以血為先”等正確性。所以大數(shù)據(jù)背后的規(guī)律和關系在很多方面古今是一致的, 同時數(shù)據(jù)依據(jù)的支持也為現(xiàn)代神經(jīng)根型頸椎病治療提供有力的保障。謝輝等[12]收集20xx至20xx年10月3日的166張治療神經(jīng)根型頸椎病的治方建立數(shù)據(jù)庫, 采用關聯(lián)規(guī)則算法、復雜系統(tǒng)熵聚類等無監(jiān)督數(shù)據(jù)挖掘方法, 利用中醫(yī)傳承輔助平臺 (TCMISS) 軟件分析處方中各種藥物的使用頻次、藥物之間的關聯(lián)規(guī)則、核心藥物組合和新處方, 從中挖掘出治療該病中醫(yī)中的常用藥物、藥對, 闡明了治療該病以解肌散寒藥、補氣活血藥、祛風勝濕藥和溫經(jīng)通絡藥為主, 治法主要包括解肌舒筋、益氣活血和補益肝腎, 這一方面很清晰明了地展示了藥物使用頻率、藥物之間的聯(lián)系, 證實其與很多古代經(jīng)典中治療神經(jīng)根型頸椎病的治則、治法及用藥規(guī)律是吻合的, 是臨床用藥的積累和升華, 可有效地指導臨床并提高療效;另一方面也為中藥新藥的.創(chuàng)制提供處方來源, 指導新藥研發(fā)[13]。
4 小結
數(shù)據(jù)挖掘技術作為一種新型的研究技術, 在神經(jīng)根型頸椎病的治方研究中的運用相對于其他領域是偏少的, 并且基本上是研究文獻資料上出現(xiàn)的治方, 在對名老中醫(yī)個人治療經(jīng)驗及用藥規(guī)律的總結是缺乏的, 因此研究范圍廣而缺乏針對性, 同時使用該技術的相關軟件種類往往是單一的,F(xiàn)在研究者在研究中醫(yī)方劑時往往采用傳統(tǒng)的研究方法, 這就導致在大數(shù)據(jù)的研究中耗時、耗力甚則無能為力, 同樣也難以精準地提取大數(shù)據(jù)背后的隱藏的潛在關系和規(guī)則及缺乏對未知情況的預測。產(chǎn)生這樣的現(xiàn)狀, 一方面是很多研究者尚未清楚該技術在方劑研究中的優(yōu)勢所在, 思維模式尚未更新;另一方面是很多研究者尚未清楚該技術的操作技能及軟件種類及其應用范圍。故以后應向更多研究者普及該技術的軟件種類、其中的優(yōu)勢及操作技能, 讓該技術在臨床中使用更廣, 產(chǎn)生更大的效益。
參考文獻
[1]舒正渝.淺談數(shù)據(jù)挖掘技術及應用[J].中國西部科技, 20xx, 9 (5) :38-39.
[2]曹毅, 季聰華.臨床科研設計與分析[M].杭州:浙江科學技術出版社, 20xx:189.
[3]王靜, 崔蒙.數(shù)據(jù)挖掘技術在中醫(yī)方劑學研究中的應用[J].中國中醫(yī)藥信息雜志, 20xx, 15 (3) :103-104.
[4]陳丈偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學出版社, 20xx:5.
[5]楊玉珠.數(shù)據(jù)挖掘技術綜述與應用[J].河南科技, 20xx, 10 (19) :21.
[6]余侃侃.數(shù)據(jù)挖掘技術在方劑配伍中的研究現(xiàn)狀及研究方法[J].中國醫(yī)藥指南, 20xx, 6 (24) :310-312.
[7]趙睿曦.方證數(shù)據(jù)挖掘分析張氏骨傷對腰椎間盤突出癥的辨證用藥規(guī)律[J].陜西中醫(yī)藥大學學報, 20xx, 39 (6) :44-46.
[8]李曙明, 尹戰(zhàn)海, 王瑩.神經(jīng)根型頸椎病的影像學特點和分型[J].中國矯形外科雜志, 20xx, 21 (1) :7-11.
[9]劉向前, 陳民, 黃廣平等.頸項肩臂痛內(nèi)治古方常用藥物的統(tǒng)計分析[J].中華中醫(yī)藥學刊, 20xx, 30 (9) :42-44.
[10]齊兵獻, 樊成虎, 李兆和.神經(jīng)根型頸椎病中醫(yī)用藥規(guī)律的文獻研究[J].河南中醫(yī), 20xx, 32 (4) :518-519.
[11]陳元川, 王翔, 龐堅, 等.單純口服中藥治療神經(jīng)根型頸椎病用藥分析[J].上海中醫(yī)藥雜志, 20xx, 48 (6) :78-80.
[12]謝輝, 劉軍, 潘建科, 等.基于數(shù)據(jù)挖掘方法的神經(jīng)根型頸椎病用藥規(guī)律研究[J].世界中西醫(yī)結合雜志, 20xx, 10 (6) :849-852.
[13]唐仕歡, 楊洪軍.中醫(yī)組方用藥規(guī)律研究進展述評[J].中國實驗方劑學雜志, 20xx (5) :359-363.
數(shù)據(jù)挖掘論文9
1數(shù)據(jù)挖掘技術和過程
1.1數(shù)據(jù)挖掘技術概述
發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識應當能夠被接受、理解和運用。也就是發(fā)現(xiàn)全部相對的知識,是具有特定前提與條件,面向既定領域的,同時還容易被用戶接受。數(shù)據(jù)挖掘屬于一種新型的商業(yè)信息處理技術,其特點為抽取、轉化、分析商業(yè)數(shù)據(jù)庫中的大規(guī)模業(yè)務數(shù)據(jù),從中獲得有價值的商業(yè)數(shù)據(jù)。簡單來說,其實數(shù)據(jù)挖掘是一種對數(shù)據(jù)進行深入分析的方法。因此,可以描述數(shù)據(jù)挖掘為:根據(jù)企業(yè)設定的工作目標,探索與分析企業(yè)大量數(shù)據(jù),充分揭示隱藏的、未知的規(guī)律性,并且將其轉變?yōu)榭茖W的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見知識包括:
1.1.1廣義知識體現(xiàn)相同事物共同性質的知識,是指類別特點的概括描述知識。按照數(shù)據(jù)的微觀特點對其表征的、具有普遍性的、極高概念層次的知識積極發(fā)現(xiàn),是對數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識的方法與技術有很多,例如數(shù)據(jù)立方體和歸約等。
1.1.2關聯(lián)知識體現(xiàn)一個事件與其他事件之間形成的關聯(lián)知識。假如兩項或者更多項之間形成關聯(lián),則其中一項的屬性數(shù)值就能夠借助其他屬性數(shù)值實行預測。
1.1.3分類知識體現(xiàn)相同事物共同特點的屬性知識與不同事物之間差異特點知識。
1.2數(shù)據(jù)挖掘過程
1.2.1明確業(yè)務對象對業(yè)務問題清楚定義,了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結果是無法預測的,但是研究的問題是可預見的,僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會體現(xiàn)出盲目性,通常也不會獲得成功;谟脩籼卣鞯碾娮由虅諗(shù)據(jù)挖掘研究劉芬(惠州商貿(mào)旅游高級職業(yè)技術學校,廣東惠州516025)摘要:隨著互聯(lián)網(wǎng)的出現(xiàn),全球范圍內(nèi)電子商務正在迅速普及與發(fā)展,在這樣的環(huán)境下,電子商務數(shù)據(jù)挖掘技術應運而生。電子商務數(shù)據(jù)挖掘技術是近幾年來數(shù)據(jù)挖掘領域中的研究熱點,基于用戶特征的電子商務數(shù)據(jù)挖掘技術研究將會解決大量現(xiàn)實問題,為企業(yè)確定目標市場、完善決策、獲得最大競爭優(yōu)勢,其應用前景廣闊,促使電子商務企業(yè)更具有競爭力。主要分析了電子商務內(nèi)容、數(shù)據(jù)挖掘技術和過程、用戶細分理論,以及基于用戶特征的電子商務數(shù)據(jù)挖掘。
1.2.2數(shù)據(jù)準備第一選擇數(shù)據(jù):是按照用戶的挖掘目標,對全部業(yè)務內(nèi)外部數(shù)據(jù)信息積極搜索,從數(shù)據(jù)源中獲取和挖掘有關數(shù)據(jù)。第二預處理數(shù)據(jù):加工選取的數(shù)據(jù),具體對數(shù)據(jù)的完整性和一致性積極檢查,并且處理數(shù)據(jù)中的噪音,找出計算機丟失的數(shù)據(jù),清除重復記錄,轉化數(shù)據(jù)類型等。假如數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對象,則在產(chǎn)生數(shù)據(jù)庫過程中已經(jīng)形成了數(shù)據(jù)預處理。
1.2.3變換數(shù)據(jù)轉換數(shù)據(jù)為一個分析模型。這一分析模型是相對于挖掘算法構建的。構建一個與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點?梢岳猛队皵(shù)據(jù)庫的相關操作對數(shù)據(jù)維度有效降低,進一步減少數(shù)據(jù)挖掘過程中數(shù)據(jù)量,提升挖掘算法效率。
1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟轉化的數(shù)據(jù)。除了對選擇科學挖掘算法積極完善之外,其余全部工作都自行完成。整體挖掘過程都是相互的,也就是用戶對某些挖掘參數(shù)能夠積極控制。
1.2.5評價挖掘結果這個過程劃分為兩個步驟:表達結果和評價結果。第一表達結果:用戶能夠理解數(shù)據(jù)挖掘得到的模式,可以通過可視化數(shù)據(jù)促使用戶對挖掘結果積極理解。第二評價結果:用戶與機器對數(shù)據(jù)挖掘獲得的模式有效評價,對冗余或者無關的模式及時刪除。假如用戶不滿意挖掘模式,可以重新挑選數(shù)據(jù)和挖掘算法對挖掘過程科學執(zhí)行,直到獲得用戶滿意為止。
2用戶細分理論
用戶細分是指按照不同用戶的屬性劃分用戶集合。目前學術界和企業(yè)界一般接受的是基于用戶價值的細分理論,其不僅包含了用戶為企業(yè)貢獻歷史利潤,還包含未來利潤,也就是在未來用戶為企業(yè)可能帶來的利潤總和;谟脩魞r值的細分理論選擇客戶當前價值與客戶潛在價值兩個因素評價用戶。用戶當前價值是指截止到目前用戶對企業(yè)貢獻的總體價值;用戶潛在價值是指未來用戶可能為企業(yè)創(chuàng)造的價值總和。每個因素還能夠劃分為兩個高低檔次,進一步產(chǎn)生一個二維的矩陣,把用戶劃分為4組,價值用戶、次價值用戶、潛在價值用戶、低價值用戶。企業(yè)在推廣過程中根據(jù)不同用戶應當形成對應的`方法,投入不同的資源。很明顯對于企業(yè)來說價值用戶最重要,被認為是企業(yè)的玉質用戶;其次是次價值用戶,被認為是金質用戶,雖然數(shù)量有限,卻為企業(yè)創(chuàng)造了絕大部分的利潤;其他則是低價值用戶,對企業(yè)來說價值最小,成為鉛質用戶,另外一類則是潛在價值用戶。雖然這兩類用戶擁有較多的數(shù)量,但是為企業(yè)創(chuàng)造的價值有限,甚至很小。需要我們注意的是潛在價值用戶利用再造用戶關系,將來極有可能變成價值用戶。從長期分析,潛在價值用戶可以是企業(yè)的隱形財富,是企業(yè)獲得利潤的基礎。將采用數(shù)據(jù)挖掘方法對這4類用戶特點有效挖掘。
3電子商務數(shù)據(jù)挖掘分析
3.1設計問卷
研究的關鍵是電子商務用戶特征的數(shù)據(jù)挖掘,具體包含了價值用戶特征、次價值用戶特征、潛在價值用戶特征,對電子商務用戶的認知度、用戶的需求度分析。問卷內(nèi)容包括3部分:其一是為被調查者介紹電子商務的概念與背景;其二是具體調查被調查對象的個人信息,包含了性別、年齡、學歷、感情情況、職業(yè)、工作、生活地點、收入、上網(wǎng)購物經(jīng)歷;其三是問卷主要部分,是對用戶對電子商務的了解、需求、使用情況的指標設計。
3.2調查方式
本次調查的問卷主體是電腦上網(wǎng)的人群,采用隨機抽象的方式進行網(wǎng)上訪問。一方面采用大眾聊天工具,利用電子郵件和留言的方式發(fā)放問卷,另一方面在大眾論壇上邀請其填寫問卷。
3.3數(shù)據(jù)挖掘和結果
(1)選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件,采用C5.O算法挖掘預處理之后數(shù)據(jù)。
(2)用戶數(shù)據(jù)分析
1)電子商務用戶認知度分析按照調查問卷的問題“您知道電子商務嗎?”得到對電子商務用戶認知情況的統(tǒng)計,十分了解20.4%,了解30.1%,聽過但不了解具體使用方法40.3%,從未聽過8.9%。很多人僅聽過電子商務,但是并不清楚具體的功能與應用方法,甚至有一小部分人沒有聽過電子商務。對調查問卷問題“您聽過電子商務的渠道是什么?”,大部分用戶是利用網(wǎng)了解電子商務的,占40.2%;僅有76人是利用紙質報刊雜志上知道電子商務的并且對其進行應用;這也表明相較于網(wǎng)絡宣傳紙質媒體推廣電子商務的方法缺乏有效性。
2)電子商務用戶需求用戶希求具體是指使用產(chǎn)品服務人員對應用產(chǎn)品或服務形成的需求或者期望。按照問題“假如你曾經(jīng)使用電子商務,你覺得其用途怎樣,假如沒有使用過,你覺得其對自己有用嗎?”得到了認為需要和十分需要的數(shù)據(jù),覺得電子商務有用的用戶為40.7%,不清楚是否對自己有用的用戶為56.7%,認為不需要的僅有2.4%。
3)電子商務用戶應用意愿應用意愿是指消費者對某一產(chǎn)品服務進行應用或者購買的一種心理欲望。按照問題“假如可以滿足你所關心的因素,未來你會繼續(xù)應用電子商務嗎?”獲得的數(shù)據(jù)可知,在滿足各種因素時,將來一年之內(nèi)會應用電子商務的用戶為78.2%,一定不會應用電子商務的用戶為1.4%。表明用戶形成了較為強烈的應用電子商務欲望,電子商務發(fā)展前景很好。基于用戶特征的電子商務數(shù)據(jù)研究,電子商務企業(yè)通過這一結果能夠更好地實行營銷和推廣,對潛在用戶積極定位,提高用戶體驗,積極挖掘用戶價值。分析為企業(yè)準確營銷和推廣企業(yè)提供了一個有效的借鑒。
4結語
互聯(lián)網(wǎng)中數(shù)據(jù)是最寶貴的資源之一,大量數(shù)據(jù)中包含了很大的潛在價值,對這些數(shù)據(jù)深入挖掘對互聯(lián)網(wǎng)商務、企業(yè)推廣、傳播信息發(fā)揮了巨大的作用。近些年來,數(shù)據(jù)挖掘技術獲得了信息產(chǎn)業(yè)的極大重視,具體原因是出現(xiàn)了大量的數(shù)據(jù),能夠廣泛應用,并且需要轉化數(shù)據(jù)成為有價值的信息知識。通過基于用戶特征的電子商務數(shù)據(jù)挖掘研究,促使電子商務獲得巨大發(fā)展機會,發(fā)現(xiàn)潛在用戶,促使電子商務企業(yè)精準營銷。
數(shù)據(jù)挖掘論文10
一、在對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘方面存在的問題和局限
1.1對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘技術有限
據(jù)有關調查,目前的信息技術行業(yè)對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘在技術方面還是存在局限與問題的;從客觀層面上來講,沒有哪一種計算機的技術可以完全杜絕或制止計算機病毒對計算機數(shù)據(jù)庫的侵入和威脅,這種糟糕情況的出現(xiàn),不僅給單個計算機的系統(tǒng)造成損害,而且給整個計算機技術行業(yè)在某些時候也會造成不必要的損失和危害。所以說,開創(chuàng)有關減弱甚至是消滅計算機病毒數(shù)據(jù)庫的計算機技術就顯得尤為重要。
1.2對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘效率極低
我們都知道,可以利用相應的計算機技術來對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)進行挖掘,但是就目前而言,單一而又較為簡單的計算機技術很難高效地對數(shù)據(jù)進行挖掘,只能夠從具有病毒的數(shù)據(jù)庫中挖掘出極少數(shù)數(shù)據(jù)甚至是挖掘不出來。所以說,提高計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘效率也就顯得尤為重要。
1.3對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘成本較高
值得注意的是,某些計算機病毒數(shù)據(jù)庫中的數(shù)據(jù)是值得使用和發(fā)揮作用的,所以,計算機行業(yè)的某些操作人員就會盡可能采用多種渠道和方法來對有用的數(shù)據(jù)進行挖掘和分析,這樣一來,通;ㄙM的成本就會相對地高,不免也就會給某些企業(yè)造成沉重的負擔。所以說,降低對計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘成本就顯得尤為重要了。
二、計算機病毒數(shù)據(jù)庫的數(shù)據(jù)挖掘的策略與方法
2.1實施相應的計算機病毒監(jiān)控技術
如何進一步地減弱計算機病毒對計算機數(shù)據(jù)庫的侵入和威脅,我們需要慎重考慮,而實施相應的計算機病毒監(jiān)控技術已成為此時的無疑之策;進一步來說,就是設置多種監(jiān)控技術,例如設置內(nèi)存監(jiān)控,配備相應的文件監(jiān)控,還有就是注冊不同的表監(jiān)控等等,這些都是有效地減弱甚至是防止計算機病毒侵襲數(shù)據(jù)庫的`監(jiān)控技術?傊,我們通過這些技術,就會盡可能的從計算機病毒數(shù)據(jù)庫中挖掘出需要的數(shù)據(jù)。
2.2配置適當?shù)挠嬎銠C病毒源的追蹤設備
據(jù)有關部門調查,目前使用較為有效的計算機病毒源的追蹤設備就是郵件追蹤設備,它能夠有效地通過相應的消息或指令來對計算機的查詢進行追蹤,這樣就能夠高效地檢測出是否有計算機病毒侵入。依據(jù)這種情況,我們可以進一步開拓思維,尤其是計算機行業(yè)的管理員和操作人員,更應該為計算機設計出以及配置適當?shù)牟煌挠嬎銠C病毒源的追蹤設備,從而使人們在計算機病毒侵入數(shù)據(jù)庫的情況下,仍然能夠得到自己想要的正常數(shù)據(jù)。
2.3設置獨特的計算機反病毒數(shù)據(jù)庫
所謂的計算機反病毒數(shù)據(jù)庫,就是在計算機操作系統(tǒng)的底部值入反病毒的指令或程序,讓它成為計算機系統(tǒng)內(nèi)部數(shù)據(jù)庫的底層模塊,而不是計算機系統(tǒng)外部的某種軟件。這樣一來,當計算機的病毒侵入系統(tǒng)內(nèi)數(shù)據(jù)庫時,就會被底層的反病毒程序代碼或指令反攻出來,就進一步達到了減弱甚至消除計算機病毒對計算機數(shù)據(jù)庫的侵襲和威脅的目的,那么我們這時就可以挖掘出必需的數(shù)據(jù)了。
三、結束語
概而言之,就現(xiàn)在的計算機病毒來說,可謂是呈現(xiàn)日益猖獗的態(tài)勢;也就是說,計算機技術迅速發(fā)展了,計算機病毒也就會跟其迅速“發(fā)展”。我們想要有效地遏制住計算機病毒,從計算機病毒數(shù)據(jù)庫中挖掘出必需的數(shù)據(jù),對于普通人來說就應該多多了解一些預防計算機病毒侵入的知識;而對于計算機行業(yè)的管理員或操作人員來說,就應該多設計出一些遏制計算機病毒侵襲的軟件或方案,從而使我們的計算機環(huán)境更干凈,更安全。
數(shù)據(jù)挖掘論文11
摘 要:數(shù)據(jù)挖掘技術在各行業(yè)都有廣泛運用,是一種新興信息技術。而在線考試系統(tǒng)中存在著很多的數(shù)據(jù)信息,數(shù)據(jù)挖掘技在在線考試系統(tǒng)有著重要的意義,和良好的應用前景,從而在眾多技術中脫穎而出。本文從對數(shù)據(jù)挖掘技術的初步了解,簡述數(shù)據(jù)挖掘技術在在線考試系統(tǒng)中成績分析,以及配合成績分析,完善教學。
關鍵詞:數(shù)據(jù)挖掘技術;在線考試;成績分析 ;完善教學
隨著計算機網(wǎng)絡技術的快速發(fā)展,計算機輔助教育的不斷普及,在線考試是一種利用網(wǎng)絡技術的重要輔助教育手段,其改革有著重要的意義。數(shù)據(jù)挖掘技術作為一種新興的信息技術,其包括了人工智能、數(shù)據(jù)庫、統(tǒng)計學等學科的內(nèi)容,是一門綜合性的技術。這種技術的主要特點是對數(shù)據(jù)庫中大量的數(shù)據(jù)進行抽取、轉換和分析,從中提取出能夠對教師有作用的關鍵性數(shù)據(jù)。將其運用于在線考試系統(tǒng)中,能夠很好的處理在線考試中涉及到的數(shù)據(jù),讓在線考試的實用性和高效性得到進一步的增強,幫助教師更加快速、完整的統(tǒng)計考試信息,完善教學。
1.初步了解數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘技術是從大量數(shù)據(jù)中"挖掘"出對使用者有用的知識,即從大量的、隨機的、有噪聲的、模糊的、不完全的實際應用數(shù)據(jù)中,"挖掘"出隱含在其中但人們事先卻不知道的,而又是對人們潛在有用的信息與知識的整個過程。
目前主要的商業(yè)數(shù)據(jù)挖掘系統(tǒng)有SAS公司的Enterprise Miner,SPSS公司的Clementine,Sybas公司的Warehouse Studio,MinerSGI公司的Mineset,RuleQuest Research公司的See5,IBM公司的Intelligent,還有 CoverStory, Knowledge Discovery,Quest,EXPLORA, DBMiner,Workbench等。
2.數(shù)據(jù)挖掘在在線考試中的主要任務
2.1數(shù)據(jù)分類
數(shù)據(jù)挖掘技術通過對數(shù)據(jù)庫中的數(shù)據(jù)進行分析,把數(shù)據(jù)按照相似性歸納成若干類別,然后做出分類,并能夠為每一個類別都做出一個準確的描述,挖掘出分類的規(guī)則或建立一個分類模型。
2.2數(shù)據(jù)關聯(lián)分析
數(shù)據(jù)庫中的數(shù)據(jù)關聯(lián)是一項非常重要,并可以發(fā)現(xiàn)的知識。數(shù)據(jù)關聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關聯(lián)分析的作用就是找出數(shù)據(jù)庫中隱藏的聯(lián)系,從中得到一些對學校教學工作管理者有用的信息。就像是在購物中,就可以通過顧客的購買物品的聯(lián)系,從中得到顧客的購買習慣。
2.3預測
預測是根據(jù)已經(jīng)得到的數(shù)據(jù),從而對未來的情況做出一個可能性的'分析。數(shù)據(jù)挖掘技術能自動在大型的數(shù)據(jù)庫中做出一個較為準確的分析。就像是在市場投資中,可以通過各種商品促銷的數(shù)據(jù)來做出一個未來商品的促銷走勢。從而在投資中得到最大的回報。
3.數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘技術融合了多個學科、多個領域的知識與技術,因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類的形式。就目前的統(tǒng)計分析類的數(shù)據(jù)挖掘技術的角度來講,光統(tǒng)計分析技術中所用到的數(shù)據(jù)挖掘模型就回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時間序列分析等多種方法。數(shù)據(jù)挖掘技術利用這些方法對那些異常形式的數(shù)據(jù)進行檢查,然后通過各種數(shù)據(jù)模型和統(tǒng)計模型對這些數(shù)據(jù)來進行解釋,并從這些數(shù)據(jù)中找出隱藏在其中的商業(yè)機會和市場規(guī)律。另外還有知識發(fā)現(xiàn)類數(shù)據(jù)挖掘技術,這種和統(tǒng)計分析類的數(shù)據(jù)挖掘技術完全不同,其中包括了支持向量機、人工神經(jīng)元網(wǎng)絡、遺傳算法、決策樹、粗糙集、關聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。
4.數(shù)據(jù)挖掘在考試成績分析中的幾點應用
4.1運用關聯(lián)規(guī)則分析教師的年齡對學生考試成績的影響
數(shù)據(jù)挖掘技術中的關聯(lián)分析在教學分析中,是一種使用頻繁,行之有效的方法,它能挖掘出大量數(shù)據(jù)中項集之間之間有意義的關聯(lián)聯(lián)系,幫助知道教師的教學過程。例如在如今的一些高職院校中,就往往會把學生的英語四六級過級率,計算機等級等,以這些為依據(jù)來評價教師的教學效果。將數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則運用于考試的成績分析當中,就能夠挖掘出一些對學生過級率產(chǎn)生影響的因素,對教師的教學過程進行重要的指導,讓教師的教學效率更高,作用更強。
還可以通過關聯(lián)規(guī)則算法,先設定一個最小可信度和支持度,得到初步的關聯(lián)規(guī)則,根據(jù)相關規(guī)則,分析出教師的組成結構和過級率的影響,從來進行教師隊伍的結構調整,讓教師隊伍更加合理。
4.2采用分類算法探討對考試成績有影響的因素
數(shù)據(jù)挖掘技術中的分類算法就是對一組對象或一個事件進行歸類,然后通過這些數(shù)據(jù),可以進行分類模型的建立和未來的預測。分類算法可以進行考試中得到的數(shù)據(jù)進行分類,然后通過學生的一些基本情況進行探討一些對考試成績有影響的因素。分類算法可以用一下步驟實施:
4.2.1數(shù)據(jù)采集
這種方法首先要進行數(shù)據(jù)采集,需要這幾方面的數(shù)據(jù),學生基本信息(姓名、性別、學號、籍貫、所屬院系、專業(yè)、班級等)、學生調查信息(比如學習前的知識掌握情況、學習興趣、課堂學習效果、課后復習時間量等)、成績(學生平常學習成績,平?荚嚦煽儯鞣N大型考試成績等)、學生多次考試中出現(xiàn)的易錯點(本次考試中出現(xiàn)的易錯點,以往考試中出現(xiàn)的易錯點)
4.2.2數(shù)據(jù)預處理
(1)數(shù)據(jù)集成。把數(shù)據(jù)采集過程中得到的多種信息,利用數(shù)據(jù)挖掘技術中的數(shù)據(jù)庫技術生產(chǎn)相應的學生考試成績分析基本數(shù)據(jù)庫。(2)數(shù)據(jù)清理。在學生成績分析數(shù)據(jù)庫中,肯定會出現(xiàn)一些情況缺失,對于這些空缺處,就需要使用數(shù)據(jù)清理技術來進行這些數(shù)據(jù)庫中數(shù)據(jù)的填補遺漏。例如,可以采用忽略元組的方法來刪除那些沒有參加考試的學生考試數(shù)據(jù)已經(jīng)在學生填寫的調查數(shù)據(jù)中村中的空缺項。(3)數(shù)據(jù)轉換。數(shù)據(jù)轉換主要功能是進行進行數(shù)據(jù)的離散化操作。在這個過程中可以根據(jù)實際需要進行分類,比如把考試成績從0~59的分到較差的一類,將60到80分為中等類,81到100分為優(yōu)秀等。(4)數(shù)據(jù)消減。數(shù)據(jù)消減的功能就是把所需挖掘的數(shù)據(jù)庫,在消減的過程又不能影響到最終的數(shù)據(jù)挖掘結果。比如在分析學生的基本學習情況的影響因素情況中,學生信息表中中出現(xiàn)的字段很多,可以選擇性的刪除班別、籍貫等引述,形成一份新的學生基本成績分析數(shù)據(jù)表。
4.2.3利用數(shù)據(jù)挖掘技術,得出結論
通過數(shù)據(jù)挖掘技術在在線考試中的應用,得出這些學生數(shù)據(jù)的相關分析,比如說學生考試中的易錯點在什么地方,學生考試成績的自身原因,學生考試成績的環(huán)境原因,教師隊伍的搭配情況等等,從中得出如何調整學校教學資源,教師的教學方案調整等等,從而完善學校對學生的教學。
5.結語
數(shù)據(jù)挖掘技術在社會各行各業(yè)中都有一定程度的使用,基于其在數(shù)據(jù)組織、分析能力、知識發(fā)現(xiàn)和信息深層次挖掘的能力,在使用中取得了顯著的成效,但數(shù)據(jù)挖掘技術中還存在著一些問題,例如數(shù)據(jù)的挖掘算法、預處理、可視化問題、模式識別和解釋等等。對于這些問題,學校教學管理工作者要清醒的認識,在在線考試系統(tǒng)中對數(shù)據(jù)挖掘信息做出合理的使用,讓數(shù)字挖掘技術在在線考試系統(tǒng)中能夠更加有效的發(fā)揮其長處,避免其在在線考試系統(tǒng)中的的缺陷。
參考文獻:
[1]胡玉榮.基于粗糙集理論的數(shù)據(jù)挖掘技術在高校學生成績分析中的作用[J].荊門職業(yè)技術學院學報,20xx,12(22):12.
[2][加]韓家煒,堪博(Kam ber M.) .數(shù)據(jù)挖掘:概念與技術(第2版)[M]范明,譯.北京:機械工業(yè)出版社,20xx.
[3]王潔.《在線考試系統(tǒng)的設計與開發(fā)》[J].山西師范大學學報,20xx(2).
[4] 王長娥.數(shù)據(jù)挖掘技術在教育中的應用[J].計算機與信息技術,20xx(11)
數(shù)據(jù)挖掘論文12
隨著互聯(lián)網(wǎng)技術的快速發(fā)展,學術研究環(huán)境較以前更加開放,對傳統(tǒng)的科技出版業(yè)提出了開放性、互動性和快速性的要求; 因此,以信息技術為基礎的現(xiàn)代數(shù)字化出版方式對傳統(tǒng)的科技出版業(yè)產(chǎn)生著深刻的影響。為了順應這一趨勢,不少科技期刊都進行了數(shù)字化建設,構建了符合自身情況、基于互聯(lián)網(wǎng)B /S 結構的稿件處理系統(tǒng)。
以中華醫(yī)學會雜志社為代表的部分科技期刊出版集團均開發(fā)使用了發(fā)行系統(tǒng)、廣告登記系統(tǒng)、在線銷售系統(tǒng)以及站。這些系統(tǒng)雖然積累了大量的原始用戶業(yè)務數(shù)據(jù); 但從工作系統(tǒng)來看,由于數(shù)據(jù)本身只屬于編輯部的業(yè)務數(shù)據(jù),因此一旦相關業(yè)務工作進行完畢,將很少再對這些數(shù)據(jù)進行分析使用。
隨著目前人工智能和機器學習技術的發(fā)展,研究人員發(fā)現(xiàn)利用最新的數(shù)據(jù)挖掘方法可以對原始用戶業(yè)務數(shù)據(jù)進行有效分析和學習,找出其中數(shù)據(jù)背后隱含的內(nèi)在規(guī)律。這些有價值的規(guī)律和寶貴的經(jīng)驗將對后續(xù)科技期刊經(jīng)營等工作提供巨大的幫助。
姚偉欣等指出,從STM 期刊出版平臺的技術發(fā)展來看,利用數(shù)據(jù)存取、數(shù)據(jù)管理、關聯(lián)數(shù)據(jù)分析、海量數(shù)據(jù)分析等數(shù)據(jù)挖掘技術將為科技期刊的出版和發(fā)行提供有力的幫助。通過使用數(shù)據(jù)挖掘( data mining) 等各種數(shù)據(jù)處理技術,人們可以很方便地從大量不完全且含有噪聲或相對模糊的實際數(shù)據(jù)中,提取隱藏在其中有價值的信息,從而對后續(xù)科技期刊出版工作起到重要的知識發(fā)現(xiàn)和決策支持的作用。
1 數(shù)據(jù)挖掘在科技期刊中應用的現(xiàn)狀
傳統(tǒng)的數(shù)據(jù)庫對數(shù)據(jù)的處理功能包括增、刪、改、查等。這些技術均無法發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的關聯(lián)和規(guī)則,更無法根據(jù)現(xiàn)有數(shù)據(jù)對未來發(fā)展的趨勢進行預測,F(xiàn)有數(shù)據(jù)挖掘的任務可以分為對數(shù)據(jù)模型進行分類或預測、數(shù)據(jù)總結、數(shù)據(jù)聚類、關聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關系發(fā)現(xiàn)、異常或例外點檢測以及趨勢發(fā)現(xiàn)等,但目前國內(nèi)科技期刊行業(yè)利用數(shù)據(jù)挖掘方法進行大規(guī)模數(shù)據(jù)處理仍處在起步階段。張品純等對中國科協(xié)所屬的科技期刊出版單位的現(xiàn)狀進行分析后發(fā)現(xiàn),中國科協(xié)科技期刊出版單位多為單刊獨立經(jīng)營,單位的規(guī)模較小、實力較弱,多數(shù)出版單位不具備市場主體地位。這樣就導致國內(nèi)大部分科技期刊既沒有能力進行數(shù)據(jù)挖掘,也沒有相應的數(shù)據(jù)資源準備。以數(shù)據(jù)挖掘技術應用于期刊網(wǎng)站為例,為了進行深入的數(shù)據(jù)分析,期刊經(jīng)營人員需要找到稿件與讀者之間、讀者群體之間隱藏的內(nèi)在聯(lián)系。目前,數(shù)據(jù)挖掘的基本步驟為: 1) 明確數(shù)據(jù)挖掘的`對象與目標;2) 確定數(shù)據(jù)源; 3) 建立數(shù)據(jù)模型; 4) 建立數(shù)據(jù)倉庫; 5)數(shù)據(jù)挖掘分析; 6) 對象與目標的數(shù)據(jù)應用和反饋。
2 期刊數(shù)據(jù)的資源整合
編輯部從稿件系統(tǒng)、發(fā)行系統(tǒng)、廣告系統(tǒng)、站等各個系統(tǒng)中將相關數(shù)據(jù)進行清洗、轉換和整理,然后加載到數(shù)據(jù)倉庫中。進一步,根據(jù)業(yè)務應用的范圍和緊密度,建立相關數(shù)據(jù)集市。期刊數(shù)據(jù)資源的整合過程從數(shù)據(jù)體系上可分為數(shù)據(jù)采集層、數(shù)據(jù)存儲處理層和數(shù)據(jù)展現(xiàn)層。
要獲得能夠適合企業(yè)內(nèi)部多部門均可使用、挖掘和分析的數(shù)據(jù),可以從業(yè)務的關聯(lián)性分析數(shù)據(jù)的準確性、一致性、有效性和數(shù)據(jù)的內(nèi)在關聯(lián)性。
3 期刊數(shù)據(jù)的信息挖掘
信息挖掘為了從不同種類和形式的業(yè)務進行抽取、變換、集成數(shù)據(jù),最后將其存儲到數(shù)據(jù)倉庫,并要對數(shù)據(jù)的質量進行維護和管理。數(shù)據(jù)挖掘可以有效地識別讀者的閱讀行為,發(fā)現(xiàn)讀者的閱讀模式和趨勢,對網(wǎng)站改進服務質量、取得更好的用戶黏稠度和滿意度、提高科技期刊經(jīng)營能力有著重要的意義。作為一個分析推薦系統(tǒng),我們將所分析的統(tǒng)計結果存儲于服務器中,在用戶或決策者需要查詢時,只需輸入要找尋的用戶信息,系統(tǒng)將從數(shù)據(jù)庫中抽取其個人信息,并處理返回到上網(wǎng)時間分布、興趣點所在、適配業(yè)務及他對于哪些業(yè)務是有價值客戶,甚至包括他在什么時段對哪類信息更感興趣等。只有這些信息才是我們的使用對象所看重和需要的。
網(wǎng)站結構挖掘是挖掘網(wǎng)站中潛在的鏈接結構模式。通過分析一個網(wǎng)頁的鏈接、鏈接數(shù)量以及鏈接對象,建立網(wǎng)站自身的鏈接結構模式。在此過程中,如果發(fā)現(xiàn)某一頁面被較多鏈接所指向,則說明該頁面信息是有價值的,值得期刊工作人員做更深層次的挖掘。網(wǎng)站結構挖掘在具體應用時采用的結構和技術各不相同; 但主要過程均包括預處理、模式發(fā)現(xiàn)和模式分析3 部分。為了反映讀者興趣取向,就需要對數(shù)據(jù)庫中的數(shù)據(jù)按用戶進行抽樣分析,得到興趣點的統(tǒng)計結果,而個人的興趣分析也可基于此思路進行。下面以《中華醫(yī)學雜志》為例做一介紹。
預處理預處理是網(wǎng)站結構挖掘最關鍵的一個環(huán)節(jié),其處理得到的數(shù)據(jù)質量直接關系到使用數(shù)據(jù)挖掘和模式分析方法進行分析的結果。預處理步驟包括數(shù)據(jù)清洗、用戶識別、會話識別、路徑補充和事件識別。以《中華醫(yī)學雜志》網(wǎng)站www. nmjc. net. cn 的日志分析為例。首先給出一條已有的Log,其內(nèi)容為“20xx-03-04 12: 13: 47 W3SVC80003692 172. 22. 4. 3GET /index. asp-80-123. 185. 247. 49Mozilla /5. 0 +( Windows + NT + 6. 1; + WOW64 ) + AppleWebKit /537. 36 + ( KHTML,+ like + Gecko) + Chrome /28. 0.1500. 95 + Safari /537. 36 + SE + 2. X + MetaSr + 1. 0200 0 0”。從Log 的內(nèi)容,工作人員可以得到相關信息,如用戶IP、用戶訪問頁面事件、用戶訪問的頁面、用戶請求的方法、返回HTTP 狀態(tài)以及用戶瀏覽的上一頁面等內(nèi)容。
由于服務器同時部署了多個編輯部網(wǎng)站,這就要求工作人員必須對得到的訪問www. nmjc. net. cn 日志,去除由爬蟲軟件產(chǎn)生的記錄。這些記錄一般都會在日志結尾包含“Spider”的字樣。同時,還需要去除不是由GET 請求產(chǎn)生的日志以及請求資源不是頁面類型的日志。最后,工作人員還需要去除訪問錯誤的請求,可以根據(jù)日志中請求的狀態(tài)進行判斷。一般認為,請求狀態(tài)在( 200, 300) 范圍內(nèi)是訪問正確的日志,其他如403、400 和500 等都是訪問錯誤的日志。用戶識別可以根據(jù)用戶的IP 地址和用戶的系統(tǒng)信息來完成。只有在IP 地址和系統(tǒng)信息都完全一致的情況下,才識別為一個用戶。會話識別是利用面向時間的探索法,根據(jù)超時技術來識別一個用戶的多次會話。如果用戶在一段時間內(nèi)沒有任何操作,則認為會話結束。用戶在規(guī)定時間后重新訪問,則被認為不屬于此次會話,而是下次會話的開始。
利用WebLogExplore 分析日志、用戶和網(wǎng)頁信息在獲得了有效的日志數(shù)據(jù)后,工作人員可以利用一些有效數(shù)據(jù)挖掘算法進行模式發(fā)現(xiàn)。目前,主要的數(shù)據(jù)挖掘方法有統(tǒng)計分析、關聯(lián)規(guī)則、分類、聚類以及序列模式等技術。本文主要討論利用Apriori 算法來發(fā)現(xiàn)科技期刊日志數(shù)據(jù)中的關聯(lián)規(guī)則。本質上數(shù)據(jù)挖掘不是用來驗證某個假定的模式的正確性,而是在數(shù)據(jù)庫中自己尋找模型,本質是一個歸納的過程。支持度( Support) 的公式定義為: Support ( A≥B) = P( A ∪B) 。支持度可以用于度量事件A 與B 同時出現(xiàn)的概率。如果事件A 與B 同時出現(xiàn)的概率較小,說明事件A 與B 的關系不大; 如果事件A 與B 同時出現(xiàn)非常頻繁,則說明事件A 與B 總是相關的。置信度( Confidence) 的公式定義為: Confidence( A≥B) = P( A | B) 。置信度揭示了事件A 出現(xiàn)時,事件B 是否也會出現(xiàn)或有多大概率出現(xiàn)。如果置信度為100%,則事件A 必然會導致事件B 出現(xiàn)。置信度太低,說明事件A 的出現(xiàn)與事件B 是否出現(xiàn)關系不大。
對所有的科技期刊日志數(shù)據(jù)進行預處理后,利用WebLogExplore 軟件可得到日志匯總表。表中存儲了所有用戶訪問網(wǎng)站頁面的詳細信息,工作人員可將其導入數(shù)據(jù)庫中。以查看到所選擇用戶訪問期刊頁面的詳細信息。
同樣,在WebLogExplore 軟件中選擇感興趣的頁面,可以查看所有用戶訪問該頁面的統(tǒng)計信息,如該頁面的訪問用戶數(shù)量等。工作人員可以對用戶訪問排名較高的頁面進行進一步的模式分析。
步驟1: 將圖2 日志信息匯總表中的數(shù)據(jù)導入數(shù)據(jù)庫中,建立日志總表。
步驟2: 在數(shù)據(jù)庫中建立一個新表命名為tj。
步驟3: 通過查詢程序得到日志總表中每一個用戶訪問的頁面,同時做distinct 處理。
步驟4: 將查詢得到的用戶訪問頁面記錄進行判斷。如果用戶訪問過排名前20 位的某個頁面,則在數(shù)據(jù)庫中寫入true,否則寫入false。依次循環(huán)判斷寫入數(shù)據(jù)庫中。
步驟5: 統(tǒng)計每個訪問排名靠前頁面的支持度,設置一維項目集的最小閥值( 10%) 。
步驟6: 統(tǒng)計大于一維閥值的頁面,寫入數(shù)組,并對數(shù)組內(nèi)部頁面進行兩兩組合,統(tǒng)計每個組合2 個頁面值均為true 時的二維項目集的支持度。
步驟7: 設置二維項目集支持度的閥值,依次統(tǒng)計三維項目集支持度和置信度( A≥B) ,即當A 頁面為true 時,統(tǒng)計B 頁面為true 的數(shù)量,除以A 為true 的數(shù)量。設置相應的置信度閥值,找到訪問排名靠前頁面之間較強的關聯(lián)規(guī)則。
4 數(shù)據(jù)挖掘技術應用的意義
1) 對頻繁訪問的用戶,可以使用用戶識別技術分析此用戶的歷史訪問記錄,得到他經(jīng)常訪問的頁面。當該用戶再次登錄系統(tǒng)時,可以對其進行個性化提示或推薦。這樣,既方便用戶使用,也可將系統(tǒng)做得更加友好。很多OA 期刊網(wǎng)站,不具備歷史瀏覽記錄的功能; 但瀏覽記錄對用戶來講其實十分重要,隱含了用戶對文章的篩選過程,所以對用戶經(jīng)常訪問的頁面需要進行優(yōu)化展示,不能僅僅提供鏈接地址,需要將文章題名、作者、關鍵詞等信息以列表的方式予以顯示。
2) 由數(shù)據(jù)挖掘技術而產(chǎn)生的頻繁項目集的分析,可以對網(wǎng)站的結構進行改進。支持度很高的頁面,說明該頁面的用戶訪問量大。為了方便用戶以及吸引更多的讀者,可以將這些頁面放置在更容易被訪問的位置,科技期刊的網(wǎng)站內(nèi)容一般以年、卷、期的形式展示。用戶如果想查看某一篇影響因子很高的文章,也必須通過年卷期的方式來查看,非常不方便而且頁面友好性不高。通過數(shù)據(jù)挖掘的分析,編輯部可以把經(jīng)常被訪問或者高影響因子的文章放在首頁展示。
3) 對由數(shù)據(jù)挖掘技術產(chǎn)生的頻繁項目集的分析,可以發(fā)現(xiàn)用戶的關注熱點。若某些頁面或項目被用戶頻繁訪問,則可以用這些數(shù)據(jù)對用戶進行分析。一般來說科技期刊的讀者,每個人的專業(yè)和研究方向都是不同的,編輯部可以通過數(shù)據(jù)挖掘技術來判斷讀者的研究方向和感興趣的熱點,對每一個用戶進行有針對性的內(nèi)容推送和消息發(fā)送。
4) 網(wǎng)站管理者可以根據(jù)在不同時間內(nèi)頻繁項目集的變化情況對科技期刊網(wǎng)站進行有針對性的調整,比如加入更多關于該熱點的主題資源。目前大多數(shù)科技期刊網(wǎng)站首頁的內(nèi)容,均為編輯部工作人員后臺添加、置頂、高亮來吸引用戶的; 通過數(shù)據(jù)挖掘技術,完全可以擯棄這種展示方式。編輯部網(wǎng)站的用戶訪問哪些頁面頻繁,系統(tǒng)便會自動將這些頁面的文章推向首頁,不需要編輯部的人工干預,整個網(wǎng)站實現(xiàn)自動化運行。
5 后記
本文重點討論了數(shù)據(jù)挖掘技術與科技期刊網(wǎng)站頁面之間的關系。其實我們還可以從很多方面進行數(shù)據(jù)挖掘,比如可以對網(wǎng)站的用戶和內(nèi)容進行數(shù)據(jù)挖掘,通過分析可以為后期的期刊經(jīng)營做好鋪墊。
有一點很重要,沒有一種數(shù)據(jù)挖掘的分析方法可以應付所有的需求。對于某一種問題,數(shù)據(jù)本身的特性會影響你的選擇,需要用到許多不同的數(shù)據(jù)挖掘方法以及技術從數(shù)據(jù)中找到最佳的模型。
在目前深化文化體制改革,推動社會主義文化大發(fā)展、大繁榮的政治形勢下,利用數(shù)據(jù)挖掘技術從中進行提取、分析和應用,能有效地幫助企業(yè)了解客戶、改進系統(tǒng)、制訂合理的市場策略、提高企業(yè)的銷售水平和利潤。通過利用數(shù)據(jù)挖掘技術準確定位優(yōu)質客戶,向客戶提供更精確、更有價值的個性化服務。這將成為未來科技期刊經(jīng)營十分重要的突破點和增長點。
數(shù)據(jù)挖掘論文13
摘要:數(shù)據(jù)挖掘就是對潛在的數(shù)據(jù)及數(shù)據(jù)關聯(lián)進行探索和發(fā)現(xiàn)。隨著信息技術的不斷發(fā)展,這一技術在電子商務領域逐漸得到普遍應用;诖,本文就數(shù)據(jù)挖掘在電子商務中的應用進行研究,首先就數(shù)據(jù)挖掘中的路徑分析技術、關聯(lián)分析技術、聚類分析技術和分類分析技術進行簡要介紹,然后分析數(shù)據(jù)挖掘在電子商務中的實際應用,從而提高數(shù)據(jù)挖掘技術的應用水平,增強電子商務的發(fā)展實力。
關鍵詞:數(shù)據(jù)挖掘;電子商務;潛在客戶
一、數(shù)據(jù)挖掘在電子商務中的技術應用
就現(xiàn)階段電子商務對數(shù)據(jù)挖掘技術的應用現(xiàn)狀來看,主要應用到的技術包括以下幾方面內(nèi)容,分別是路徑分析技術、關聯(lián)分析技術、聚類分析技術和分類分析技術。就路徑分析技術來看,主要對客戶互聯(lián)網(wǎng)訪問路徑的頻繁性進行分析,通過大數(shù)據(jù)采集和處理,了解客戶對各種網(wǎng)絡頁面的喜好程度和特點,從而對自身的設計進行針對性的改進,為客戶提供更加人性化的服務;就關聯(lián)分析技術來看,主要指的是對隱藏數(shù)據(jù)之間的關聯(lián)進行分析,并且通過分析掌握其相互關聯(lián)的規(guī)律,并根據(jù)這一規(guī)律對網(wǎng)絡站點的結構進行相應的改進,使電子商務中存在相關性的商品能夠一起被搜索出來,既為客戶提供便利,同時提高交叉銷售的幾率;聚類分析技術指的是根據(jù)數(shù)據(jù)的信息,按照一定的原則對數(shù)據(jù)進行分類。就分類分析技術而言,主要通過分析數(shù)據(jù)掌握分類規(guī)則,然后按照這一規(guī)則對數(shù)據(jù)進行分類。
二、數(shù)據(jù)挖掘在電子商務中的實際應用
1.對潛在客戶進行挖掘在電子商務中應用數(shù)據(jù)挖掘技術能夠對潛在客戶進行挖掘。例如商家可以對網(wǎng)站的日志記錄進行分析,探究該記錄中存在的規(guī)律,從而按照這一規(guī)律對網(wǎng)站的訪問客戶進行相應分類。在分類過程中,商家應該對客戶屬性和相關關系進行確定,對新客戶與老客戶之間存在重疊的屬性進行識別,從而實現(xiàn)對訪問網(wǎng)站新用戶快速分類,在分類完畢后,商家可以通過分析新客戶的屬性特點,從而對新客戶進行潛在性判斷,如果判斷新客戶可以被作為商家的潛在客戶,就可以為該客戶提供個性化的頁面服務,從而將新客戶發(fā)展成為老客戶。2.對駐留時間進行延長對于電子商務而言,商家必須提高客戶在商品頁面的駐留時間,并且使客戶的購買興趣和欲望得到激發(fā)。電子商務與傳統(tǒng)商務最大的不同在于銷售商具有虛擬性的特點,因此客戶在購物選擇時,對銷售商的印象是沒有差異的。銷售商在不斷提升自身服務水平的.同時,應該對客戶的瀏覽行為和特點進行分析,從而對客戶的興趣和需求進行進一步的了解,以此為依據(jù)調整自身的商品頁面,用符合客戶需求的廣告和商品文案吸引客戶的駐留時間,從而提高交易的幾率。3.對網(wǎng)絡站點進行優(yōu)化電子商務主要依托于網(wǎng)站,因此網(wǎng)站優(yōu)化也是提高電子商務發(fā)展水平的有效措施。利用數(shù)據(jù)挖掘技術對網(wǎng)絡站點進行優(yōu)化主要由兩方面構成,一方面是對存在相關性的網(wǎng)頁進行鏈接設計。例如對用戶瀏覽頁面的幾率和特點進行分析,然后找出存在相關性的頁面,增加網(wǎng)頁鏈接這一功能,使客戶的搜索更加便捷;另一方面是對客戶的期望位置進行探索,例如對用戶頻率較高的訪問位置進行分析,從而將頻率較高的位置設置為客戶的期望位置,并且在實際位置與期望位置間建立鏈接。另外,可以對用戶的網(wǎng)頁瀏覽習慣和信息喜好進行分析,強化用戶在網(wǎng)頁中的自助服務,例如將網(wǎng)頁信息參照超市模式進行擺放,根據(jù)相關性分類,使用戶能夠通過自主瀏覽選擇到心儀的產(chǎn)品,從而提高交易的幾率。4.對營銷手段進行改進在電子商務的實際運營過程中,很多客戶都會在購買一種物品時同時選擇具有相關性的其他物品,因此銷售商應該對銷售方式進行改進,利用數(shù)據(jù)挖掘技術實現(xiàn)交叉銷售,從而提高營銷水平。在應用交叉銷售這一手段時,主要應該利用數(shù)據(jù)挖掘技術,對客戶的喜好進行分析,從而提供具有針對性的商品。
參考文獻:
[1]姜寧,牛永潔.Web數(shù)據(jù)挖掘在電子商務中的應用——以淘寶網(wǎng)為例[J].計算機時代,20xx(7):49-52.
[2]王紅玉.數(shù)據(jù)挖掘在電子商務中的應用[J].電腦編程技巧與維護,20xx(3):49-51.
數(shù)據(jù)挖掘論文14
一、數(shù)據(jù)挖掘相關概念
數(shù)據(jù)挖掘技術是近些年發(fā)展起來的一門新興學科,它涉及到數(shù)據(jù)庫和人工智能等多個領域。隨著計算機技術的普及數(shù)據(jù)庫產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價值信息的技術稱之為數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘方法有統(tǒng)計學方法、關聯(lián)規(guī)則挖掘、決策樹方法、聚類方法等八種方法,關聯(lián)規(guī)則是其中最常用的研究方法。關聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價值的能夠揭示實體和數(shù)據(jù)項間某些隱藏的聯(lián)系的有關知識,其中描述關聯(lián)規(guī)則的兩個重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當Support和Confidence兩者都較高的關聯(lián)規(guī)則才是有效的、需要進一步進行分析和應用的規(guī)則。
二、使用Weka進行關聯(lián)挖掘
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費的、非商業(yè)化的、基于JAVA環(huán)境下開源的機器學習以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來探索數(shù)據(jù)環(huán)境的,Experimenter是對各種實驗計劃進行數(shù)據(jù)測試,KnowledgeFlow和Explorer類似,但該模塊通過其特殊的接口可以讓使用者通過拖動的形式去創(chuàng)建實驗方案,Simple-CLI為簡單的命令行界面。以下數(shù)據(jù)挖掘任務主要用Ex-plorer模塊來進行。
。ㄒ唬⿺(shù)據(jù)預處理
數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學術著作總分、科研獲獎總分、科研立項總分、科研總得分更有利于數(shù)據(jù)挖掘計算,在這里我們將以上得分分別確定分類屬性值。
(二)數(shù)據(jù)載入
點擊Explorer進入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標準數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個文件并重新保存為arff文件格式來實現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應根據(jù)數(shù)據(jù)挖掘任務對數(shù)據(jù)表中與本次數(shù)據(jù)任務不相關的屬性進行移除,只將學歷、職稱、論文等級、學術著作等級、科研獲獎等級、科研立項等級、科研總分等級留下。
。ㄈ╆P聯(lián)挖掘與結果分析
WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設為1,在“metiricType”的參數(shù)值選項中選擇lift選項,將“minMetric”參數(shù)值設為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設為10,其它選項保存默認值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過1.1且排名前10名的關聯(lián)規(guī)則。其挖掘參數(shù)信息和關聯(lián)挖掘的部分結果。
三、挖掘結果與應用
以上是針對教師基本情況和科研各項總分進行的反復的數(shù)據(jù)挖掘工作,從挖掘結果中找到最佳模式進行匯總。以下列出了幾項作為參考的關聯(lián)數(shù)據(jù)挖掘結果。
1、科研立項得分與論文、科研總得分關聯(lián)度高,即科研立項為A級的論文也一定是A。這與實際也是相符的,因為科研立項得A的教師應該是主持了省級或是國家級的立項的同時也參與了其他教師的科研立項,在課題研究的`過程中一定會有國家級論文或者省級論文進行發(fā)表來支撐立項,所以這類教師的論文得分也會很高。針對這樣的結果,在今后的科研工作中,科研處要鼓勵和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質上的幫助,這樣在很大程度上能夠帶動整個學校科研工作的進展。
2、副教授類的教師科研立項得分很高,而講師類教師和助教類教師的科研立項得分很低,這樣符合實際情況。因為副教授類的教師有一定的教學經(jīng)驗,并且很多副教授類的教師還想晉職稱,所以大多數(shù)副教授類教師都會申請一些課題。而對于講師類和助教類的教師,由于教學經(jīng)驗不足很少能進行省級以上的課題研究,因此這兩類教師的科研立項分數(shù)不高。針對這樣的結果,在今后的科研工作中,科研處可以采用一幫一、結對子的形式來幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學能力。
3、講師類教師的論文等級不高。從論文得分能夠推斷出講師類教師所發(fā)表論文的級別不高。為了鼓勵這類教師的論文發(fā)表,在今后的科研量化工作中對省級、國家級的論文級別進行細化,并且降低一般論文的得分權重,加大高級論文的得分權重。并且鼓勵講師類教師參加假期培訓,提高自身的科研和教學水平。
數(shù)據(jù)挖掘論文15
摘要:近年來,數(shù)據(jù)庫挖掘技術的普遍應用,使數(shù)據(jù)價值實現(xiàn)最大化,在我國金融、商業(yè)、市場營銷等領域得到廣泛應用。然而在我國高校管理中并沒有得到推廣,為使高校管理系統(tǒng)中的數(shù)據(jù)充分發(fā)揮應有價值,在該系統(tǒng)中使用數(shù)據(jù)庫挖掘技術意義深遠。本文首先介紹了數(shù)據(jù)挖掘技術的流程,然后在教師教學質量評估中應用數(shù)據(jù)庫挖掘技術,充分證明數(shù)據(jù)庫挖掘技術在高校管理中能發(fā)揮重大作用。
關鍵詞:管理 決策 數(shù)據(jù)挖掘技術
當前,大部分高校都擁有配套的管理系統(tǒng),該系統(tǒng)具備海量數(shù)據(jù)儲存和管理功能,徹底告別了手工記錄信息和數(shù)據(jù)的年代。不但節(jié)約了紙張,更有效提高了高校管理數(shù)據(jù)和信息的效率。然而我國高校沒有有效利用應用數(shù)據(jù)挖掘技術,因此研究數(shù)據(jù)庫挖掘技術在高校管理中的應用十分必要。
1數(shù)據(jù)挖掘技術的流程
數(shù)據(jù)挖掘技術能夠將海量數(shù)據(jù)展開分析和處理,再把整體數(shù)據(jù)庫中存在規(guī)律的數(shù)據(jù)整合起來,實施該技術主要包括以下五個環(huán)節(jié)。目標定義:該環(huán)節(jié)中要與有關領域的背景知識相結合,清晰、精確的定義出數(shù)據(jù)挖掘目標。數(shù)據(jù)準備:在該環(huán)節(jié)中要搜集、選取數(shù)據(jù)源中的數(shù)據(jù),處理已選數(shù)據(jù),將其轉換為適合數(shù)據(jù)挖掘的形態(tài)。數(shù)據(jù)挖掘:該環(huán)節(jié)是數(shù)據(jù)挖掘技術的核心,即采用關聯(lián)規(guī)則法、分類分析法等各種數(shù)據(jù)挖掘方法把數(shù)據(jù)中隱藏的知識和規(guī)律發(fā)掘出來。結果表示:在該環(huán)節(jié)中可以以用戶需求為依據(jù),將挖掘出來的知識和規(guī)律轉變?yōu)橛脩裟芙邮芎屠斫獾男螒B(tài)。知識吸收:該環(huán)節(jié)中,主要是把挖掘結果與指定領域中的需求相結合,在該領域中應用發(fā)掘出來的結果,為決策者提供知識,是數(shù)據(jù)挖掘的終極目標。
2數(shù)據(jù)挖掘技術在教學質量評估中的應用
2。1運用關聯(lián)規(guī)則法挖掘數(shù)據(jù)庫中的信息
評估老師教學質量不但是評定教學效果的重要部分,也是評定教師職稱的重要根據(jù),因此是高校管理工作中不可或缺的.部分。目前評估教學質量的主要措施是搜集、統(tǒng)計學生的成績和以及對老師的評價,然后加權算出老師的總得分,作為評估該老師教學質量指標。這種方法非但不科學,其權威性也較低,因此需要深挖數(shù)據(jù)的相關性,本文采用了數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)法挖掘數(shù)據(jù)中的規(guī)律和知識,為評估老師教學質量提供有力根據(jù)。運用關聯(lián)規(guī)則法挖掘數(shù)據(jù),其規(guī)則方法為“XY,置信度為c%,,支持度為s%”。關聯(lián)規(guī)則中置信度為c%:在整體事件D集合中,如果既能夠符合事件X中擁有c%的需求,也能夠符合Y的要求。那么就用置信度來表示關聯(lián)規(guī)則的強度,被記錄為confidence(XY),置信度最小值用minConf來表示,通常置信度最小數(shù)值由客戶提供。關聯(lián)規(guī)則中置信度為s%:在整體事件D集合中,如果既能夠符合事件Y中的s%的需求,又能夠符合X要求。用支持度來表示關聯(lián)規(guī)則的頻度,把支持度的最小數(shù)記錄用minsup(X)來表示,通常支持度最小數(shù)值由客戶提供。頻繁項集合:當X項集的支持度大于等于用戶設定好的最小支持度時,那么頻繁項集是X。通常關聯(lián)規(guī)則包含兩個環(huán)節(jié):①把全部頻繁項集從整體事件集中選出;②運用頻繁項集產(chǎn)生關聯(lián)規(guī)則。在這兩個環(huán)節(jié)中關聯(lián)規(guī)則效果和性能是否良好取決于第一個環(huán)節(jié)。
2。2關聯(lián)規(guī)則分析在評估教學質量中的運用
第一步是準備數(shù)據(jù)期,在某大學的教學管理系統(tǒng)中將五百條與教學評價有關的記錄從數(shù)據(jù)庫中隨機抽取,并挑選出老師編號、學歷、性別、教齡、評估分和職稱這六個屬性,并將相關數(shù)據(jù)從數(shù)據(jù)庫中提取。比如把講師、副教授和教授等職稱轉化成11、01、00等編碼,表1就是制定的評價教師教學記錄表。第二步采用關聯(lián)規(guī)則分析法把90分以上評價分數(shù)作為檢索目標和判斷標準,也就是將≥90分作為判斷是否是高教學質量闕值。通過檢索有143條記錄符合標準,即設定最小的支持度為10%,置信度則為15%,得出下表2的關聯(lián)規(guī)則。最后一步評價本次實驗的結果。由上表得知,學生喜歡男老師和女老師的程度大致相同;學歷愈高的老師,給予他們的教學評價也就愈高,即學歷和教學評價成正比,這也說明了學歷高的老師其基本功與學歷低的老師相比,前者基本功更為穩(wěn)固,也有較高的科學研究水平;有較長教齡和較高職稱的老師,其教學質量也越高;此外,在支持度中可以看出,高校教授和高學歷人才越多,說明其辦學能力也就越高。
3結語
高校管理系統(tǒng)作為教學信息化的重要舉措,只是起到搜集和儲存海量教學信息的作用,并沒有挖掘出海量數(shù)據(jù)之間的相關性,而在本文中把關聯(lián)規(guī)則法運用在教師教學質量評估中,在數(shù)據(jù)中挖掘有價值的知識和規(guī)律,使評估教師教學質量更具有科學性,因此在高校管理中全面應用數(shù)據(jù)挖掘技術,能為高校深化教學改革提供新的契機。
參考文獻
[1]江敏,徐艷。數(shù)據(jù)挖掘技術在高校教學管理中的應用[J]。電腦知識與技術,20xx,(24):541—545+560。
[2]楊雪霞。數(shù)據(jù)挖掘技術在高校圖書館管理系統(tǒng)中的應用研究[J]。軟件,20xx(04):16—18。
【數(shù)據(jù)挖掘論文】相關文章:
數(shù)據(jù)挖掘論文07-15
數(shù)據(jù)挖掘論文07-16
旅游管理下數(shù)據(jù)挖掘運用論文(6篇)11-18
旅游管理下數(shù)據(jù)挖掘運用論文(匯編6篇)11-18
旅游管理下數(shù)據(jù)挖掘運用論文(集合6篇)11-18