電力企業(yè)文本數(shù)據(jù)挖掘技術(shù)探究教學(xué)論文
摘要:在國(guó)家電網(wǎng)公司信息化工程的建設(shè)過(guò)程中,積累了大量的文本數(shù)據(jù)。如何挖掘文本數(shù)據(jù)中蘊(yùn)含的有價(jià)值信息將成為電力企業(yè)大數(shù)據(jù)挖掘方向研究的重點(diǎn)對(duì)象。文章結(jié)合電力行業(yè)目前的數(shù)據(jù)現(xiàn)狀,使用文本挖掘的方法對(duì)電力設(shè)備檢修資金投入工作效能場(chǎng)景進(jìn)行挖掘,對(duì)生產(chǎn)信息管理系統(tǒng)中報(bào)缺單數(shù)據(jù)進(jìn)行文本聚類,實(shí)現(xiàn)對(duì)缺陷的細(xì)分。實(shí)踐表明,該方法可以得出各類別的缺陷特征,從而證明了文本挖掘在電力行業(yè)的可用性。
關(guān)鍵詞:電力設(shè)備檢修;文本數(shù)據(jù);文本挖掘;大數(shù)據(jù)挖掘
隨著信息化的快速發(fā)展,國(guó)家電網(wǎng)公司各專業(yè)積累的數(shù)據(jù)量越來(lái)越龐大。龐大數(shù)據(jù)的背后,由于數(shù)據(jù)結(jié)構(gòu)和存儲(chǔ)方式的多樣化以及電力系統(tǒng)內(nèi)部不同專業(yè)從業(yè)者的知識(shí)面層次不齊等,其中被利用的數(shù)據(jù)只占少量的部分,造成大量的有價(jià)值數(shù)據(jù)被浪費(fèi)。在被浪費(fèi)的數(shù)據(jù)中,以文本形式存在的數(shù)據(jù)占很大比重,如何從比較復(fù)雜的文本數(shù)據(jù)中獲得需要的數(shù)據(jù)受到國(guó)家電網(wǎng)公司的普遍關(guān)注。國(guó)家電網(wǎng)公司經(jīng)過(guò)SG186、三集五大等大型信息化工程的建設(shè),積累了海量的業(yè)務(wù)數(shù)據(jù),其中包括大量的文本數(shù)據(jù)。目前,國(guó)家電網(wǎng)公司對(duì)業(yè)務(wù)數(shù)據(jù)的利用主要集中在結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)計(jì)和分析,這些方法無(wú)法直接應(yīng)用在非結(jié)構(gòu)化文本數(shù)據(jù)中,更無(wú)法對(duì)其中隱含的價(jià)值規(guī)律進(jìn)行深度分析挖掘。針對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)量不斷增大、業(yè)務(wù)應(yīng)用范圍不斷擴(kuò)大這一現(xiàn)狀,為了提升國(guó)家電網(wǎng)公司企業(yè)運(yùn)營(yíng)管理精益化水平,需要進(jìn)一步挖掘非結(jié)構(gòu)化數(shù)據(jù)中潛在的數(shù)據(jù)價(jià)值。因此,開展電力大數(shù)據(jù)文本數(shù)據(jù)挖掘技術(shù)應(yīng)用場(chǎng)景和一般流程的研究顯得尤為重要[1]。
1非結(jié)構(gòu)化數(shù)據(jù)概述
與結(jié)構(gòu)化數(shù)據(jù)(能夠用二維表結(jié)構(gòu)遵循一定的邏輯語(yǔ)法進(jìn)行體現(xiàn)的數(shù)據(jù))相比,非結(jié)構(gòu)化數(shù)據(jù)不能在數(shù)據(jù)庫(kù)中采用二維結(jié)構(gòu)邏輯形式來(lái)表示,這些形式主要有Word文檔、文本、圖片、標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言下的子集XML、HTML、Excel報(bào)表、PPT、Audio、Video、JPG、BMP等。半結(jié)構(gòu)化數(shù)據(jù)處于完全結(jié)構(gòu)化數(shù)據(jù)(邏輯型、關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù))和完全無(wú)結(jié)構(gòu)化數(shù)據(jù)(BMP、JPG、Video文件)中間,它一般的功能是對(duì)系統(tǒng)文件的描述,如系統(tǒng)應(yīng)用幫助模塊,有一定的邏輯結(jié)構(gòu),同時(shí)也包含數(shù)據(jù)格式,兩者相融在一起,比較均衡,沒(méi)有明顯的界限[2]。進(jìn)入21世紀(jì)后,網(wǎng)絡(luò)技術(shù)飛速發(fā)展,特別是內(nèi)聯(lián)網(wǎng)和因特網(wǎng)技術(shù)取得突飛猛進(jìn)的發(fā)展,各類非結(jié)構(gòu)數(shù)據(jù)類型格式日益增多,以往的數(shù)據(jù)庫(kù)主要用于管理結(jié)構(gòu)化數(shù)據(jù),對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的管理稍顯乏力,為了適應(yīng)非結(jié)構(gòu)數(shù)據(jù)的迅猛發(fā)展,數(shù)據(jù)庫(kù)的革新勢(shì)在必行,在內(nèi)聯(lián)網(wǎng)和因特網(wǎng)技術(shù)的基礎(chǔ)上,對(duì)數(shù)據(jù)庫(kù)的內(nèi)在結(jié)構(gòu)進(jìn)行改進(jìn)和創(chuàng)新,使其能夠兼容和處電力信息與通信技術(shù)2016年第14卷第1期8電力大數(shù)據(jù)技術(shù)理非結(jié)構(gòu)數(shù)據(jù)形式。北京國(guó)信貝斯是我國(guó)非結(jié)構(gòu)化數(shù)據(jù)庫(kù)開發(fā)和設(shè)計(jì)的領(lǐng)軍者,其旗下開發(fā)的IBase數(shù)據(jù)庫(kù)能夠兼容和處理目前市面上存在的各種文件名、格式、多媒體信息,能夠基于內(nèi)聯(lián)網(wǎng)和互聯(lián)網(wǎng)對(duì)海量信息進(jìn)行搜索、管理,技術(shù)已經(jīng)達(dá)到全球領(lǐng)先水平。
2文本挖掘技術(shù)
2.1文本挖掘
文本挖掘的對(duì)象是用自然語(yǔ)言描述的語(yǔ)句、論文、Web頁(yè)面等非結(jié)構(gòu)化文本信息,這類信息無(wú)法使用結(jié)構(gòu)化數(shù)據(jù)的挖掘方法進(jìn)行處理;文本挖掘指通過(guò)對(duì)單個(gè)詞語(yǔ)和語(yǔ)法的`精準(zhǔn)分析,通過(guò)分析結(jié)構(gòu)在海量的非結(jié)構(gòu)化數(shù)據(jù)中檢索意思相近的詞語(yǔ)、句子或者信息[3]。
2.2文本挖掘流程
挖掘流程如圖1所示。圖1挖掘流程Fig.1Miningprocedure1)文本預(yù)處理:把與任務(wù)直接關(guān)聯(lián)的信息文本轉(zhuǎn)化成可以讓文本挖掘工具處理的形式,這個(gè)過(guò)程分3步:分段;預(yù)讀文本,把文本特征展現(xiàn)出來(lái);特征抽取。2)文本挖掘:完成文本特征抽取后,通過(guò)智能機(jī)器檢索工具識(shí)別符合主題目標(biāo)的文段信息,在海量信息或者用戶指定的數(shù)據(jù)域中搜索與文本預(yù)處理后得出的文本特征相符或相近的數(shù)據(jù)信息,然后通過(guò)進(jìn)一步識(shí)別和判斷,達(dá)到精確檢索的目的,這是一個(gè)非常復(fù)雜的過(guò)程,縱跨了多個(gè)學(xué)科,包括智能技術(shù)、信息技術(shù)、智能識(shí)別技術(shù)、非結(jié)構(gòu)數(shù)據(jù)庫(kù)技術(shù)、可視化技術(shù)、預(yù)處理技術(shù)、讀碼技術(shù)等。3)模式評(píng)估:模式評(píng)估是用戶根據(jù)自己的需求主題設(shè)置符合自己需求主題或目標(biāo)的模式,把挖掘到的文本或信息與自己設(shè)置的模式進(jìn)行匹配,如果發(fā)現(xiàn)符合主題要求,則存儲(chǔ)該數(shù)據(jù)和模式以方便用戶調(diào)用,如果不符合,則跳轉(zhuǎn)回原來(lái)的環(huán)節(jié)進(jìn)行重新檢索,然后進(jìn)行下一個(gè)匹配過(guò)程的模式評(píng)估。
2.3文本挖掘技術(shù)分析
解決非結(jié)構(gòu)化文本挖掘問(wèn)題,現(xiàn)階段主要有2種方法:一是探索新型的數(shù)據(jù)挖掘算法以準(zhǔn)確挖掘出相應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)信息,基于數(shù)據(jù)本身所體現(xiàn)的復(fù)雜特性,使得算法的實(shí)施愈加困難;二是把非結(jié)構(gòu)化問(wèn)題直接轉(zhuǎn)換成結(jié)構(gòu)化,通過(guò)實(shí)施相應(yīng)的數(shù)據(jù)挖掘技術(shù)達(dá)到挖掘目的。而在語(yǔ)義關(guān)系方面,就要應(yīng)用到特定的語(yǔ)言處理成果完成分析過(guò)程。下文是根據(jù)文本挖掘的大致流程來(lái)介紹其所用到的相關(guān)技術(shù)。
2.3.1數(shù)據(jù)預(yù)處理技術(shù)
文本數(shù)據(jù)預(yù)處理技術(shù)大致可分為分詞技術(shù)、特征表示以及特征提取法。1)分詞技術(shù)主要有兩大類:一種為針對(duì)詞庫(kù)的分詞算法;另一種為針對(duì)無(wú)詞典的分詞技術(shù)。前者主要包含正向最大/小匹配和反向匹配等。而后者的基礎(chǔ)思路為:在統(tǒng)計(jì)詞頻的基礎(chǔ)上,把原文中緊密相連的2個(gè)字當(dāng)作一個(gè)詞來(lái)統(tǒng)計(jì)其出現(xiàn)的次數(shù),若頻率較高,就有可能是一個(gè)詞,當(dāng)該頻率達(dá)到了預(yù)設(shè)閾值,就可把其當(dāng)作一個(gè)詞來(lái)進(jìn)行索引。2)特征表示通常是把對(duì)應(yīng)的特征項(xiàng)作為本文的標(biāo)示,在進(jìn)行文本挖掘時(shí)只需要處理相對(duì)應(yīng)的特征項(xiàng),就能完成非結(jié)構(gòu)化的文本處理,直接實(shí)現(xiàn)結(jié)構(gòu)化轉(zhuǎn)換目的。特征表示的建立過(guò)程實(shí)際上就是挖掘模型的建立過(guò)程,其模型可分為多種類型,如向量空間模型與概率型等[5]。3)特征提取法通常是建立起特定的評(píng)價(jià)函數(shù),以此評(píng)價(jià)完所有特征,然后把這些特征依照評(píng)價(jià)值的高低順序進(jìn)行排列,將評(píng)價(jià)值最高項(xiàng)作為優(yōu)選項(xiàng)。在實(shí)際文本處理過(guò)程中所應(yīng)用的評(píng)價(jià)函數(shù)主要包括信息增益、互信息以及詞頻等。
2.3.2挖掘常用技術(shù)
從文本挖掘技術(shù)的研究和應(yīng)用情況來(lái)看,在現(xiàn)有的文本挖掘技術(shù)類別中應(yīng)用較為廣泛的主要包括文本分類、自動(dòng)文摘以及文本聚類[4-5]。1)文本分類。文本分類是給機(jī)器添加相應(yīng)的分類模型,當(dāng)用戶閱讀文本時(shí)能夠更為便捷,在搜索文本信息時(shí),能夠在所設(shè)定的搜索范圍內(nèi)快速和準(zhǔn)確的獲取。用于文本分類的算法較多,主要有決策樹、貝葉斯分類、支持向量機(jī)(SVM)、向量空間模型(VectorSpaceModel,VSM)、邏輯回歸(LogisticRegression,LR)以及神經(jīng)網(wǎng)絡(luò)等。2)自動(dòng)文摘。自動(dòng)文摘是通過(guò)計(jì)算機(jī)技術(shù)智能的把原文的中心內(nèi)容濃縮成簡(jiǎn)短、連續(xù)的文字段落,以此來(lái)盡可能地降低用戶閱讀的文本信息量。3)文本聚類。文本聚類與文本分類的作用大抵相同,所實(shí)施的過(guò)程有所區(qū)別。文本聚類是將內(nèi)容相近的文本歸到同個(gè)類別,盡可能地區(qū)分內(nèi)容不同的文本。其標(biāo)準(zhǔn)通常可以依照文本屬性或者文本內(nèi)容來(lái)進(jìn)行聚類。聚類方法大致可分為平面劃分法與層次聚類法。另外,除了上述常用的文本挖掘技術(shù),許多研究還涉及關(guān)聯(lián)分析、分布預(yù)測(cè)分析和結(jié)構(gòu)分析等。
2.3.3文本挖掘系統(tǒng)模式評(píng)估方法
數(shù)據(jù)挖掘系統(tǒng)的評(píng)估是至關(guān)重要的,現(xiàn)在已有大量的研究來(lái)衡量這一標(biāo)準(zhǔn),以下是公認(rèn)的評(píng)估方法。1)查全率和查準(zhǔn)率。查全率代表實(shí)際被檢出的文本的百分比;查準(zhǔn)率是所檢索到的實(shí)際文本與查詢相關(guān)文本的百分比。2)冗余度和放射性。冗余度表示信息抽取中冗余的程度;放射性表示一個(gè)系統(tǒng)在抽取事實(shí)不斷增多時(shí)產(chǎn)生錯(cuò)誤的趨勢(shì)。最低的冗余度和放射性是系統(tǒng)追求的最終目標(biāo)。3)雙盲測(cè)試。先用機(jī)器生成一組輸出結(jié)果,再由相關(guān)專家產(chǎn)生一組輸出結(jié)果,然后混合2組輸出結(jié)果,這種混合后的輸出集再交給另一些相關(guān)專家進(jìn)行驗(yàn)證,讓他們給予準(zhǔn)確性方面的評(píng)估。
3電力行業(yè)文本挖掘可研究實(shí)例
文本挖掘技術(shù)在國(guó)內(nèi)電力行業(yè)屬于新興的前沿領(lǐng)域,對(duì)從業(yè)人員的素質(zhì)要求相對(duì)比較高。由于現(xiàn)階段知識(shí)和技術(shù)層面上匱乏,國(guó)家電網(wǎng)幾乎沒(méi)有關(guān)于此方面的項(xiàng)目實(shí)施。本節(jié)通過(guò)2個(gè)電力運(yùn)營(yíng)監(jiān)測(cè)業(yè)務(wù)的應(yīng)用需求,初步探討文本挖掘的建模過(guò)程。
3.1電力運(yùn)營(yíng)監(jiān)測(cè)業(yè)務(wù)應(yīng)用需求
1)檢修資金投入工作效能分析場(chǎng)景分析。大檢修和技改是保障電網(wǎng)安全的重要工作。由于運(yùn)檢業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量問(wèn)題,通過(guò)對(duì)量化數(shù)據(jù)的統(tǒng)計(jì),無(wú)法準(zhǔn)確掌握大修、技改資金投入的工作效能情況。但設(shè)備的實(shí)際運(yùn)行狀態(tài)可以通過(guò)文本類故障記錄、運(yùn)行日志等進(jìn)行反映,因此,采用文本挖掘技術(shù)對(duì)檢修工作效能進(jìn)行分析與可視化展現(xiàn),同時(shí)結(jié)合傳統(tǒng)的統(tǒng)計(jì)方法,實(shí)現(xiàn)對(duì)大修技改資金投入工作效能的分析和監(jiān)測(cè)。例如,可以通過(guò)分析歷年的故障記錄信息,反映出每年主要故障變化情況,進(jìn)而結(jié)合每年大修技改資金投入情況,分析資金投入是否與預(yù)期目標(biāo)相一致。2)家族缺陷識(shí)別分析。家族缺陷是指同一廠家生產(chǎn)的同一型號(hào)、同一批次的設(shè)備在運(yùn)行過(guò)程中出現(xiàn)了相同或相似的缺陷。家族缺陷識(shí)別分析是通過(guò)對(duì)運(yùn)行記錄、故障記錄等設(shè)備運(yùn)行文本信息的挖掘和可視化分析,對(duì)設(shè)備家族缺陷進(jìn)行識(shí)別。該場(chǎng)景既可以輔助基層業(yè)務(wù)人員對(duì)家族缺陷進(jìn)行準(zhǔn)確判斷,同時(shí)可以作為一種輔助手段為總部專家判定家族缺陷提供參考,從而實(shí)現(xiàn)對(duì)家族缺陷辨識(shí)方式的優(yōu)化,并基于此為檢修計(jì)劃制定、廠商評(píng)價(jià)、采購(gòu)建議等提供決策支撐。
3.2文本分析建模過(guò)程
第1步:將原始的非結(jié)構(gòu)化數(shù)據(jù)源轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),分析文本集合中各個(gè)文本之間共同出現(xiàn)的模式;匯總與家族缺陷相關(guān)的所有文檔,形成原始數(shù)據(jù)源的集合。第2步:對(duì)原始數(shù)據(jù)源的集合進(jìn)行分詞處理,建立特征集,使用詞頻/逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF/IDF)權(quán)值計(jì)算方法得到各個(gè)點(diǎn)的維度權(quán)值,判斷關(guān)鍵字的詞頻,例如“主變1號(hào)”運(yùn)行記錄中多次出現(xiàn),但在故障記錄中很少出現(xiàn),那么認(rèn)為“主變1號(hào)”有很好的類別區(qū)分能力。第3步:對(duì)分詞后的文檔建立索引,匯總所有文檔的索引形成索引庫(kù),并對(duì)索引庫(kù)排序。第4步:文檔向量化;構(gòu)建向量空間模型,將文檔表達(dá)為一個(gè)矢量,看作向量空間中的一個(gè)點(diǎn);實(shí)際分析過(guò)程中對(duì)多維數(shù)據(jù)首先將其降低維度,降低維度后得到一個(gè)三維空間模型,文檔向量化生成文檔特征詞對(duì)應(yīng)表、文檔相似度表。第5步:結(jié)合業(yè)務(wù)實(shí)際,對(duì)相似度較高的表中出現(xiàn)的關(guān)鍵字進(jìn)行比對(duì),例如:“主變1號(hào)”、“停電故障”等關(guān)鍵字在多個(gè)日志中頻繁出現(xiàn),則該文檔所記錄的相關(guān)設(shè)備存在異常的可能性較大。
3.3文本分析應(yīng)用及成效
對(duì)生產(chǎn)信息管理系統(tǒng)中報(bào)缺單數(shù)據(jù)中的報(bào)缺單名稱進(jìn)行文本聚類,實(shí)現(xiàn)對(duì)缺陷的細(xì)分,進(jìn)而對(duì)各類別在非聚類變量上進(jìn)行分析,得出各類別的缺陷特征。經(jīng)過(guò)近一年以來(lái)在國(guó)網(wǎng)遼寧電力公司的逐步應(yīng)用,科學(xué)的分析挖掘出缺陷主要集中在開關(guān)、主變、指示燈、直流、冷卻器、調(diào)速器等設(shè)備,主要出現(xiàn)啟呂旭明(1981–),男,河北保定人,高級(jí)工程師,從事電力企業(yè)信息化、智能電網(wǎng)及信息安全研究與應(yīng)用工作;雷振江(1976–),男,遼寧沈陽(yáng)人,高級(jí)工程師,從事電力信息化項(xiàng)目計(jì)劃、重點(diǎn)項(xiàng)目建設(shè)、信息技術(shù)研究與創(chuàng)新應(yīng)用、信息化深化應(yīng)用等相關(guān)工作;趙永彬(1975–),男,遼寧朝陽(yáng)人,高級(jí)工程師,從事電力信息通信系統(tǒng)調(diào)度、運(yùn)行、客服及信息安全等相關(guān)工作;由廣浩(1983–),男,遼寧遼陽(yáng)人,工程師,從事信息網(wǎng)絡(luò)建設(shè)、信息安全等工作。作者簡(jiǎn)介:動(dòng)、漏水、停機(jī)、滲水等缺陷現(xiàn)象。公司故障處理快速響應(yīng)、及時(shí)維修、提高供電質(zhì)量和服務(wù)效率得到了顯著的提升。電力設(shè)備故障缺陷特征示意如圖2所示。
4結(jié)語(yǔ)
國(guó)家電網(wǎng)文本挖掘的目的是從海量數(shù)據(jù)中抽取隱含的、未知的、有價(jià)值的文本數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)處理電力公司文本數(shù)據(jù),將會(huì)給企業(yè)帶來(lái)巨大的商業(yè)價(jià)值。本文提出的關(guān)于檢修資金投入工作效能分析和家族缺陷識(shí)別分析2個(gè)文本挖掘?qū)嵗皇俏谋就诰蛟陔娏π袠I(yè)應(yīng)用的一角。如今,數(shù)據(jù)挖掘技術(shù)與電力行業(yè)正處于快速發(fā)展階段,文本挖掘的應(yīng)用將越來(lái)越廣泛。下一階段的研究目標(biāo)是探尋有效辦法將數(shù)據(jù)挖掘技術(shù)融入到文本挖掘領(lǐng)域的實(shí)際應(yīng)用中,使得國(guó)家電網(wǎng)文本挖掘項(xiàng)目得以順利實(shí)施,并達(dá)到預(yù)期成效。
參考文獻(xiàn):
[1]費(fèi)爾德曼.文本挖掘(英文版)[M].北京:人民郵電出版社,2009.
[2]孫濤.面向半結(jié)構(gòu)化的數(shù)據(jù)模型和數(shù)據(jù)挖掘方法研究[D].吉林:吉林大學(xué),2010.
[3]胡健,楊炳儒,宋澤鋒,等.基于非結(jié)構(gòu)化數(shù)據(jù)挖掘結(jié)構(gòu)模型的Web文本聚類算法[J].北京科技大學(xué)學(xué)報(bào),2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.
[4]周昭濤.文本聚類分析效果評(píng)價(jià)及文本表示研究[D].北京:中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),2005.
[5]TANPN,STEINBACHM,KUMARV.數(shù)據(jù)挖掘?qū)д?英文版)[M].北京:人民郵電出版社,2006.
【電力企業(yè)文本數(shù)據(jù)挖掘技術(shù)探究教學(xué)論文】相關(guān)文章:
數(shù)據(jù)挖掘技術(shù)在WEB的運(yùn)用論文04-26
大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)教學(xué)研究論文01-20
數(shù)據(jù)挖掘論文03-31
數(shù)據(jù)挖掘論文07-15
分析在課程教學(xué)中數(shù)據(jù)挖掘技術(shù)的選擇論文10-15
我國(guó)的數(shù)據(jù)挖掘技術(shù)現(xiàn)狀分析論文04-28
大數(shù)據(jù)挖掘在智游應(yīng)用中的探究論文04-13
專利數(shù)據(jù)挖掘的論文06-26