基于可擴展的網(wǎng)頁關鍵信息抽取研究論文
1 引言
網(wǎng)頁的關鍵信息是網(wǎng)頁的最基本的信息,它體現(xiàn)了該網(wǎng)頁和其他網(wǎng)頁的差別。常見的關鍵信息有正文、作者、來源、發(fā)布時間等。在網(wǎng)絡輿情監(jiān)控、網(wǎng)絡情報分析、搜索引擎等重大網(wǎng)絡應用中,這些關鍵信息都是后期分析挖掘必不可少的基礎數(shù)據(jù)。需要利用網(wǎng)絡信息抽取技術(shù)從網(wǎng)頁中抽取出這些關鍵信息。從某種角度上講,關鍵信息的抽取質(zhì)量直接決定了網(wǎng)絡應用服務的效果。因此,網(wǎng)頁的關鍵信息抽取研究具有重大的應用價值。
隨著網(wǎng)頁規(guī)模呈指數(shù)級增長,在網(wǎng)絡應用中,模板無關的全自動信息抽取算法和基于模板的信息抽取算法以其特有的優(yōu)勢成為信息抽取環(huán)節(jié)的主流算法。該算法通常針對特定需求,利用一些經(jīng)驗規(guī)則處理特定領域或特定格式的網(wǎng)頁。因為抽取過程無需人工干預,所以此類算法越來越多地應用于實際網(wǎng)絡環(huán)境中。基于模板的信息抽取算法充分利用了動態(tài)網(wǎng)頁的規(guī)律:網(wǎng)頁是由同一個模板生成的,屬于模板的符號不會變化,變化的只是模板中填充的數(shù)據(jù)。因此,該算法在對動態(tài)網(wǎng)頁進行抽取時能夠取得較高的精度。
但是,這兩類抽取算法也存在著其固有的缺陷。模板無關的全自動抽取算法通;谶^強的假設。在處理多樣性日益顯著的網(wǎng)頁時,常常因為某些網(wǎng)頁不符合假設,而導致出現(xiàn)抽取精度不能滿足需求的情況;并且由于使用過多規(guī)則,導致抽取效率低的情況。使用基于模板的信息抽取算法進行抽取時,需先針對某類網(wǎng)頁學習出模板,后人工標注。面對日益增多的數(shù)據(jù)源,會導致網(wǎng)絡應用的運維代價過大;同時日益復雜的網(wǎng)頁使得模板的準確性下降,從而導致抽取精度下降。
針對上述模板無關的全自動信息抽取算法和基于模板的信息抽取算法的缺陷,本文進行了深入研究。本文的貢獻主要有以下兩點。首先,提出了一種可擴展的網(wǎng)頁關鍵信息抽取框架。該框架通過輸入訓練網(wǎng)頁或其他算法的抽取結(jié)果,生成關鍵信息模板集。再通過模板的正交過濾算法,生成候選的關鍵信息模板。最后通過模板的特征過濾算法,生成最終的關鍵信息模板。利用該模板可快速、準確地從同類型網(wǎng)頁中抽取關鍵信息。該框架很好地融合了模板無關的全自動信息抽取算法和基于模板的信息抽取算法,使得兩類算法能夠充分發(fā)揮各自的優(yōu)點,并在缺點方面互相彌補。實驗結(jié)果表明,該框架能夠在抽取精度、抽取效率方面有本質(zhì)上的提高。此外,該框架具有很好的可擴展性,框架中的一些關鍵環(huán)節(jié)可根據(jù)需求進行替換。其次,本文提出了模板的正交過濾算法,該算法將訓練網(wǎng)頁或其他算法的抽取結(jié)果分成若干份,生成若干個模板,再通過模板的正交過濾算法,過濾掉模板中的噪音部分,得到候選模板。將該算法引入基于模板的抽取算法中,能夠從本質(zhì)上提高生成的模板的準確性,最后的實驗結(jié)果也充分驗證了這一結(jié)論。
2 相關工作
網(wǎng)頁信息抽取是一種針對網(wǎng)絡數(shù)據(jù)源和網(wǎng)頁進行深度處理和加工的過程。由于網(wǎng)頁的復雜性和多樣性,使得網(wǎng)頁信息抽取算法也越來越多。常見的網(wǎng)頁信息抽取算法主要可分為4類:包裝器語言、包裝器歸納、基于模板的信息抽取和模板無關的全自動信息抽取。由于包裝器語言和包裝器歸納都需要過多的人工干預,所以在實際的工程應用中,基于模板的信息抽取算法和模板無關的全自動信息抽取算法以其較強的實用性占據(jù)了主流的位置;谀0宓男畔⒊槿⊥ǔ;谶@樣的假設:待抽取的網(wǎng)頁是由同一個模板生成的,屬于模板的'符號不會變化,變化的只是模板中填充的數(shù)據(jù)。符合這種生成模型的網(wǎng)頁都可以利用網(wǎng)頁模板分析方法來抽取;ヂ(lián)網(wǎng)上大量存在的動態(tài)網(wǎng)頁是由機器生成的(例如論壇)網(wǎng)頁;谀0宓男畔⒊槿〉墓ぷ髁鞒淌牵
1)利用多個同類型網(wǎng)頁中具有共性的不變的部分生成一個模板;
2)根據(jù)模板對同類型網(wǎng)頁進行抽取。因為此類算法過濾了網(wǎng)頁中的大量模板,只留下了數(shù)據(jù),同時自動還原出了數(shù)據(jù)的結(jié)構(gòu),使得用戶在付出較小人工代價的同時,能夠獲得較為準確的關鍵信息。因此此類算法一直都是網(wǎng)絡應用中的主流算法。但是該類算法具有這樣的缺陷:首先需要針對同類型的網(wǎng)頁生成一個模板。模板的準確性直接決定了后續(xù)信息抽取的精確度。隨著網(wǎng)頁復雜性以及同一類型網(wǎng)頁的差異性的增大,生成的模板準確性隨之降低。模板無關的全自動信息抽取算法進一步提高了信息抽取的自動化程度。此類算法通常利用一些經(jīng)驗規(guī)則處理特定領域或特定格式的網(wǎng)頁,例如,經(jīng)典的全自動信息抽取算法MDR。該算法的缺陷在于通;谶^強的假設。以網(wǎng)頁正文抽取為例。網(wǎng)頁的正文往往是各大網(wǎng)絡應用都需要的關鍵信息,有不少針對正文抽取的模板無關的全自動抽取算法。CoreEx是通過計算DOM 樹中的鏈接文本比來確定正文所在的范圍。CETR是通過標簽的密度來確定正文所在的范圍。CETD結(jié)合了二者優(yōu)點。這些算法自動化程度高,通用性強,但是效率較低,且假設過強,精確度不如基于模板的算法。VIPS是一種通用性較強的算法,但是它需要渲染網(wǎng)頁。因此這種方法的效率較低。
在以往的文獻中,較少看到將模板無關的全自動信息抽取算法和基于模板的信息抽取算法結(jié)合使用的相關研究。在本文提出的框架中,巧妙地將這兩種算法有機地結(jié)合起來,使得二者能夠取長補短,從本質(zhì)上提高信息抽取的質(zhì)量。
【基于可擴展的網(wǎng)頁關鍵信息抽取研究論文】相關文章:
基于數(shù)據(jù)抽取與訂閱實現(xiàn)數(shù)據(jù)共享分析及研究論文10-30
合理定價評審抽取研究論文03-30
有關合理定價評審抽取的研究論文04-03
基于多單片機的串口擴展設計論文11-17
基于科技信息共享云服務機制研究論文11-02
基于Web的農(nóng)機推廣信息系統(tǒng)的研究與設計論文11-02
基于GIS的農(nóng)業(yè)動態(tài)信息共享網(wǎng)絡平臺研究論文11-07