從web頁面中抽取出用戶感興趣的數(shù)據(jù).doc
約61頁DOC格式手機(jī)打開展開
從web頁面中抽取出用戶感興趣的數(shù)據(jù),從web頁面中抽取出用戶感興趣的數(shù)據(jù)目 錄摘 要iabstractii第1章 緒論11.1 選題背景和意義11.2 web信息的抽取21.3 web信息抽取的應(yīng)用31.4 本文的研究內(nèi)容31.5 本文的組織3第2章 相關(guān)標(biāo)準(zhǔn)與web信息抽取技術(shù)52.1 引言52.2相關(guān)標(biāo)準(zhǔn)52.2.1 xml52.2.2 xhtml8...
內(nèi)容介紹
此文檔由會員 pilycia 發(fā)布
從Web頁面中抽取出用戶感興趣的數(shù)據(jù)
目 錄
摘 要 I
Abstract II
第1章 緒論 1
1.1 選題背景和意義 1
1.2 Web信息的抽取 2
1.3 Web信息抽取的應(yīng)用 3
1.4 本文的研究內(nèi)容 3
1.5 本文的組織 3
第2章 相關(guān)標(biāo)準(zhǔn)與Web信息抽取技術(shù) 5
2.1 引言 5
2.2相關(guān)標(biāo)準(zhǔn) 5
2.2.1 XML 5
2.2.2 XHTML 8
2.2.3 DOM 8
2.2.4 XPath 8
2.2.5 XSLT 9
2.3 Web信息抽取技術(shù)概述 10
2.3.1 Web信息抽取技術(shù)的分類 11
2.3.2 Web信息抽取存在的問題 16
2.3.3 Web信息抽取的關(guān)鍵技術(shù) 17
2.3.4 信息抽取系統(tǒng)的評測指標(biāo) 19
2.4 資料綜述 20
2.5 本章小結(jié) 20
第3章 基于XML的Web信息抽取平臺 22
3.1概述 22
3.1.1 平臺的目標(biāo) 22
3.1.2設(shè)計(jì)的基本思想 22
3.1.3 XML和XSLT在平臺中的角色 23
3.1.4 數(shù)據(jù)導(dǎo)向型頁面 25
3.2 平臺的總體框架 26
3.3 平臺中的知識庫與數(shù)據(jù)庫 27
3.3.1 構(gòu)造領(lǐng)域知識庫 27
3.3.2抽取規(guī)則庫 28
3.3.3抽取結(jié)果數(shù)據(jù)庫和Web頁面數(shù)據(jù)庫 28
3.4 頁面優(yōu)化模塊 29
3.4.1 清洗(TIDY)頁面文檔 29
3.4.2 頁面解析(PARSER) 32
3.5 信息抽取模塊 32
3.5.1 規(guī)則學(xué)習(xí)的依據(jù) 33
3.5.2規(guī)則學(xué)習(xí)的步驟 34
3.5.3 信息抽取過程的描述 41
3.6 資料綜述 42
3.7 本章小結(jié) 43
第4章 抽取規(guī)則的優(yōu)化研究 44
4.1 信息定位的優(yōu)化方法 44
4.1.1 基于樹路徑的定位 44
4.1.2 路徑與內(nèi)容結(jié)合的定位方式 45
4.1.3 完全基于文本的定位方式 46
4.1.4 基于屬性的定位 47
4.2 幾種定位方法的小結(jié) 47
4.3 本章小結(jié) 49
第5章 總結(jié) 50
5.1 實(shí)驗(yàn)例子 50
5.2 本文的研究工作 51
5.2 進(jìn)一步的工作 52
致 謝 54
參考文獻(xiàn) 55
摘 要
隨著Web的快速發(fā)展,如何從中獲得想要的信息成為亟待解決的問題,因此信息抽取成為必要。Wrapper是從網(wǎng)頁進(jìn)行抽取的程序,信息抽取研究需要解決的問題是:構(gòu)造盡可能準(zhǔn)確、健壯和通用的Wrapper,使其免受網(wǎng)站結(jié)構(gòu)不同和頁面結(jié)構(gòu)變化的影響,并盡可能地減少人為參與。
目前,已經(jīng)產(chǎn)生了各種各樣的方法來生成Wrapper,但這些方法有不同的局限性,在精確度、健壯性和通用性方面難以達(dá)到很高的要求,本文對這些方法進(jìn)行研究和分析。
本文利用了標(biāo)準(zhǔn)的XML技術(shù)來解決信息抽取問題,提出一個基于XML技術(shù)的Web信息抽取平臺。并通過歸納學(xué)習(xí)算法,尋找和識別出感興趣的數(shù)據(jù)。利用XSLT和Xpath技術(shù)在數(shù)據(jù)定位和轉(zhuǎn)換方面的優(yōu)勢,解決信息抽取中的關(guān)鍵問題:編寫抽取規(guī)則。
最后,本文還對抽取規(guī)則的優(yōu)化問題進(jìn)行了研究,對幾種信息定位方式進(jìn)行了比較,目的是此基礎(chǔ)上編寫更為簡單、健壯和通用的抽取規(guī)則。
關(guān)鍵詞:信息抽取 XML XSLT
Abstract
With the explosion of Web, how to get the piece of information what he want from the web has become a serious problem, so information extraction from web pages is necessary. Wrapper is the program that performs the extraction task and the key problems are how to constructing accurate, robust and adaptable wrapper without much human intervention, and the wrapper should be independent on particular web sites and could avoid impact from changes of web pages.
Many approaches have been proposed to generate wrapper, but they have different limitations that hard to make it accurate, robust or general. This dissertation studied and analyzed those approaches
This paper apply standard technologies of XML to web extraction problem and developed a platform of web information extraction based XML. With Inductive Learning arithmetic lactated and identified the information blocks that we want. This paper used standard XSLT and Xpath, exploiting their powers of data location and conversion, to solve the key problem: writing extraction rules.
At last, this paper studied the optimization of extraction rules and compared several information location methods. The aim is to generate simple, robust and general extraction rules.
Key Words: Information Extraction XML XSLT
目 錄
摘 要 I
Abstract II
第1章 緒論 1
1.1 選題背景和意義 1
1.2 Web信息的抽取 2
1.3 Web信息抽取的應(yīng)用 3
1.4 本文的研究內(nèi)容 3
1.5 本文的組織 3
第2章 相關(guān)標(biāo)準(zhǔn)與Web信息抽取技術(shù) 5
2.1 引言 5
2.2相關(guān)標(biāo)準(zhǔn) 5
2.2.1 XML 5
2.2.2 XHTML 8
2.2.3 DOM 8
2.2.4 XPath 8
2.2.5 XSLT 9
2.3 Web信息抽取技術(shù)概述 10
2.3.1 Web信息抽取技術(shù)的分類 11
2.3.2 Web信息抽取存在的問題 16
2.3.3 Web信息抽取的關(guān)鍵技術(shù) 17
2.3.4 信息抽取系統(tǒng)的評測指標(biāo) 19
2.4 資料綜述 20
2.5 本章小結(jié) 20
第3章 基于XML的Web信息抽取平臺 22
3.1概述 22
3.1.1 平臺的目標(biāo) 22
3.1.2設(shè)計(jì)的基本思想 22
3.1.3 XML和XSLT在平臺中的角色 23
3.1.4 數(shù)據(jù)導(dǎo)向型頁面 25
3.2 平臺的總體框架 26
3.3 平臺中的知識庫與數(shù)據(jù)庫 27
3.3.1 構(gòu)造領(lǐng)域知識庫 27
3.3.2抽取規(guī)則庫 28
3.3.3抽取結(jié)果數(shù)據(jù)庫和Web頁面數(shù)據(jù)庫 28
3.4 頁面優(yōu)化模塊 29
3.4.1 清洗(TIDY)頁面文檔 29
3.4.2 頁面解析(PARSER) 32
3.5 信息抽取模塊 32
3.5.1 規(guī)則學(xué)習(xí)的依據(jù) 33
3.5.2規(guī)則學(xué)習(xí)的步驟 34
3.5.3 信息抽取過程的描述 41
3.6 資料綜述 42
3.7 本章小結(jié) 43
第4章 抽取規(guī)則的優(yōu)化研究 44
4.1 信息定位的優(yōu)化方法 44
4.1.1 基于樹路徑的定位 44
4.1.2 路徑與內(nèi)容結(jié)合的定位方式 45
4.1.3 完全基于文本的定位方式 46
4.1.4 基于屬性的定位 47
4.2 幾種定位方法的小結(jié) 47
4.3 本章小結(jié) 49
第5章 總結(jié) 50
5.1 實(shí)驗(yàn)例子 50
5.2 本文的研究工作 51
5.2 進(jìn)一步的工作 52
致 謝 54
參考文獻(xiàn) 55
摘 要
隨著Web的快速發(fā)展,如何從中獲得想要的信息成為亟待解決的問題,因此信息抽取成為必要。Wrapper是從網(wǎng)頁進(jìn)行抽取的程序,信息抽取研究需要解決的問題是:構(gòu)造盡可能準(zhǔn)確、健壯和通用的Wrapper,使其免受網(wǎng)站結(jié)構(gòu)不同和頁面結(jié)構(gòu)變化的影響,并盡可能地減少人為參與。
目前,已經(jīng)產(chǎn)生了各種各樣的方法來生成Wrapper,但這些方法有不同的局限性,在精確度、健壯性和通用性方面難以達(dá)到很高的要求,本文對這些方法進(jìn)行研究和分析。
本文利用了標(biāo)準(zhǔn)的XML技術(shù)來解決信息抽取問題,提出一個基于XML技術(shù)的Web信息抽取平臺。并通過歸納學(xué)習(xí)算法,尋找和識別出感興趣的數(shù)據(jù)。利用XSLT和Xpath技術(shù)在數(shù)據(jù)定位和轉(zhuǎn)換方面的優(yōu)勢,解決信息抽取中的關(guān)鍵問題:編寫抽取規(guī)則。
最后,本文還對抽取規(guī)則的優(yōu)化問題進(jìn)行了研究,對幾種信息定位方式進(jìn)行了比較,目的是此基礎(chǔ)上編寫更為簡單、健壯和通用的抽取規(guī)則。
關(guān)鍵詞:信息抽取 XML XSLT
Abstract
With the explosion of Web, how to get the piece of information what he want from the web has become a serious problem, so information extraction from web pages is necessary. Wrapper is the program that performs the extraction task and the key problems are how to constructing accurate, robust and adaptable wrapper without much human intervention, and the wrapper should be independent on particular web sites and could avoid impact from changes of web pages.
Many approaches have been proposed to generate wrapper, but they have different limitations that hard to make it accurate, robust or general. This dissertation studied and analyzed those approaches
This paper apply standard technologies of XML to web extraction problem and developed a platform of web information extraction based XML. With Inductive Learning arithmetic lactated and identified the information blocks that we want. This paper used standard XSLT and Xpath, exploiting their powers of data location and conversion, to solve the key problem: writing extraction rules.
At last, this paper studied the optimization of extraction rules and compared several information location methods. The aim is to generate simple, robust and general extraction rules.
Key Words: Information Extraction XML XSLT