wwwxxxx日本,国产精品九九,日日夜夜免费视频,亚洲无av码在线中文字幕

從web頁面中抽取出用戶感興趣的數(shù)據(jù).doc

約61頁DOC格式手機(jī)打開展開

從web頁面中抽取出用戶感興趣的數(shù)據(jù),從web頁面中抽取出用戶感興趣的數(shù)據(jù)目 錄摘 要iabstractii第1章 緒論11.1 選題背景和意義11.2 web信息的抽取21.3 web信息抽取的應(yīng)用31.4 本文的研究內(nèi)容31.5 本文的組織3第2章 相關(guān)標(biāo)準(zhǔn)與web信息抽取技術(shù)52.1 引言52.2相關(guān)標(biāo)準(zhǔn)52.2.1 xml52.2.2 xhtml8...
編號:5-112405大小:2.45M
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會員 pilycia 發(fā)布

從Web頁面中抽取出用戶感興趣的數(shù)據(jù)



目    錄

摘  要 I

Abstract II

第1章 緒論 1

1.1 選題背景和意義 1

1.2 Web信息的抽取 2

1.3 Web信息抽取的應(yīng)用 3

1.4 本文的研究內(nèi)容 3

1.5 本文的組織 3

第2章 相關(guān)標(biāo)準(zhǔn)與Web信息抽取技術(shù) 5

2.1 引言 5

2.2相關(guān)標(biāo)準(zhǔn) 5

2.2.1 XML 5

2.2.2 XHTML 8

2.2.3 DOM 8

2.2.4 XPath 8

2.2.5 XSLT 9

2.3 Web信息抽取技術(shù)概述 10

2.3.1 Web信息抽取技術(shù)的分類 11

2.3.2 Web信息抽取存在的問題 16

2.3.3 Web信息抽取的關(guān)鍵技術(shù) 17

2.3.4 信息抽取系統(tǒng)的評測指標(biāo) 19

2.4 資料綜述 20

2.5 本章小結(jié) 20

第3章 基于XML的Web信息抽取平臺 22

3.1概述 22

3.1.1 平臺的目標(biāo) 22

3.1.2設(shè)計(jì)的基本思想 22

3.1.3 XML和XSLT在平臺中的角色 23

3.1.4 數(shù)據(jù)導(dǎo)向型頁面 25

3.2 平臺的總體框架 26

3.3 平臺中的知識庫與數(shù)據(jù)庫 27

3.3.1 構(gòu)造領(lǐng)域知識庫 27

3.3.2抽取規(guī)則庫 28

3.3.3抽取結(jié)果數(shù)據(jù)庫和Web頁面數(shù)據(jù)庫 28

3.4 頁面優(yōu)化模塊 29

3.4.1 清洗(TIDY)頁面文檔 29

3.4.2 頁面解析(PARSER) 32

3.5 信息抽取模塊 32

3.5.1 規(guī)則學(xué)習(xí)的依據(jù) 33

3.5.2規(guī)則學(xué)習(xí)的步驟 34

3.5.3 信息抽取過程的描述 41

3.6 資料綜述 42

3.7 本章小結(jié) 43

第4章 抽取規(guī)則的優(yōu)化研究 44

4.1 信息定位的優(yōu)化方法 44

4.1.1 基于樹路徑的定位 44

4.1.2 路徑與內(nèi)容結(jié)合的定位方式 45

4.1.3 完全基于文本的定位方式 46

4.1.4 基于屬性的定位 47

4.2 幾種定位方法的小結(jié) 47

4.3 本章小結(jié) 49

第5章 總結(jié) 50

5.1 實(shí)驗(yàn)例子 50

5.2 本文的研究工作 51

5.2 進(jìn)一步的工作 52

致  謝 54

參考文獻(xiàn) 55




摘  要

隨著Web的快速發(fā)展,如何從中獲得想要的信息成為亟待解決的問題,因此信息抽取成為必要。Wrapper是從網(wǎng)頁進(jìn)行抽取的程序,信息抽取研究需要解決的問題是:構(gòu)造盡可能準(zhǔn)確、健壯和通用的Wrapper,使其免受網(wǎng)站結(jié)構(gòu)不同和頁面結(jié)構(gòu)變化的影響,并盡可能地減少人為參與。

目前,已經(jīng)產(chǎn)生了各種各樣的方法來生成Wrapper,但這些方法有不同的局限性,在精確度、健壯性和通用性方面難以達(dá)到很高的要求,本文對這些方法進(jìn)行研究和分析。

本文利用了標(biāo)準(zhǔn)的XML技術(shù)來解決信息抽取問題,提出一個基于XML技術(shù)的Web信息抽取平臺。并通過歸納學(xué)習(xí)算法,尋找和識別出感興趣的數(shù)據(jù)。利用XSLT和Xpath技術(shù)在數(shù)據(jù)定位和轉(zhuǎn)換方面的優(yōu)勢,解決信息抽取中的關(guān)鍵問題:編寫抽取規(guī)則。

最后,本文還對抽取規(guī)則的優(yōu)化問題進(jìn)行了研究,對幾種信息定位方式進(jìn)行了比較,目的是此基礎(chǔ)上編寫更為簡單、健壯和通用的抽取規(guī)則。


關(guān)鍵詞:信息抽取  XML  XSLT




Abstract

With the explosion of Web, how to get the piece of information what he want from the web has become a serious problem, so information extraction from web pages is necessary. Wrapper is the program that performs the extraction task and the key problems are how to constructing accurate, robust and adaptable wrapper without much human intervention, and the wrapper should be independent on particular web sites and could avoid impact from changes of web pages.

Many approaches have been proposed to generate wrapper, but they have different limitations that hard to make it accurate, robust or general. This dissertation studied and analyzed those approaches

This paper apply standard technologies of XML to web extraction problem and developed a platform of web information extraction based XML. With Inductive Learning arithmetic lactated and identified the information blocks that we want. This paper used standard XSLT and Xpath, exploiting their powers of data location and conversion, to solve the key problem: writing extraction rules.

At last, this paper studied the optimization of extraction rules and compared several information location methods. The aim is to generate simple, robust and general extraction rules.


 


Key Words:  Information Extraction  XML  XSLT


亚洲av婷婷| 国产精品一线二线| 四虎影院欧美黄片| 久久视频在线| 日本一区不卡高清二区视频| 色教师精品影院| 色在线精品视频| 四虎影视2009| 亚洲午夜精品久久久久久浪潮| 欧美日韩一区二区电影| 国产免费久久久精品| 福利片91| 婷婷久久五月天| 精品久久久久久久无码| WWW.黄日本| 色爱噜噜| 国内外成人| 高台县| 亚洲中文字幕AV无码区| 天堂九九天堂综合色| 17日本有码在线观看| 久久精品蜜臀电影| 暴操老熟妇| 黄色片a网站| 国产偷窥熟女高潮精品视频| 另类亚洲av| 色五月之亚洲综合网| 狠色成人精品在线不卡| 国精产品一区二区三区有限| 长期国产女人啪啪| 无码喷水一区二区浪潮av| 亚洲少妇久| 依依成人| 欧美一区、二区| 日韩无码视频一本| 久久青青草VIP| 国产喷白浆精品一区二区| 无码 一区二区三区 水蜜桃| 丁香五月之开心婷婷| 免费 在线 国产 孕| 成人导航九九久|