wwwxxxx日本,国产精品九九,日日夜夜免费视频,亚洲无av码在线中文字幕

網(wǎng)頁凈化方法的研究與實(shí)現(xiàn)_獨(dú)家原創(chuàng).doc

  
約37頁DOC格式手機(jī)打開展開

網(wǎng)頁凈化方法的研究與實(shí)現(xiàn)_獨(dú)家原創(chuàng),網(wǎng)頁凈化方法的研究與實(shí)現(xiàn)1.3萬字自己原創(chuàng)的畢業(yè)論文,已經(jīng)通過校內(nèi)系統(tǒng)檢測,重復(fù)率低,僅在本站獨(dú)家出售,大家放心下載使用摘要 隨著internet的快速發(fā)展,萬維網(wǎng)已經(jīng)發(fā)展成為一個(gè)龐大的信息空間,為人們提供了極其豐富的信息資源,也使網(wǎng)頁數(shù)據(jù)成為目前各種應(yīng)用和研究的重要數(shù)據(jù)源之一。網(wǎng)頁數(shù)據(jù)通常包含了各種內(nèi)容, 如廣告、導(dǎo)...
編號(hào):80-480906大小:2.40M
分類: 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 小丑88 發(fā)布

網(wǎng)頁凈化方法的研究與實(shí)現(xiàn)

1.3萬字
自己原創(chuàng)的畢業(yè)論文,已經(jīng)通過校內(nèi)系統(tǒng)檢測,重復(fù)率低,僅在本站獨(dú)家出售,大家放心下載使用

摘要 隨著Internet的快速發(fā)展,萬維網(wǎng)已經(jīng)發(fā)展成為一個(gè)龐大的信息空間,為人們提供了極其豐富的信息資源,也使網(wǎng)頁數(shù)據(jù)成為目前各種應(yīng)用和研究的重要數(shù)據(jù)源之一。網(wǎng)頁數(shù)據(jù)通常包含了各種內(nèi)容, 如廣告、導(dǎo)航條、相關(guān)鏈接、正文等, 然而對(duì)于不同的研究和應(yīng)用來說, 并非所有內(nèi)容都是必需的, 相反, 不相關(guān)的內(nèi)容反而會(huì)影響研究以及應(yīng)用的效果和效率, 因此網(wǎng)頁去噪是一個(gè)基礎(chǔ)問題, 是提高Web應(yīng)用的程序性能的關(guān)鍵技術(shù)之一,也是目前熱點(diǎn)研究的問題。
本文首先對(duì)網(wǎng)頁去噪的必要性進(jìn)行了簡要說明, 并對(duì)網(wǎng)頁去噪進(jìn)行了定義和分類, 然后簡單概介紹了幾種網(wǎng)頁去噪的方法及其特點(diǎn),接著深入分析了一種基于模板的網(wǎng)頁凈化方法。該方法提出了一種數(shù)據(jù)結(jié)構(gòu)——風(fēng)格樹(Style Tree,SST),來表示一個(gè)網(wǎng)站給定的網(wǎng)頁文檔集合的結(jié)構(gòu)和內(nèi)容。通過遍歷網(wǎng)站風(fēng)格樹(Site Style Tree ,SST)來計(jì)算出SST樹中每個(gè)元素節(jié)點(diǎn)它自身和它所有的子節(jié)點(diǎn)的重要性,然后和指定的閾值進(jìn)行比較,確定哪些是噪音,再把它們刪除。
實(shí)驗(yàn)表明,本文重點(diǎn)提出的算法能夠?qū)δ0逍偷木W(wǎng)頁進(jìn)行有效的凈化。
關(guān)鍵詞 網(wǎng)頁去噪    信息提取   模板 萬維網(wǎng)


Study and implementation of the algorithm Webpage purification
Abstract Along with the rapid development of Internet,WWW (world wide web) has become a huge information web-space providing valuable information resources. What is more, the rapid development of the Internet has made a variety of Web applications and Web data, which become the major source of data for a lot of research. A Web page usually consists of subject matter, in addition, there including advertising, navigation bar, related links, copyright information, welcome message and other topics unrelated with the contents as well. However, for different kinds of studies and applications, not all content is very necessary; on the contrary, the unrelated content will affect the effectiveness and efficiency of the research and applications. Therefore Web page cleaning is a key technique to improve the service qualities of Web application systems, and it is a highlighted topic of information retrieva l with booming search engines.
At the beginning, this paper gives a brief introduction to the necessity of Web page cleaning and its related concepts. Then a simple overview introduces several methods of Webpage denoising and its characteristics, after in-depth analysis of a purification method based on template Webpage. The method proposes a data structure -- style tree (Style Tree, SST), to represent the structure and content of a web site given Webpage document collection. By traversing the site style tree (Site Style Tree, SST) to calculate the importance of each element of the SST node in the tree itself and all its child nodes, then compare and a specified threshold, determining what is noise.
From the experimental results ,we can find this paper puts forward the algorithm of template type Webpage effectively purify.
Key words Web page cleaning information extraction template world wide web


目 錄
第一章 引 言 1
1.1 研究背景 1
1.2 研究現(xiàn)狀 1
1.3 研究內(nèi)容 1
1.4 論文結(jié)構(gòu) 2
第二章 相關(guān)知識(shí) 3
2.1 網(wǎng)頁正文的定義及分類 3
2.2 網(wǎng)頁表示 4
2.3 HTML 4
2.3.1 HTML基本語法 4
2.3.2 HTML的特點(diǎn) 5
2.4 網(wǎng)頁去噪的定義和分類 6
2.5 信息抽取 6
2.5.1 信息抽取概述 7
2.5.2 Web信息抽取 8
2.6 網(wǎng)頁地址樹 8
2.7 網(wǎng)頁凈化方法效果評(píng)估 8
第三章 網(wǎng)頁凈化算法 10
3.1 基于啟發(fā)式規(guī)則的網(wǎng)頁凈化算法 10
3.1.1 基于內(nèi)容規(guī)則的網(wǎng)頁凈化算法 10
3.1.2 基于視覺的網(wǎng)頁凈化算法 10
3.2 基于機(jī)器學(xué)習(xí)的網(wǎng)頁凈化算法 11
3.2.1 一個(gè)框架 11
3.2.2 L-Extractor算法 12

第四章 網(wǎng)頁自動(dòng)分類 13
4.1 頁面分類 13
4.2 網(wǎng)頁相似度計(jì)算 13
4.2.1 最長公共子序列 14
4.2.2 比較網(wǎng)頁結(jié)構(gòu)相似度 15
第五章 基于模板的網(wǎng)頁凈化算法 17
5.1 文檔樹 17
5.2 風(fēng)格樹 19
5.2.1 風(fēng)格節(jié)點(diǎn) 21
5.2.2 元素節(jié)點(diǎn) 21
5.2.3 風(fēng)格樹創(chuàng)建過程 22
5.3 確定噪音元素 22
5.3.1 節(jié)點(diǎn)重要性 24
5.3.2 綜合重要性 25
5.4 整體算法 27
5.5算法測試 27
5.5.1 測試環(huán)境 27
5.5.2 測試過程 28
5.5.3 測試結(jié)果 28
5.6 在搜索引擎中的應(yīng)用 29
結(jié) 論 31
致 謝 32
參考文獻(xiàn) 33
国产怡春院无码一区二区| 青柠影院| 我要色综合网| 亚洲综合久久久精品| 色窝窝51精| 三A级毛片在线观看| 秋霞欧美| 欧洲AV一区二区| 少妇色欲网综合| AV30p| 欧美区亚洲| 莱芜市| 偷偷精品| 久久999久| 另类av亚洲av国产av| 天天日天天干天天操| а√天堂中文最新版8| 极品激情区一区二| 超碰香蕉| 18p日韩无码| 色婷婷精品久久二区二区蜜臀av| 亚洲一级导航| 久久久久久久久久久大尺度免费视频 | 丰满的少妇天堂2| 在线 熟妇| 精品久久久久久| 后入国产| www.日韩a| 在线不卡最近中文字幕| 精品久久久久成人码免费动漫| 日韩AV不卡一区| 奇米精品一区| 亚洲天堂伊人网亚洲| 欧美日韩亚洲国h| 亚洲av永久无码精品成人| 亚洲日韩欧美激情四射| 欧美色老熟妇XX00| 996热在线精品| 久久久亚洲欧洲日产国码aⅴ| www.99xxxx| 日韩人妻在线不卡网站|