網(wǎng)頁(yè)信息提取與凈化的研究.rar
網(wǎng)頁(yè)信息提取與凈化的研究,(63頁(yè))內(nèi)容提要信息提取是搜索引擎最關(guān)鍵的一個(gè)步驟,怎么樣從互聯(lián)網(wǎng)這個(gè)信息大平臺(tái)最精確的獲得有用信息已成為當(dāng)前搜索引擎研究的熱點(diǎn)。本文介紹了幾種最新的信息提取方法,在此基礎(chǔ)上提出了基于dom樹的正文提取方法。把底層html文檔解析成為dom樹的形式,根據(jù)用戶設(shè)置參數(shù)來設(shè)置過濾器,該過濾器對(duì)每一個(gè)節(jié)點(diǎn)進(jìn)行判斷,如果節(jié)點(diǎn)...
該文檔為壓縮文件,包含的文件列表如下:
內(nèi)容介紹
原文檔由會(huì)員 白癡學(xué)東西 發(fā)布
(63頁(yè))內(nèi)容提要
信息提取是搜索引擎最關(guān)鍵的一個(gè)步驟,怎么樣從互聯(lián)網(wǎng)這個(gè)信息
大平臺(tái)最精確的獲得有用信息已成為當(dāng)前搜索引擎研究的熱點(diǎn)。
本文介紹了幾種最新的信息提取方法,在此基礎(chǔ)上提出了基于
DOM樹的正文提取方法。把底層HTML文檔解析成為DOM樹的形式,
根據(jù)用戶設(shè)置參數(shù)來設(shè)置過濾器,該過濾器對(duì)每一個(gè)節(jié)點(diǎn)進(jìn)行判斷,如
果節(jié)點(diǎn)與用戶設(shè)置參數(shù)匹配則對(duì)該節(jié)點(diǎn)進(jìn)行記錄、修改屬性以及刪除的
操作。另外本文進(jìn)一步提出了基于DOM樹的網(wǎng)絡(luò)噪聲凈化方法,針對(duì)
同一模板產(chǎn)生的網(wǎng)頁(yè)集自動(dòng)檢驗(yàn)出噪聲存在的位置。該方法以DOM樹
節(jié)點(diǎn)為操作對(duì)象,計(jì)算出每個(gè)節(jié)點(diǎn)的信息量,通過信息量的大小來判斷
節(jié)點(diǎn)是否屬于噪聲。
基于DOM樹的正文提取方法簡(jiǎn)便可行。相對(duì)于本文所介紹的幾種
方法,DOM樹的正文提取的側(cè)重點(diǎn)是不同的,其他的提取方法都是通
過討論如何判斷正文節(jié)點(diǎn)或者正文塊實(shí)現(xiàn)內(nèi)容過濾,本文則把提取的重
點(diǎn)放在剔除對(duì)用戶來說無用的節(jié)點(diǎn)上面,這是一個(gè)方向上的變化。
關(guān)鍵詞:Web信息,DOM樹,正文提取,網(wǎng)絡(luò)凈化
目錄
第一章前言........................................................................
1.1研究意義.............................................................................
1.2搜索引擎介紹.....................................................................
1.3正文提取的重要性.............................................................
1.4小結(jié)..............................................................................
第二章正文提取........................................................................
2.1正文提取的幾種方法介紹.................................................
2.2基于DOM樹的正文提取.....................................................
2.3正文提取器功能介紹.........................................................
2.4正文提取器實(shí)現(xiàn).................................................................
2.5結(jié)果分析.............................................................................
2.6小結(jié)...............................................................................
第三章網(wǎng)頁(yè)凈化噪聲................................................................
3.1網(wǎng)頁(yè)噪聲凈化的幾種常用方法.........................................
3.2基于DOM樹的網(wǎng)頁(yè)噪聲凈化.............................................
3.3數(shù)據(jù)分析.............................................................................
3.3小結(jié)...............................................................................
第四章網(wǎng)頁(yè)分類........................................................................
4.1文本分類介紹.....................................................................
4.2網(wǎng)頁(yè)分類的幾個(gè)研究方向.................................................
4.3網(wǎng)頁(yè)分類的改進(jìn)方法.........................................................
4.4小結(jié)...............................................................................
第五章總結(jié)與展望....................................................................
5.1全文總結(jié).............................................................................5.2進(jìn)一步的工作.....................................................................
參考文獻(xiàn)......................................................................................
摘要......................................................................................
ABSTRACT.................................................................................
致謝......................................................................................
信息提取是搜索引擎最關(guān)鍵的一個(gè)步驟,怎么樣從互聯(lián)網(wǎng)這個(gè)信息
大平臺(tái)最精確的獲得有用信息已成為當(dāng)前搜索引擎研究的熱點(diǎn)。
本文介紹了幾種最新的信息提取方法,在此基礎(chǔ)上提出了基于
DOM樹的正文提取方法。把底層HTML文檔解析成為DOM樹的形式,
根據(jù)用戶設(shè)置參數(shù)來設(shè)置過濾器,該過濾器對(duì)每一個(gè)節(jié)點(diǎn)進(jìn)行判斷,如
果節(jié)點(diǎn)與用戶設(shè)置參數(shù)匹配則對(duì)該節(jié)點(diǎn)進(jìn)行記錄、修改屬性以及刪除的
操作。另外本文進(jìn)一步提出了基于DOM樹的網(wǎng)絡(luò)噪聲凈化方法,針對(duì)
同一模板產(chǎn)生的網(wǎng)頁(yè)集自動(dòng)檢驗(yàn)出噪聲存在的位置。該方法以DOM樹
節(jié)點(diǎn)為操作對(duì)象,計(jì)算出每個(gè)節(jié)點(diǎn)的信息量,通過信息量的大小來判斷
節(jié)點(diǎn)是否屬于噪聲。
基于DOM樹的正文提取方法簡(jiǎn)便可行。相對(duì)于本文所介紹的幾種
方法,DOM樹的正文提取的側(cè)重點(diǎn)是不同的,其他的提取方法都是通
過討論如何判斷正文節(jié)點(diǎn)或者正文塊實(shí)現(xiàn)內(nèi)容過濾,本文則把提取的重
點(diǎn)放在剔除對(duì)用戶來說無用的節(jié)點(diǎn)上面,這是一個(gè)方向上的變化。
關(guān)鍵詞:Web信息,DOM樹,正文提取,網(wǎng)絡(luò)凈化
目錄
第一章前言........................................................................
1.1研究意義.............................................................................
1.2搜索引擎介紹.....................................................................
1.3正文提取的重要性.............................................................
1.4小結(jié)..............................................................................
第二章正文提取........................................................................
2.1正文提取的幾種方法介紹.................................................
2.2基于DOM樹的正文提取.....................................................
2.3正文提取器功能介紹.........................................................
2.4正文提取器實(shí)現(xiàn).................................................................
2.5結(jié)果分析.............................................................................
2.6小結(jié)...............................................................................
第三章網(wǎng)頁(yè)凈化噪聲................................................................
3.1網(wǎng)頁(yè)噪聲凈化的幾種常用方法.........................................
3.2基于DOM樹的網(wǎng)頁(yè)噪聲凈化.............................................
3.3數(shù)據(jù)分析.............................................................................
3.3小結(jié)...............................................................................
第四章網(wǎng)頁(yè)分類........................................................................
4.1文本分類介紹.....................................................................
4.2網(wǎng)頁(yè)分類的幾個(gè)研究方向.................................................
4.3網(wǎng)頁(yè)分類的改進(jìn)方法.........................................................
4.4小結(jié)...............................................................................
第五章總結(jié)與展望....................................................................
5.1全文總結(jié).............................................................................5.2進(jìn)一步的工作.....................................................................
參考文獻(xiàn)......................................................................................
摘要......................................................................................
ABSTRACT.................................................................................
致謝......................................................................................