搜索引擎原理及發(fā)展趨勢(shì).doc
約6頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)
搜索引擎原理及發(fā)展趨勢(shì),頁(yè)數(shù):6字?jǐn)?shù):6493我們通常所說(shuō)的搜索引擎一般包括關(guān)鍵詞索引和主題目錄索引兩大部分,分別屬于不同性質(zhì)的兩種系統(tǒng),其工作原理也有一定的差別。如關(guān)鍵詞索引數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)資料絕大多數(shù)由機(jī)器人自動(dòng)生成。而主題目錄索引數(shù)據(jù)庫(kù)一般由專業(yè)人員對(duì)互聯(lián)網(wǎng)上的信息進(jìn)行搜集、篩選、組織和評(píng)論,編...
內(nèi)容介紹
此文檔由會(huì)員 cnlula 發(fā)布
搜索引擎原理及發(fā)展趨勢(shì)
頁(yè)數(shù):6 字?jǐn)?shù):6493
搜索引擎原理及發(fā)展趨勢(shì)
我們通常所說(shuō)的搜索引擎一般包括關(guān)鍵詞索引和主題目錄索引兩大部分,分別屬于不同性質(zhì)的兩種系統(tǒng),其工作原理也有一定的差別。如關(guān)鍵詞索引數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)資料絕大多數(shù)由機(jī)器人自動(dòng)生成。而主題目錄索引數(shù)據(jù)庫(kù)一般由專業(yè)人員對(duì)互聯(lián)網(wǎng)上的信息進(jìn)行搜集、篩選、組織和評(píng)論,編制等級(jí)式的主題指南或主題目錄,以供檢索和查詢?,F(xiàn)在很多的搜索引擎都是將關(guān)鍵詞索引和主題目錄索引結(jié)合起來(lái),以充分發(fā)揮兩者的優(yōu)勢(shì)。并且隨著技術(shù)的進(jìn)步,引擎也在迅速發(fā)展,它從綜合性向?qū)I(yè)化方向發(fā)展, 從單一性向多元化方向發(fā)展, 從以英文為主向多語(yǔ)言化方向發(fā)展,其還要借鑒其他不同的分類方法促進(jìn)其完善發(fā)展。
搜索引擎的原理
利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。
由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。
當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。
搜索引擎對(duì)于網(wǎng)絡(luò)資源的分類組織與傳
頁(yè)數(shù):6 字?jǐn)?shù):6493
搜索引擎原理及發(fā)展趨勢(shì)
我們通常所說(shuō)的搜索引擎一般包括關(guān)鍵詞索引和主題目錄索引兩大部分,分別屬于不同性質(zhì)的兩種系統(tǒng),其工作原理也有一定的差別。如關(guān)鍵詞索引數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)資料絕大多數(shù)由機(jī)器人自動(dòng)生成。而主題目錄索引數(shù)據(jù)庫(kù)一般由專業(yè)人員對(duì)互聯(lián)網(wǎng)上的信息進(jìn)行搜集、篩選、組織和評(píng)論,編制等級(jí)式的主題指南或主題目錄,以供檢索和查詢?,F(xiàn)在很多的搜索引擎都是將關(guān)鍵詞索引和主題目錄索引結(jié)合起來(lái),以充分發(fā)揮兩者的優(yōu)勢(shì)。并且隨著技術(shù)的進(jìn)步,引擎也在迅速發(fā)展,它從綜合性向?qū)I(yè)化方向發(fā)展, 從單一性向多元化方向發(fā)展, 從以英文為主向多語(yǔ)言化方向發(fā)展,其還要借鑒其他不同的分類方法促進(jìn)其完善發(fā)展。
搜索引擎的原理
利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。
由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。
當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。
搜索引擎對(duì)于網(wǎng)絡(luò)資源的分類組織與傳