基于dbscan的文本聚類算法的實現(xiàn).docx
約41頁DOCX格式手機打開展開
基于dbscan的文本聚類算法的實現(xiàn),基于dbscan的文本聚類算法的實現(xiàn)1.7萬字 41頁原創(chuàng)作品,已通過查重系統(tǒng)摘要隨著信息技術的發(fā)展,特別是普及internet應用,電子文本信息是快速增加的。如何組織有效,快速地管理這些海量的信息,準確地獲取用戶所需的信息是信息科學和技術領域的一大挑戰(zhàn)。文本聚類是一個重要的智能信息處理技術,在信息過濾,信息檢索,文本...
內容介紹
此文檔由會員 馬甲線女神 發(fā)布
基于DBSCAN的文本聚類算法的實現(xiàn)
1.7萬字 41頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要隨著信息技術的發(fā)展,特別是普及INTERNET應用,電子文本信息是快速增加的。如何組織有效,快速地管理這些海量的信息,準確地獲取用戶所需的信息是信息科學和技術領域的一大挑戰(zhàn)。文本聚類是一個重要的智能信息處理技術,在信息過濾,信息檢索,文本數(shù)據(jù)庫和數(shù)字圖書館等方面具有極大的價值,可以應用于自然語言處理,文本挖掘,機器學習,模式識別等領域。
DBSCAN 是一個比較有代表性的基于密度的聚類算法。它將簇定義為密度相連的點的最大集合能夠把具有足夠高密度的區(qū)域劃分成為簇并可在有“噪聲”的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。論文實現(xiàn)了基于DBSCAN的中文文本聚類系統(tǒng)。主要步驟如下:
(1)中文的文本預處理,使用分詞器對文本進行分詞;
(2)特征選擇,文檔頻率(DF)特征選擇算法;
(3)權重計算,實現(xiàn)TF * IDF權重算法;
(4)實現(xiàn)DBSCAN基于文本的聚類算法。
系統(tǒng)首先將準備好的新聞文本輸入數(shù)據(jù)庫中對其進行文本預處理。包括分詞,特征選取,建立文章的特征向量等預處理環(huán)節(jié)。然后根據(jù)特征向量進行聚類得出聚類中心。在此基礎上建立文章的向量模型依次計算其與聚類中心的相似度把文本內容相似度高的劃分為一類。得出聚類結果后最后對聚類結果進行了分析。
關鍵詞:中文文本聚類 分詞 特征選擇 權重計算
1.7萬字 41頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要隨著信息技術的發(fā)展,特別是普及INTERNET應用,電子文本信息是快速增加的。如何組織有效,快速地管理這些海量的信息,準確地獲取用戶所需的信息是信息科學和技術領域的一大挑戰(zhàn)。文本聚類是一個重要的智能信息處理技術,在信息過濾,信息檢索,文本數(shù)據(jù)庫和數(shù)字圖書館等方面具有極大的價值,可以應用于自然語言處理,文本挖掘,機器學習,模式識別等領域。
DBSCAN 是一個比較有代表性的基于密度的聚類算法。它將簇定義為密度相連的點的最大集合能夠把具有足夠高密度的區(qū)域劃分成為簇并可在有“噪聲”的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。論文實現(xiàn)了基于DBSCAN的中文文本聚類系統(tǒng)。主要步驟如下:
(1)中文的文本預處理,使用分詞器對文本進行分詞;
(2)特征選擇,文檔頻率(DF)特征選擇算法;
(3)權重計算,實現(xiàn)TF * IDF權重算法;
(4)實現(xiàn)DBSCAN基于文本的聚類算法。
系統(tǒng)首先將準備好的新聞文本輸入數(shù)據(jù)庫中對其進行文本預處理。包括分詞,特征選取,建立文章的特征向量等預處理環(huán)節(jié)。然后根據(jù)特征向量進行聚類得出聚類中心。在此基礎上建立文章的向量模型依次計算其與聚類中心的相似度把文本內容相似度高的劃分為一類。得出聚類結果后最后對聚類結果進行了分析。
關鍵詞:中文文本聚類 分詞 特征選擇 權重計算