wwwxxxx日本,国产精品九九,日日夜夜免费视频,亚洲无av码在线中文字幕

基于dbscan的文本聚類算法的實現(xiàn).docx

  
約41頁DOCX格式手機打開展開

基于dbscan的文本聚類算法的實現(xiàn),基于dbscan的文本聚類算法的實現(xiàn)1.7萬字 41頁原創(chuàng)作品,已通過查重系統(tǒng)摘要隨著信息技術的發(fā)展,特別是普及internet應用,電子文本信息是快速增加的。如何組織有效,快速地管理這些海量的信息,準確地獲取用戶所需的信息是信息科學和技術領域的一大挑戰(zhàn)。文本聚類是一個重要的智能信息處理技術,在信息過濾,信息檢索,文本...
編號:99-1151386大小:576.51K
分類: 論文>計算機論文

內容介紹

此文檔由會員 馬甲線女神 發(fā)布

基于DBSCAN的文本聚類算法的實現(xiàn)

1.7萬字 41頁 原創(chuàng)作品,已通過查重系統(tǒng)


摘要隨著信息技術的發(fā)展,特別是普及INTERNET應用,電子文本信息是快速增加的。如何組織有效,快速地管理這些海量的信息,準確地獲取用戶所需的信息是信息科學和技術領域的一大挑戰(zhàn)。文本聚類是一個重要的智能信息處理技術,在信息過濾,信息檢索,文本數(shù)據(jù)庫和數(shù)字圖書館等方面具有極大的價值,可以應用于自然語言處理,文本挖掘,機器學習,模式識別等領域。
DBSCAN 是一個比較有代表性的基于密度的聚類算法。它將簇定義為密度相連的點的最大集合能夠把具有足夠高密度的區(qū)域劃分成為簇并可在有“噪聲”的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類。論文實現(xiàn)了基于DBSCAN的中文文本聚類系統(tǒng)。主要步驟如下:
(1)中文的文本預處理,使用分詞器對文本進行分詞;
(2)特征選擇,文檔頻率(DF)特征選擇算法;
(3)權重計算,實現(xiàn)TF * IDF權重算法;
(4)實現(xiàn)DBSCAN基于文本的聚類算法。
系統(tǒng)首先將準備好的新聞文本輸入數(shù)據(jù)庫中對其進行文本預處理。包括分詞,特征選取,建立文章的特征向量等預處理環(huán)節(jié)。然后根據(jù)特征向量進行聚類得出聚類中心。在此基礎上建立文章的向量模型依次計算其與聚類中心的相似度把文本內容相似度高的劃分為一類。得出聚類結果后最后對聚類結果進行了分析。


關鍵詞:中文文本聚類 分詞 特征選擇 權重計算

日本免费AⅤ欧美在线观看| 日韩色导航| 人妻精品久| 无码毛片激情一对一| 玖玖偷拍视屏| 淫秽国产| 欧美精品一| 日韩一区二区三区久久精品| 青青久操| 很很日很很操| 日本欧美日韩一区| 亚洲av综合久久九九| 亚洲第一狼人影院| 亚洲性图精品一二| av黄色网址| 伊人久久国产精品| 久久国产综合视频| 九九国产黄片| 日韩无码av网| 啊啊啊看看看片| 亚洲欧美人妻| 99久久无码一区人妻a黑| 麻豆国产一区| 美女a毛| 国产无码奇米第四色| 欧美一区国产一区激情| 精品人妻一区二区蜜桃| 精品国产乱码久久久久夜深人妻| 日韩AV专区天堂| 牛牛在线视频| 亚洲AV社区| 亚洲六月| 伊人精品大香j| 另类图区人妻| 懂色av无码aV天天aV天天爽| 欧美激情一级精品国产| 日韩丰满人妻视频| 国产精品中日韩精品| 中文字幕亚洲第二| 平果县| 日韩精品无码久久久久久|