wwwxxxx日本,国产精品九九,日日夜夜免费视频,亚洲无av码在线中文字幕

基于半監(jiān)督的文本分類算法.doc

約51頁DOC格式手機(jī)打開展開

基于半監(jiān)督的文本分類算法, 摘 要隨著internet的出現(xiàn),大量的文字信息開始以計算機(jī)可讀的形式存在,以傳統(tǒng)的手工方式對這些信息進(jìn)行組織整理既費時費力且效果不理想。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以利用機(jī)器來對文本進(jìn)行分析整理,使用戶從繁瑣的文檔處理工作中解放出來,并能極大地提高了信息的利用率。文本分類...
編號:30-194732大小:1.24M
分類: 論文>通信/電子論文

內(nèi)容介紹

此文檔由會員 lanxin520 發(fā)布

基于半監(jiān)督的文本分類算法                                      


摘  要

隨著Internet的出現(xiàn),大量的文字信息開始以計算機(jī)可讀的形式存在,以傳統(tǒng)的手工方式對這些信息進(jìn)行組織整理既費時費力且效果不理想。文本分類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),可以利用機(jī)器來對文本進(jìn)行分析整理,使用戶從繁瑣的文檔處理工作中解放出來,并能極大地提高了信息的利用率。文本分類是指分析文本內(nèi)容并按一定的策略把文本歸入一個或多個合適的類別的應(yīng)用技術(shù)。而作為信息過濾、信息檢索、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化圖書館等領(lǐng)域的技術(shù)基礎(chǔ),文本分類技術(shù)有著廣泛的應(yīng)用前景。
本文首先介紹了文本分類的背景,文本分類所用的半監(jiān)督算法及文本分類的幾個關(guān)鍵技術(shù)。然后鑒于高分類精度需要大規(guī)模己標(biāo)記訓(xùn)練集而已標(biāo)記文檔缺乏,利用未標(biāo)識文檔進(jìn)行學(xué)習(xí)的半監(jiān)督學(xué)習(xí)算法己成為文本分類的研究重點這一情況,著重研究了半監(jiān)督分類算法。最后本文設(shè)計了一個文本分類原型系統(tǒng),為保證分類的準(zhǔn)確性,采用了不同的標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行測試,并評價了其分類的性能。通過以上實驗表明,當(dāng)有足夠的己標(biāo)識文檔時,本算法與其它算法性能相當(dāng),但當(dāng)已標(biāo)識文檔很少時,本算法優(yōu)于現(xiàn)有的其它算法。
關(guān)鍵詞:文本分類;半監(jiān)督學(xué)習(xí);聚類;EM;KNN

 

 


ABSTRACT

With the emergence of Internet, a large number of text messages began to exist in the form of computer-readable, to the traditional manual way for organizations to collate the information is time-consuming effort and the result is not satisfactory. As the key technology in organizing and processing large mount of document data, Text classification can use the machine to collate the text analysis, allowing users from the tedious work of document processing liberated and can greatly improve the utilization of information. Text classification is a supervised leaning task of assigning natural language text documents to one or more predefined categories or classes according to their contents. Moreover, text classification has the broad applied future as the technical basis of information filtering, information retrieva l, search engine, text database, and digital library and so on..
This thesis firstly introduces the background of the text classification, text classification using semi-supervised algorithm and a few key technologies about text classification. Secondly considering the contradiction of deadly need for large labeled train-set to obtain high classification accuracy and the scarcity of labeled documents,this thesis emphasizes on improvement of Semi-supervised classification algorithms, Finally we design a document classification system. In order to ensure the accuracy of classification, using a data set different standards for texting and eva luation of the performance of their classification. The experiments above showed the superior performance of our method over existing methods when labeled data size is extremely small. When there is sufficient labeled data,our method is comparable to other existing algorithms.
Keywords: text classification; semi-supervised leaning; clustering; EM; KNN

 

 

 

目    錄

1 引言 1
1.1課題背景 1
1.2本文的內(nèi)容組織 2
2 半監(jiān)督學(xué)習(xí) 3
2.1半監(jiān)督學(xué)習(xí)的概念及意義 3
2.2半監(jiān)督學(xué)習(xí)的研究進(jìn)展 4
2.3半監(jiān)督學(xué)習(xí)的方法 5
2.3.1協(xié)同訓(xùn)練(Co-training) 5
2.3.2自訓(xùn)練 6
2.3.3半監(jiān)督支持向量機(jī)(S3VMs) 7
2.3.4基于圖的方法(Graph-Based Methods) 8
2.4本章小結(jié) 9
3 文本分類 10
3.1文本分類的概念及意義 10
3.2文本分類的國內(nèi)外研究情況 10
3.3文本分類的關(guān)鍵技術(shù) 11
3.3.1文本特征生成 12
3.3.2特征選擇與降維 14
3.3.3權(quán)重計算 16
3.3.4文本分類技術(shù) 17
3.3.5文本分類技術(shù)性能評價 22
3.4本章小結(jié) 25
4 基于EM和KNN的半監(jiān)督文本分類 27
4.1引言 27
4.2相關(guān)工作 27
4.2.1聚類分析 27
4.2.2 EM算法 30
4.2.3 KNN算法 31
4.3基于EM和KNN的半監(jiān)督文本分類算法 31
4.3.1問題描述 32
4.3.2算法思想 32
4.3.3基于EM算法的聚類分析 33
4.3.4基于Knn算法的分類 35
4.3.5算法步驟 36
4.4算法效率分析 37
4.5本章小結(jié) 38
5 實驗與分析 39
5.1實現(xiàn)EM-KNN算法 39
5.1.1實驗平臺 39
5.1.2算法實現(xiàn)及流程圖 39
5.2實驗結(jié)果與分析 43
5.3小結(jié) 43
總結(jié) 44
參考文獻(xiàn) 45
致  謝 46

 

 

 

 


 

禁美女网站在看| 免费无码肉片在线观看| 宗合av| 欧美少妇自拍视频不卡| 波乐| 午夜精品久久久久久99热| 国产剧情后入| 老色鬼精品几区| AV在线日韩在线观看| 精品久久久久久无码中文字幕一区 | 日韩国产在线网站| 久久久精品电影| 人人搞人人干| 久久精品影院国产| 日韩无码不卡电话| 日本一码二码三码| 欧亚av| 无码原创| 97淫荡人妻| 久久av影院| 精品国产欧美一区二区| 7777无码| 四虎影视日韩精品| 精品久久久免费观看| 名山县| 亚洲国产精品久久电影欧美| www激情一区久久| 精品99久久伊人| 强 在线 亚洲| 亚洲成人精品| 9797人妻| 东京热性爱dv| 啊v天堂色| 成人色丁香| 亚洲精品无码乱码成人| 免费在线无码视频观看| 黄色AV黄网页| 风韵熟女午夜视频| 石台县| 欧美成人看片黄A免费看| 熟妇一区,二区,三区|