文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).doc
約38頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)
文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),摘要 分類是數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù),在現(xiàn)實(shí)生活中有著廣泛的應(yīng)用。構(gòu)造分類器的方法很多,常見(jiàn)的有貝葉斯網(wǎng)絡(luò)、決策樹(shù)、基于實(shí)例的學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。雖然樸素貝葉斯分類器基于“在給定類標(biāo)記時(shí)屬性值之間相互條件獨(dú)立”的假設(shè)不現(xiàn)實(shí),但是有監(jiān)督學(xué)習(xí)表明:其分類性能仍然可與決策樹(shù)算法、k-...
內(nèi)容介紹
此文檔由會(huì)員 那年三月 發(fā)布
文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
摘要 分類是數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù),在現(xiàn)實(shí)生活中有著廣泛的應(yīng)用。構(gòu)造分類器的方法很多,常見(jiàn)的有貝葉斯網(wǎng)絡(luò)、決策樹(shù)、基于實(shí)例的學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。雖然樸素貝葉斯分類器基于“在給定類標(biāo)記時(shí)屬性值之間相互條件獨(dú)立”的假設(shè)不現(xiàn)實(shí),但是有監(jiān)督學(xué)習(xí)表明:其分類性能仍然可與決策樹(shù)算法、k-近鄰算法等經(jīng)典算法相當(dāng)。
雖然單分類器的性能不差,但在日益需求更高的性能的今天,單分類器已經(jīng)不能夠滿足更高的需求。因此集成學(xué)習(xí)已經(jīng)成為了機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中的熱門研究方向。
本文介紹和分析了文本分類中常用的分類算法,然后描述了一個(gè)基于樸素貝葉斯分類的集成學(xué)習(xí)方法的向量文本分類系統(tǒng)的基本組成,并給出了一個(gè)系統(tǒng)的基本構(gòu)架。在此基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于樸素貝葉斯分類的集成學(xué)習(xí)的向量文本分類系統(tǒng)。