摘 要
文本分类是自然语言处理的一个重要应用领域,在信息检索、网站索引构建等方面占有重要地位。
随着计算机技术的飞速发展,计算机在信息的组织和管理中应用的普及,利用计算机实现对文档进行分类管理势在必行,自动文本分类软件能够推动文档管理工作走向科学化、规范化,使之适应现代管理制度要求。
本文在经典的文本形式化表示方法-向量空间模型(VSM)的基础上,通过提取字特征,对训练样本集合构建类模型,并以该模型作为文本自动分类时的依据设计分类器。并采用两种分类方法对文本进行分类,即最近邻文本分类和KNN文本分类方法,且KNN文本分类法分类更精确。
该软件划分为编码转换、建立索引、训练集类别统计、训练集特征矩阵和文本分类五个功能模块,其中文本分类是主模块。其实现原理为:首先,使用训练样本进行特征选择和分类器训练;其次,根据选择的特征形式化待分类的输入样本,然后输入到分类器进行类别判定;最后得到输入样本的类别。且实验数据表明该分类器具有较理想的召回率和准确率。
关键字:文本分类,向量空间模型,特征提取,训练样本
目 录
前言…………………………………………………………………..2
第一章
系统开发背景……………………………………………4
第一节
文本分类的研究现状及发展趋势……………………..4
第二节
课题的提出和主要思路………………………………..5
第三节
系统开发研究的目的和意义…………………………..6
第二章
可行性分析………………………………………………7
第一节
文本特征的提取………………………………………..7
第二节
特征权重的计算………………………………………..8
第三节
KNN文本分类器……………………………………….9
第四节
评估分类效果的指标………………………………….10
第三章
需求规格说明…………………………………………...11
第一节
需求概述………………………………………………..11
第二节
一般描述………………………………………………..13
第三节
特殊需求………………………………………………..14
第四章
系统总体设计…………………………………………...16
第一节
系统总体概述…………………………………………..16
第二节
模块功能说明…………………………………………..18
第三节
文本分类器的设计……………………………………..20
第五章
系统详细设计……………………………………………25
第一节 编码转换………………………………………………….25
第二节 建立索引………………………………………………….26
第三节 训练集类别统计………………………………………….28
第四节 训练集特征矩阵计算…………………………………….29
第五节 文本分类………………………………………………….30
第六章
系统测试与评价…………………………………………33
第七章
系统开发总结与体会……………………………………35
参考文献……………………………………………………………..38
致谢…………………………………………………………………..39
附录——用户手册…………………………………………………..40
程序清单…………………………………………………..42
前 言
文本分类是自然语言处理的一个重要应用领域,直到80年代末,文本分类一直是以基于知识工程的分类方法为主,即根据领域专家对给定文本集合的分类经验,人工提取一组逻辑规则,作为分类准则来指导分类。90年代以后,随着信息存储技术和通信技术的迅速发展,尤其是随着Internet在全世界的普及和发展,大量文字信息开始以电子文档形式存在,而且信息的数量每天都在急剧的增加。人工分类周期长、费用高、效率低的缺陷日益明显,传统的分类方法在信息爆炸的今天已经满足不了实际需要。运用计算机实现文本的自动分类就成为了一项重要而又极有实际意义的研究课题。
文本分类就是通过分析文本的内容自动确定文本的类别。目前主要使用的文本分类方法有:朴素贝叶斯(Naïve Bayes)、K近邻(K-Nearest Neighbors)、支持向量机(Support Vector Machine)、神经网络(Neural Network)以及决策树方法等[5]。文本自动分类器模型如图1所示[5],系统使用训练样本进行特征选择和分类器训练。