郑州大学于坤杰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉郑州大学申请的专利基于空间转换的多形式多目标特征选择的文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117407528B 。
龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311364586.5,技术领域涉及:G06F16/353;该发明授权基于空间转换的多形式多目标特征选择的文本分类方法是由于坤杰;陈科;王鹏;孙劭儒;梁静;岳彩通;毕莹;于明渊;李俊俊;廖粤峰;杨朵设计研发完成,并于2023-10-20向国家知识产权局提交的专利申请。
本基于空间转换的多形式多目标特征选择的文本分类方法在说明书摘要公布了:本发明公开了一种基于空间转换的多形式多目标特征选择的文本分类方法,将原始文本转换为机器可处理的形式,并在其中选择合适的特征来表示,采用基于空间转换的多形式多目标算法对提取到的特征进行特征选择,将选择后的特征组合输入到分类器中,然后对需要进行识别分类的文本使用公知的K近邻分类技术得到未知文本的标签,并将此标签作为最终结果,输出待识别分类的文本的结果。通过本发明的方法文本分类的准确度高,文本分类鲁棒性强且速度快,同时具有实施简单、所选特征少和节省计算资源等优点;能够选取出真正相关的特征,简化模型,易于从业人员操作,同时剔除不相关特征,缩短模型训练时间,提升实际应用价值。
本发明授权基于空间转换的多形式多目标特征选择的文本分类方法在权利要求书中公布了:1.一种基于空间转换的多形式多目标特征选择的文本分类方法,其特征在于,包括以下步骤: 步骤1,数据预处理:包括文本清洗、分词和去除停用词,将原始文本转换为机器可处理的形式; 步骤2,特征提取:通过选择合适或设计特征来表示文本,常用的特征包括词袋模型、TF-IDF向量和词嵌入; 步骤3,模型训练与评估:基于空间转换的多形式多目标算法对提取到的特征进行特征选择,包括以下步骤: 步骤3-1,将数据集分为训练集和测试集,其中训练集占70%,测试集占30%;将训练集输入进行特征选择; 步骤3-2,设置特征选择进化算法参数:种群大小P为100、迭代次数N为100,特征数量为D,选择K近邻分类器,K近邻分类器的距离值K为5; 步骤3-3,设置种群中每个个体的编码方式为二值化编码方式,其中1代表选择此组特征,0代表不选; 步骤3-4,定义第一种分组形式,包括以下步骤: 步骤3-4-1,对特征进行SU和ReliefF评价,并且根据这两个评价指标的排名投影到二维坐标轴上; 步骤3-4-2,将特征看作是一个解,特征的SU和ReliefF排名看作两个目标; 步骤3-4-3,利用非支配排序的方法对这些特征进行层级的划分,并且将每一层级的特征视为个体的一个特征组; 其中非支配前沿的上的特征被认为是最重要的特征,第二层级的特征被认为次重要的,以此类推;由于非支配排序将特征自动的划分为不同的层级,因此特征的组数被自适应的确定为Gnum; 步骤3-5,定义第二种分组方式:采用K-means算法对投影到二维坐标轴上的特征进行分组;其中K的大小决定组数的大小,因此根据第一种分组方式得到的组数Gnum确定K; 步骤3-6,构建多形式框架:将两种分组形式组合为一个多形式框架,并且每一个特征组被视为一个维度;然后为两个分组形式分别分配一个种群P1和P2来进行搜索; 步骤3-7,种群初始化:由于个体的一位代表一组特征,因此随机生成一个N1行D列矩阵和一个N2行D列矩阵,矩阵中的每个值是0到1之间随机生成的,其中每一行代表一个个体,个体的每一列代表一个特征;计算每组特征在SU和ReliefF评价后得到的平均值,并且分别分配0.5的权重,加权后得到的值作为该组特征的阈值;若生成的值大于设定的阈值则设置为1,否则为0; 步骤3-8,评价初始化种群:采用5折交叉验证评价方法,利用公式1的适应度函数评价出初始化种群中每个个体的分类错误率和所选特征与特征总数的比例,得到初始化种群的目标值,其中分类错误率为目标值的第一列,所选择的指标特征比例为目标值的第二列; 1 式中:表示分类错误率;表示所选特征比例;c表示类别数;表示在类别i中预测错误的个数;代表类别i的样本个数; 步骤3-9,识别种群中的最优解集:按照Pareto非支配排序方法将多目标种群的目标值排序,取第一前沿面的解集为多目标种群的最优解集,如果超过100则按照距离解的欧氏距离选择前100的个体; 步骤3-10,交叉:对步骤3-7中的两个种群中的每一个个体执行种群内的交叉操作,首先对于父本的选择采用二元锦标赛法进行挑选;然后考虑到对重要特征进行保留,因此若两个父代都选择某一组特征,则认为该组特征比较重要,在子代中保留;相反两个父代都不选择,则子代不选择;如果其中一个父代选择另一个父代不选择,则子代是否选择的概率Pc计算如下: 2 式中:和分别表示第j组特征在SU和ReliefF评价后的平均排名;D表示总特征数量; 步骤3-11,变异:将步骤3-10中得到的子代进行一定概率的突变,突变概率设置为1Gnum; 步骤3-12,评价:采用5折交叉验证评价方法,以步骤3-8为例评价出步骤3-11中变异后生成的新子代种群中每个个体的分类错误率和所选择的特征比例,得到新子代种群的目标值,其中分类错误率为目标值的第一列,所选择的特征比例为目标值的第二列; 步骤3-13,选择:两个种群分别采用Pareto非支配排序方法将生成的子代与父代集合的所有个体的目标值进行排序得到所有个体的序号,按序号取前50个个体作为下一代的多目标种群; 步骤3-14,知识迁移; 步骤3-15,当其中一个种群累计三次陷入局部最优时,将两个分组形式的特征投影到原始特征空间,取消分组方式,即一位代表一个特征进行搜索,如果种群两代之间的非支配前沿距离大于时,累计次数重新计算; 步骤3-16,迭代:每执行完一次步骤3-14之后,迭代次数加一,然后重新回到步骤3-10执行操作; 步骤3-17,终止:当迭代次数达到步骤3-2中的迭代次数T即100时,特征选择进化算法终止,并将最后一代的多目标种群与其目标值输出; 步骤3-18,将步骤3-17输出的所有个体的目标值进行Pareto非支配排序,得到排序后的帕累托第一前沿面的个体;记录得到的第一前沿面中分类精度最高的对应个体,即为特征选择进化算法在步骤3特征提取后得到多组重要的特征组合; 步骤4,应用预测:将选择后的特征组合输入到分类器中,然后对需要进行识别分类的文本使用公知的K近邻分类技术得到未知文本的标签,并将此标签作为最终结果,输出待识别分类的文本的结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人郑州大学,其通讯地址为:450001 河南省郑州市高新区科学大道100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励