注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

编程浪子的梦博客

博客地址:www.54php.cn

 
 
 

日志

 
 

(个人原创)《中文网页自动分类》  

2010-06-18 12:16:17|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

(个人原创)《中文网页自动分类》

运行界面如图所示:测试的“我们的论坛”属于“教育类”,有人可能会说:这个结论肯定是错的,其实不是的,这是因为每天论坛都有更新,如果更新的学习类的东西多,那么就有可能是教育类了,哈哈!!

联系方式: Email apanly@163.com

                       QQ:364054110

我的论坛: www qyclass org/bbs


本论坛的测试结果:

(个人原创)《中文网页自动分类》 - apanly - apanly的博客,也是我们的天堂

 
本论坛的测试结果:

(个人原创)《中文网页自动分类》 - apanly - apanly的博客,也是我们的天堂

 
牵扯的技术有:分词,统计词频,踢出网页中一些特殊字符(用正则表达式),还有需要提取培训集等等!!

结果分析的思想:就是把得到的词频与建立的词库里每一类进行比较,如果存在一个最大匹配程度,就去这个类作为结果,如果存在多个最大值,那么就去词库里特征词最少的一个!!

 

点击这里下载      大家如果有更好的想法可以提出来!! 此软件禁止商业活动,版权所属“qyTT论坛--www qyclass org/bbs”

本文来自: qyTT论坛    我们的使命:让世界认识qyTT,让qyTT认识世界!

  评论这张
 
阅读(19)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018