- 浏览: 912718 次
- 性别:
- 来自: 宁波
文章分类
最新评论
-
masuweng:
不错!!!!!
自定义表单的设计与实现 -
xhackertxl:
注意将jstock cvs下来后去掉原先的J2SE 1.6li ...
开源项目推荐 — 股票分析软件JStock -
luoyexiaozhu:
最近在学表单这一块,没有思路,能发给我一份学习一下吗86239 ...
WEB项目中自定义表单的设计与实现 -
volunteer521:
楼主,以下的引用类没有对应的jar包,麻烦共享以下,谢谢!im ...
通用数据抽取系统 -
baichixiaozi:
体验下,谢谢分享
原创简化Web开发的框架 - JSPTagEx
目前包括百度,google,搜搜,Yahoo等搜索引擎提供的是通用搜索方式,我们试想一下,如果将搜索出来的结果自动分类,那应该是多么美妙的一件事情,如您搜索“Ajax”,会自动按如下分类,如下图:
目前已有此类的开源项目,Carrot2,使用起来非常简单,但由于中文的聚类算法和英文的聚类算法存在比较大的差异,所以更多的时间是花在中文算法的聚类上,Carrot2的官方地址:http://project.carrot2.org/
目前搜索引擎逐步在细分市场,目前市面上还存在多个垂直搜索引擎,人肉搜索(其实主要也是人的相关性研究),如Google的生活搜索等,的确,现在的搜索引擎产品正慢慢的更加贴近人性化设计。
Carrot2自带的一个文档聚类的例子源代码如下:
try { /* * Initialize local controller. Normally you'd run this only once * for an entire application (controller is thread safe). */ final LocalController controller = initLocalController(); /* * Once we have a controller we can run queries. Change the query * to something that is relevant to the data in your index. */ // Data for clustering, containing documents consisting of // titles and bodies of documents. String [][] documents = new String [] [] { { "Data Mining - Wikipedia", "http://en.wikipedia.org/wiki/Data_mining" }, { "KD Nuggets", "http://www.kdnuggets.com/" }, { "The Data Mine", "http://www.the-data-mine.com/" }, { "DMG", "http://www.dmg.org/" }, { "Data Mining", "http://www.gr-fx.com/graf-fx.htm" }, { "Data Mining Benchmarking Association (DMBA)", "http://www.dmbenchmarking.com/" }, { "Data Mining", "http://www.computerworld.com/databasetopics/businessintelligence/datamining" }, { "National Center for Data Mining (NCDM) - University of Illinois at Chicago", "http://www.ncdm.uic.edu/" }, }; // Although the query will not be used to fetch any data, if the data // that you're submitting for clustering is a response to some // search engine-like query, please provide it, as the clustering // algrithm may use it to improve the clustering quality. final String query = "data mining"; // The documents are provided for clustering in the // PARAM_SOURCE_RAW_DOCUMENTS parameter, which should point to // a List of RawDocuments. List documentList = new ArrayList(documents.length); for (int i = 0; i < documents.length; i++) { documentList.add(new RawDocumentSnippet( new Integer(i), // unique id of the document, can be a plain sequence id documents[i][0], // document title documents[i][1], // document body "dummy://" + i, // URL (not required for clustering) 0.0f) // document score, can be 0.0 ); } final HashMap params = new HashMap(); params.put( ArrayInputComponent.PARAM_SOURCE_RAW_DOCUMENTS, documentList); final ProcessingResult pResult = controller.query("direct-feed-lingo", query, params); final ArrayOutputComponent.Result result = (ArrayOutputComponent.Result) pResult.getQueryResult(); /* * Once we have the buffered snippets and clusters, we can display * them somehow. We'll reuse the simple text-dumping method * available in {@link Test}. */ Example.displayResults(result); } catch (Exception e) { // There shouldn't be any, but just in case. System.err.println("An exception occurred: " + e.toString()); e.printStackTrace(); }
评论
9 楼
Jatula
2008-10-20
其实玩过这东西的人都知道,这种去分类的东西,会有一个后果就是数据准,但是要程序去拆分,人工干预很大,已经成了半自动的东西,很不实际,做做小型的还可以,做大型那就要考虑,再说搜索引擎以量和速度排第一,所以这个想法好,但不实际;
8 楼
jiyanliang
2008-10-15
我来说说我自己的观点。
其实这个和语意搜索有点类似了,或者说比较接近。
我们要进行语意搜索第一步是要建模的,靠什么建模,目前来说使用本体的比较多。
描述本体的语言有很多中,但是他们的共同点就是具有推理功能。
这里的聚类搜索我们可以看成是不同本体相互结合的产物。
其实这个和语意搜索有点类似了,或者说比较接近。
我们要进行语意搜索第一步是要建模的,靠什么建模,目前来说使用本体的比较多。
描述本体的语言有很多中,但是他们的共同点就是具有推理功能。
这里的聚类搜索我们可以看成是不同本体相互结合的产物。
7 楼
稻香麦甜
2008-10-15
感觉这种分类方式只适合
有针对性的搜索人员,有些大众自己都不知道自己的搜索关键词,所以我觉得那个关键词sns还是很有效的!
有针对性的搜索人员,有些大众自己都不知道自己的搜索关键词,所以我觉得那个关键词sns还是很有效的!
6 楼
beyondsky
2008-10-15
聚类算法
5 楼
yajie
2008-10-15
我想请教一下你网页上面的google广告是怎样弄上去的?
4 楼
firstlight
2008-10-14
这个哪儿有很新,,,看看网站上的paper 早就有了
3 楼
kongshanxuelin
2008-10-14
tanguojun 写道
在好的技术需要市场,没有市场的技术都是空谈!
这种技术可以加强用户体验,不能说完全没有市场,大家可能都希望如搜索“Ajax”,帮你的结果自动分类,如Ajax书籍,Ajax公司等,这样看搜索结果更有针对性
2 楼
tanguojun
2008-10-14
在好的技术需要市场,没有市场的技术都是空谈!
1 楼
emarket
2008-10-14
孩子,这东西自己拿来玩玩还行,这种自动分类的东西太不实际,关键是没有市场:)
发表评论
-
新个税改革,看看您每月到手钱少了还是多了计算器
2018-08-29 10:04 553背景:国家重拳整治 ... -
新个税计算器,看看每月到手钱多了还是少了
2018-08-29 10:01 0背景:国家重拳整治社保,将社保缴费交给税务局监管,预期会大 ... -
计算机视觉识别汽车花草人脸颜值
2018-05-29 09:09 1349目前人工智能技术已 ... -
计算机视觉识别汽车花草人脸颜值
2018-05-29 09:03 3目前人工智能技术已 ... -
基于Vue2的在线出试卷小系统,开源已发布
2017-11-15 20:17 1671需要出一份在线面试的小系统,找了一圈,好像没有开源实现,基 ... -
小团队管理微信小程序开源啦~
2017-08-16 13:18 1618项目概述:方便打理 ... -
自定义表单的设计与实现
2017-06-13 17:46 8182制作调查表或企业内部系统的时候,经常被一系列表单弄得焦头烂 ... -
微信小程序开发我遇到的一些坑和建议
2017-04-13 20:08 109小程序最近火了,所 ... -
微信小程序开发我碰到的坑
2017-04-13 20:02 4小程序最近火了,所以 ... -
利用JSPTagEx开发单页面Web程序(附源码)
2015-09-15 15:22 2589何为SPA:Web开发单页面,利用pushState技术实现 ... -
利用JSPTagEx开发单页面Web程序(附源码)
2015-09-15 14:59 1何为SPA:Web开发单页面,利用pushState技术实 ... -
简化移动端开发(NodeJs+Thrift+SocketIO+混编)
2015-08-05 17:16 145本文搭建一套基于Nodejs+SocketIO+Thrif ... -
利用原创框架封装后台管理组件
2015-06-19 18:02 200通过前几天编写的后台管理框架jsptagex我们已经能很快 ... -
原创简化Web开发的框架 - JSPTagEx
2015-06-12 12:53 4602在博客蛰伏了一年多,该写点东西了:) JSPTag ... -
原创Web框架 - JSPTagEx
2015-06-12 12:44 1在博客蛰伏了一年多,该写点东西了:) JSPTag ... -
桌面开发服务端混搭Java
2014-09-26 16:10 0本篇博客在原有GQT桌面项目的基础上,加入了服务端代码(C ... -
关于openfire负载均衡和扩展性的思考
2014-06-04 17:15 0解决并发用户过多 如果你的应用场景无需考虑每个注册用户都必 ... -
异构语言高可用性服务端的设计与实现
2014-05-30 16:01 2976本文的客户端基于我 ... -
也谈基于Web的含工作流项目的一般开发流程
2014-03-19 17:20 5741该项目包含的通用模块代码等我有时间一并剥离贡献出来(基于W ... -
高性能高可用的服务端研究之Req-Rep模式(附源码)
2014-03-04 10:01 5499最近在思考高可用的 ...
相关推荐
面向购物的聚类搜索引擎的研究与实现.pdf
一篇关于搜索引擎的论文,来自CNKI!
带聚类功能的搜索引擎
机器指令与机器语言,不同机器其志玲不同,难学难记,关系密切。
基于学习的web搜索结果聚类的一篇论文,外文的,学习文本聚类,开发聚类搜索引擎学习有帮助
这是国外的一篇很不错的搜索引擎算法,是开源的Carrot2中的核心算法
K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象...
MATLAB聚类算法
快速搜索密度峰值聚类实现代码
聚类分析是研究多要素事物分类问题的数量方法。基本原理是根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。 常见的聚类分析方法有...
名称:AP聚类算法 功能:聚类数据集 类别:新聚类算法
聚类搜索算法,主要讲述了相关的思想和算法,进行了分析
聚类分析程序 包括系统聚类 样品系统聚类 变量系统聚类 K均值聚类 模糊C均值聚类
聚类算法,密度聚类,高效聚类,无监督聚类,快速聚类
聚类程序聚类程序聚类程序聚类程序聚类程序
一个实现聚类的引擎,功能全面,直接使用,方便快捷
MYDBSCAN:基于密度的聚类DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法的底层实现 MYAP:基于划分的聚类AP(Affinity Propagation Clustering Algorithm )算法的底层实现--近邻传播...
提出了一种新的聚类有效性指标,对聚类结果进行有效性验证。该指标从划分熵、隶属度、几何结构角度,定义了紧凑度、分离度、重叠度三个重要特征测量。在此基础上,提出了一种最佳聚类数确定方法。将新聚类有效性指标...
数据挖掘中聚类算法的新发展,罗列的详细!
类平均聚类方法 类平均聚类方法 类平均聚类方法 类平均聚类方法 类平均聚类方法