首页 | 资讯动态 | linux基础 | 系统管理 | 网络管理 | 编程开发 | linux数据库 | 服务器技术 | linux相关 | linux认证 | 嵌入式 | 下载中心 | 专题 | linux招聘 | HR | 镜像
OKLinux中文技术站
·设为首页
·加入收藏
·联系我们
系统管理: 中文环境 系统管理 桌面应用 内核技术 | Linux基础: 基础入门 安装配置 常用命令 经验技巧 软件应用 | Linux数据库: Mysql Postgre Oracle DB2 Sybase other
网络管理: 网络安全 网络应用 Linux服务器 环境配置 黑客安全 | 编程开发: PHP CC++ Python Perl Shell 嵌入式开发 java jsp | PHP技术: PHP基础 PHP技巧 PHP应用 PHP文摘
搜索中心 Linux招聘 Linux专题 Apache | Linux相关: 硬件相关 Linux解决方案 Linux认证 企业应用 其它Unix | 相关下载: 资料下载 参考手册 开发工具 服务器类 软路由 其它
 技术搜索:
会员中心 注册会员 高级搜索  
  → 当前位置:首页>编程开发>java>Java基础>正文

高级:lucene全文检索应用示例及代码简析

http://www.oklinux.cn  2008-02-29  赛迪网 easyjf   会员收藏  游客收藏  【 】 
您查看的文章来源于http://www.oklinux.cn

Lucene是apache软件基金会 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包及架构,提供了完整的查询引擎和索引引擎,实现了一些通用的分词算法,预留很多词法分析器接口。本文以myrss.easyjf.com网站系统中使用Lucene实现全文检索的代码为例,简单演示Lucene在实际项目中的应用。
  使用Lucene实现全文检索,主要有下面三个步骤:
  1、建立索引库:根据网站新闻信息库中的已有的数据资料建立Lucene索引文件。
  2、通过索引库搜索:有了索引后,即可使用标准的词法分析器或直接的词法分析器实现进行全文检索。
  3、维护索引库:网站新闻信息库中的信息会不断的变动,包括新增、修改及删除等,这些信息的变动都需要进一步反映到Lucene索引文件中。
下面是myrss.easyjf.com相关代码!

一、索引管理(建立及维护)
  索引管理类MyRssIndexManage主要实现根据网站信息库中的数据建立索引,维护索引等。由于索引的过程需要消耗一定的时间,因此,索引管理类实现Runnable接口,使得我们可以在程序中开新线程来运行。
package com.easyjf.lucene;
import java.util.Date;
import java.util.List;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.queryParser.MultiFieldQueryParser;
import org.apache.lucene.queryParser.QueryParser;
import org.apache.lucene.search.Hits;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.Searcher;
import com.easyjf.dbo.EasyJDB;
import com.easyjf.news.business.NewsDir;
import com.easyjf.news.business.NewsDoc;
import com.easyjf.news.business.NewsUtil;
import com.easyjf.web.tools.IPageList;
public class MyRssIndexManage implements Runnable {
private String indexDir;
private String indexType="add";
public void run() {
// TODO Auto-generated method stub
if("add".equals(indexType))
normalIndex();
else if ("init".equals(indexType)) reIndexAll();
}
public void normalIndex()
{
try{
Date start = new Date();
int num=0;
IndexWriter writer=new IndexWriter(indexDir,new StandardAnalyzer(),false);
//NewsDir dir=NewsDir.readBySn();
String scope="(needIndex<2) or(needIndex is null)";
IPageList pList=NewsUtil.pageList(scope,1,50);
for(int p=0;p {
pList=NewsUtil.pageList(scope,p,100);
List list=pList.getResult();
for(int i=0;i {
NewsDoc doc=(NewsDoc)list.get(i);
writer.addDocument(newsdoc2lucenedoc(doc));
num ;
}
}
writer.optimize();
writer.close();
EasyJDB.getInstance().execute("update NewsDoc set needIndex=2 where " scope);
Date end = new Date();
System.out.print("新增索引" num "条信息,一共花:" (end.getTime() - start.getTime())/60000 "分钟!");
}
catch(Exception e)
{
e.printStackTrace();
}
}
public void reIndexAll()
{
try{
Date start = new Date();
int num=0;
IndexWriter writer=new IndexWriter(indexDir,new StandardAnalyzer(),true);
NewsDir dir=NewsDir.readBySn("easyjf");
IPageList pList=NewsUtil.pageList(dir,1,50);
for(int p=0;p {
pList=NewsUtil.pageList(dir,p,100);
List list=pList.getResult();
for(int i=0;i {
NewsDoc doc=(NewsDoc)list.get(i);
writer.addDocument(newsdoc2lucenedoc(doc));
num ;
}
}
writer.optimize();
writer.close();
EasyJDB.getInstance().execute("update NewsDoc set needIndex=2 where dirPath like 'easyjf%'");
Date end = new Date();
System.out.print("全部重新做了一次索引,一共处理了" num "条信息,花:" (end.getTime() - start.getTime())/60000 "分钟!");
}
catch(Exception e)
{
e.printStackTrace();
}
}
private Document newsdoc2lucenedoc(NewsDoc doc)
{
Document lDoc=new Document();
lDoc.add(new Field("title",doc.getTitle(),Field.Store.YES,Field.Index.TOKENIZED));
lDoc.add(new Field("content",doc.getContent(),Field.Store.YES,Field.Index.TOKENIZED));
lDoc.add(new Field("url",doc.getRemark(),Field.Store.YES,Field.Index.NO));
lDoc.add(new Field("cid",doc.getCid(),Field.Store.YES,Field.Index.NO));
lDoc.add(new Field("source",doc.getSource(),Field.Store.YES,Field.Index.NO));
lDoc.add(new Field("inputTime",doc.getInputTime().toString(),Field.Store.YES,Field.Index.NO));
return lDoc;
}
public String getIndexDir() {
return indexDir;
}
public void setIndexDir(String indexDir) {
this.indexDir = indexDir;
}

public String getIndexType() {
return indexType;
}
public void setIndexType(String indexType) {
this.indexType = indexType;
}
}

二、使用Lucene实现全文搜索

共3页: 上一页 1 [2] [3] 下一页

上一篇:Java语言深入:浅析Java语言中的内部类   下一篇:高手对 CLASSPATH 的详解

收藏于收藏夹】 【评论】 【推荐】 【打印】 【关闭
相关文档
·Java语言深入:浅析Java语言中的内部类
·高手对 CLASSPATH 的详解
·Java语言深入--抽象类和接口的区别
·基础:Java初学者都必须理解的六大问题
·Java语言深入:C#与Java相似之处的对比
·J2SE综合:介绍一个解析日期格式的方法
·JAVA基础:JSP中监测JVM的内存使用情况
·随便说说JAVA字符集和编码
·关于Java基础知识部分总结
·Java语言中四种XML解析技术之不完全测试
·J2SE综合--关于字符串的一些处理技巧
·JSP/Servlet:Servlet/JSP会话跟踪机制
·J2SE综合--对于log4j的深层次的理解
·Java GUI:在SWING中设计windowclosing()
·基础:Java中两个特殊变量this和super
·Java GUI--在Java中监控文本框的变化
发表评论
密码: 匿名评论
评论内容:

(不超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规)
 
  最新文档
·Java开发下的设计模式简单说明
·JAVA语言关于字符串替换的思考
·编写高级JavaScript应用代码
·常用的JDBC连接数据库方法大全
·解决JSP开发中Web程序中文显示三种方法
·对于Spring初学者的学习建议
·Java开发编程规范大分享
·站在巨人肩膀上学好J2EE全攻略
·Java网络编程基础(四) ServerSocket类
·Java网络编程基础(三) Datagram类使用
·Java学习过程中应该深入理解的一些重点
·Java网络编程基础(二) Socket类的使用
  阅读排行
·Java语言深入--java调用C/C 的过程
·一个非常有趣的使用spring框架AOP例子
·初学者Structs中基本配置入门
·使用AJAX技术实现网页无闪自动局部刷新
·关于java中相对路径,绝对路径问题总结
·JAVA基础:一个struts hibernate入门实
·一个基于Java Socket实现文件传输示例
·Hibernate配置文件中的映射元素详解
·关于角色访问控制(RBAC)
·快速教您Apache Tomcat SSL的配置
·使用WEBWORK实现文件上传方法实例详解
·JSP/Servlet:< jsp-config>标签使用详
·在struts里实现dtree通用树型结构讲解
·JSP JavaBean Servlet工作原理实例讲解
·在Weblogic上配置JMS服务的方法
网摘收藏: