在一些博文中已经描述过如何索引二进制文件,即为Word文件、PDF文件和 LibreOffice文档创建索引。在此,利用数据导入处理程序(Data Import Handler)实现同样的功能。不久前 Solr 服务器发布了新的版本(3.1),本文内容就基于此新版本加以描述。本文值目的是给出应用样例 - 所有变更以此样例应用为准。
假设
我们假设数据是可用的XML格式,并包含文档基本信息,以及定位文档的文件名,文件位于一定义的目录下。示例文件如下:
<?xml version="1.0" encoding="utf-8"?>
<albums>
<album>
<author>John F.</author>
<title>Life in picture</title>
<description>1.jpg</description>
</album>
<album>
<author>Peter Z.</author>
<title>Simple presentation</title>
<description>2.pptx</description>
</album>
</abums>
如上所示,文件数据由单个元素构成,并无唯一标识符,但可以处理(此类数据)。
首先修改(XML)模式,增加一字段,用以保存文件内容:
<field name="content" type="text" indexed="true" stored="true" multiValued="true"/>
接着,修改solrconfig.xml,补充DIH 配置:
<requestHandler name="/dataimport">
<lst name="defaults">
<str name="config">data-config.xml</str>
</lst>
</requestHandler>
由于将使用额外定位的实体处理器(TikaEntityProcessor),所以需要修改加载DIH库的(配置)行:
<dataConfig>
<script><![CDATA[
id = 1;
function GenerateId(row) {
row.put('id', (id ++).toFixed());
return row;
}
]]></script>
<dataSource type="BinURLDataSource" name="data"/>
<dataSource type="URLDataSource" baseUrl="http://localhost/tmp/bin/" name="main"/>
<document>
<entity name="rec" processor="XPathEntityProcessor" url="data.xml" forEach="/albums/album" dataSource="main" transformer="script:GenerateId">
<field column="title" xpath="//title" />
<field column="description" xpath="//description" />
<entity processor="TikaEntityProcessor" url="http://localhost/tmp/bin/${rec.description}" dataSource="data">
<field column="text" name="content" />
<field column="Author" name="author" meta="true" />
<field column="title" name="title" meta="true" />
</entity>
</entity>
</document>
</dataConfig>
生成记录标识符 - 脚本
第一个有趣的特点是使用标准ScriptTransformer生成文档标识符。用javascript “GenerateId”方法和一个对它的引用(transformer=“script:GenerateId”) ,每条记录将被编号。坦率地说,这不是太好的处理缺乏标识符的方法,因为它不允许增量索引(我们无法区分各种版本的记录) - 用在这里只是显示修改记录多么容易。如果你不喜欢Javascript,您可以使用Java6支持的任何脚本语言。
使用多个数据源
另一个有趣的因素是多个数据源的使用。由于元数据由XML文件提供,需要下载这个文件;使用标准方法:定义UrlDataSource,然后用XpathEntityProcessor 分析传入的数据。既然要下载每个记录的二进制附件,定义了一个额外的数据源:BinURLDataSource和其他实体,使用TikaEntityProcessor;现在只需要通知实体在哪里下载文件(url 属性引用该实体-父)和使用那个数据源的提示(dataSource属性);辅以一被索引的字段列表(附加的 meta 属性是指从文件元数据中检索的数据)。
可用字段
Apache Tika 允许您下载许多来自文件的其他数据。上例中只用了 文档的标题(title)、作者(author)和内容(content)。有关可用字段的完整的信息都包含在由Metadata类实现的接口中(http://tika.apache.org/0.9/api/org/apache/tika/metadata/Metadata.html)-- 其中定义的常量。特别有趣的是DublinCore和MSOFFICE。
结论
启动Solr不久后将运行导入过程(调用地址:http://localhost:8983/solr/dataimport?command=full-import),文件将被索引,发送下列查询到Solr后,可见查询结果:http://localhost:8983/solr/select?q=*:* 。
分享到:
相关推荐
solr更新到6.x的版本了,ik-...ik-analyzer-solr-6.0.0.jar ik-analyzer-solr-6.2.1.jar ik-analyzer-solr-6.3.0.jar 更多的相关信息,请参照我的博客 http://blog.csdn.net/Bleachswh/article/details/53228614
中文分词器ik-analyzer-solr5-5.x.jar,已经打包好,直接用就可以 2积分不黑心
包涵apache-solr-core-3.5.0.jar和apache-solr-solrj-3.5.0.jar两个文件,搭建solr全文检索环境必须要添加的包
apache-solr-dataimportscheduler1.4 / solr 7.5 ,天下没有免费的JAR包
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。此包兼容solr7.x
目前在网上只能找到以前最老spring-data-solr 1.x.x 版本的配置和说明,最新版本的根本找不到,在参考spring-data-solr 官网文档后写的配置和小Demo,spring-data-solr 所使用的是目前最新版本的 spring-data-solr ...
apache-solr-3.6.2.zipapache-solr-3.6.2.zipapache-solr-3.6.2.zipapache-solr-3.6.2.zipapache-solr-3.6.2.zipapache-solr-3.6.2.zipapache-solr-3.6.2.zip
中文分词器ik-analyzer-solr5-5.x.jar,已经打包好,直接用就可以
solr6.1.0版本jar已经不再提供读取自动索引配置文件路径的方法,因此apache-solr-dataimportscheduler-1.0内调用该方法的所有操作都无法实现。于是需要下载apache-solr-dataimportscheduler-1.0-with-source.jar并...
里面包含了mmseg4j-solr-2.0.0.jar,mmseg4j-solr-2.1.0.jar,mmseg4j-solr-2.2.0.jar,mmseg4j-solr-2.3.0.jar总共4个文件,其中: mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。在 lucene/solr [4.3.0, 4.7.1]...
支持solr5以上的ikanalyzer包和配置文件
apache-solr-core-1.4.0.jar,apache-solr-core-1.4.0.jar
apache-solr-ref-guide-7.1.pdf为最新的Solr版本的参考手册
solr 5.x定时生成索引依赖jar
solr增量更新-
当前资源为Apache官方提供的说明文档apache-solr-ref-guide-5.3.pdf,方便大家学习使用!此外还整理了一套有关solr-5.3.0的Windows、Linux和src源码包,有需要的可以去下载!因不支持上传pdf,所以存到百度云盘。
solr7,ik-analyzer中文分词,带配置文件,放到solr的classes目录即可配置自己的分词规定