起点R3全文检索产品解决方案
起点R3全文检索产品是于2008年开始研发,定位为新一代强大的,高性能的JAVA全文检索产品,从2009年开始,每年以两个大版本,10多个小版本的演化速度在不停发展,以适应各个行业对全文检索功能、性能的需求。在起点R3全文检索产品上,您可以定义各种类型的数据源,包括网站、电子邮件、内容仓库, CMS、文件系统等。起点R3全文检索产品具备高性能的分布式计算能力,能够通过简单配置实现高可用集群。通过扩展计算能力,起点R3能够支持几十T的文件信息。起点R3支持包括中英文、新老维文等超过15种语言文字的多语言检索。起点R3具备强大的内容采集能力,默认提供本地文件系统、数据库、邮件、网络文件系统、FTP、Domino、DBMS、CSV。起点R3全文检索引擎支持增量索引,支持数据库数据更新,能够通过可视化的方式对索引字段进行管理。起点R3全文检索产品基于开源项目,能够很容易的集成Hadoop和HBase。起点R3全文检索产品对二次开发也非常友好,对所有的二次开发开放了全功能的API,能够以XML或JSON格式交换数据,支持的二次开发语言包括:JSP、PHP、Java、Python、C#等等。
起点R3全文检索产品从 2009年开始同时以开源项目的形式发布在SourceForge上,您可以下载起点R3开源版本的全部源代码。起点R3开源版本在国内外下载次数已超过10000次数,国内用户占80%,美国用户占5%,欧洲用户占8%,其他占2%,起点R3全文检索产品得到了全球用户的共同关注和参与,经过多年的维护和发展,起点R3在国内开源领域已全面领先。
面向客户: 大型企业搜索用户;大中型门户网站、电子商务网站客户,系统集成商、档案管理、知识库、协同办公平台及其生产厂商;图书馆、金融、通信、专利行业等大数据量客户;
应用领域: 网站、网站群的站内搜索;企业应用系统及企业门户的数据集成;企业内部ERP、MIS系统的数据整合;档案、图书馆、专利平台的数据检索;在金融、通信、公安行业的大数据量下的相关应用。
功能特点
1.多操作系统、多平台支持
起点R3支持的操作系统、应用服务器、数据库如下:
操作系统 Windows NT / 2000 Server/2003 Server;Linux 2.0及以上;Sun Solaris2.3及以上、IBM AIX4.2及以上、HP-UX 10.10及以上、Compaq True64 UNIX 3.2、SGI IRIX6.3及以上
应用服务器 支持IIS 5.0以上、Tomcat、WebSphere、WebLogical等
其它必备环境 JDK1.6 以上版本
2.支持多数据源检索,结构化和非结构化数据统一管理、检索
起点R3全文检索产品能够检索数据库全文检索、文件系统内容全文检索
支持包括TEXT、HTML、RTF、MS OFFICE、PDF、图片、OpenOffice、XML等多种格式文件的存储、索引和检索
支持图像、文字、音频、视频等多媒体数据的关联管理与统一检索
支持多种结构化数据类型的管理:日期类型、数字类型、字符类型、货币类型、经纬度数据等
可以通过指定文件所在目录进行导航式检索,支持50多种文件类型。根据用户需要产品也支持从其它各类专有数据源获取要检索的数据内容,例如:ECM系统、其它数据池等等。起点R3也支持多个数据库的跨库检索。
3.多语种、多编码管理
支持中英文、新老维文、回文等语言文字的混合检索。
系统内核支持UTF-8/GBK/GB2312/GB18030/BIG5/JP等十多种编码格式。
4.智能化的检索服务
起点R3全文检索产品在全文检索过程中采用相关智能技术以达到迅速、准确、全面定位目标信息。例如采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进一步的查询;支持完善的信息分类体系,对检索结果自动分类或者信息聚类;提供智能化的概念扩展查询等。通过这些技术,能够满足大多数智能化搜索需求。
5.海量数据高效处理
起点R3全文检索产品不仅提供了快速检索功能(在千万级数据下,全文检索能在1秒钟之内完成),同时也有着高效的海量数据处理能力。每小时能处理百万的数据库数据,或是几十万篇的文档。包括中文的分词和建立数据索引,起点R3开源版本在国外一些研究机构项目中的最高数据量到达 25亿条,存储内容超过20T。
6.中文分词技术
中文分词是搜索引擎必须具备的技术之一,应用中文分词技术才能使搜索结果更加符合用户习惯,更加接近用户的期望结果,起点R3全文检索产品集成了中文分词技术,并有着120万词库的支持,用户也可以根据自己的需要和行业特色来添加和维护词库。中文分词技术的准确率和召回率都达到96%以上。
7.强大、灵活的安全控制策略
提供系统级、数据库级、记录级以及字段级四级安全控制策略,控制粒度能够以可视化方式配置。
提供数据文件内容加密、索引加密、库结构文件加密等安全机制。
支持通信传输加密,实现128位SSL的安全访问加密控制。
与第三方安全系统集成,支持Windows AD、Domino、LDAP以及其他第三方用户管理和权限系统集成。
8.搜索结果多样化展现方式
无论是数据来源于数据库中,或者是各类文件,对于搜索的展示结果,用户可以通过接口或外包中科融研开发进行个性化、多样化的展现,也可以类似数据库那样,对于数据字段进行自由调用查询和展现。
10.支持多种语言开发接口,与业务系统无缝集成
起点R3全文检索产品以REST方式提供多种语言开发接口,支持的语言包括.NET,JAVA,PHP等。可与各类WEB应用进行无缝集成。同时提供完善的二次开发API手册帮助及应用示例。
11.提供丰富检索语法
结合搜索业务的需要,起点R3全文检索产品提供丰富的检索语法支持,包括多字段组合查询、多字段组合排序、支持模糊匹配查询、支持大于,等于,小于,不等于操作符、支持*?等模式匹配,支持位置运算符,字符串的先后顺序、字符的后方截词、中间截词等等。也可以根据用户需要定制开发特殊检索规则。
12.分布式系统支持
当信息数量超过一台计算机的负载能力,而无法达到要求的查询效率,或是系统需要承受更大的访问压力时,分布式系系统无疑是最好的解决方案。通过分布式系统的支持,系统的数据负载能力可以从几千万提高到几十亿,甚至更多。
13.操作简易、维护方便
起点R3全文检索产品提供强大的、友好的后台管理操作界面,所有配置和操作都可以通过浏览器进行,操作简易,维护方便,同时也不影响服务器的安全性。
运行环境
硬件 | 512MB以上内存 |
操作系统 |
Microsoft Windows NT 4.0(SP3以上) 或 Windows 2000/2003/2008 Linux/Unix AIX |
CPU | 2GHz或以上 |
硬盘 | 50G以上 |
功能列表
编号 | 名称 | 功能说明 |
R3-F01-0 |
内容采集 |
实现企业环境中的各种数据源的数据采集功能 |
R3-F01-1 |
本地文件采集 |
对本地文件系统中的文件进行采集和文本处理 |
R3- F01-2 |
网络文件采集 |
对网络环境中的文件系统进行采集和文本处理 |
R3-F01-3 |
FTP采集 |
扩展网络采集类型,支持对FTP环境存储的文件进行采集和文本处理 |
R3-F01-4 |
POP3采集 |
扩展网络采集类型,能够对支持POP3协议的邮件系统中的邮件进行采集,支持SSL方式的链接协议 |
R3-F01-5 |
Domino采集 |
采集BM Domino系统中的内容 |
R3-F01-6 |
Documentum采集 |
采集EMC Documentum系统中的内容 |
R3-F01-7 |
Mysql采集 |
采集Mysql数据,支持按主键采集和按更新时间戳采集,自动采集,支持任务调度模式。 |
R3-F01-8 |
Oracle采集 |
采集ORACLE数据,支持按主键采集和按更新时间戳采集,支持ORACLE的各个版本,自动采集,支持任务调度模式。 |
R3-F01-9 |
SQL Server采集 |
采集SQL Server数据,支持按主键采集和按更新时间戳采集,自动采集,支持任务调度模式。 |
R3-F01-10 |
DB2采集 |
采集DB2数据,支持按主键采集和按更新时间戳采集,自动采集,支持任务调度模式。 |
R3-F02 |
内容检索 |
|
R3-F02-1 |
关键词检索 |
标准的关键词检索功能,支持任意字段的检索,支持日期和数字类型的关键词检索,支持范围检索 |
R3-F02-2 |
全文搜索 |
企业内容的全文检索,支持千万级的数据量,简单检索响应时间为亚秒级,海量数据,瞬间展现 |
R3-F02-3 |
检索统计 |
检索结果分组统计,支持多种数据类型的分组统计功能,无数据量限制。 |
R3-F02-4 |
分类检索 |
人工堆数据内容分类,检索能够在分类下进行,能够对分类授权。只有具有分类授权访问的用户才能够使用分类检索功能 |
R3-F02-5 |
检索安全分级 |
严格控制检索结果记录的安全性,默认分为5个级别,第五级为最低级别,所有用户都可以访问,最高位第一级,只有用户的安全级别为第一级采集可以访问。 |
R3-F02-6 |
检索过滤 |
安全访问功能,检索结果能够被授权用户访问,通过与第三方用户体系和角色系统集成,实现信息的访问安全 |
R3-F02-7 |
检索结果反显 |
检索结果按用户自定义方式进行反显 |
R3-F02-8 |
任意字段排序 |
检索结果排序功能,支持任意数据类型 |
R3-F02-9 |
日期分组统计 |
检索结果按照日期进行分组统计,例如:年度分组统计 |
R3-F02-10 |
数字分组统计 |
检索结果按照数字范围进行分组统计,例如:年龄段分组统计 |
R3-F02-11 |
主题分组统计 |
检索结果按照主题进行分组统计,例如:公司新闻消息中关于市场推广活动的统计 |
R3-F02-12 |
跨库检索 |
支持对异构数据系统的统一检索,例如:对万方、维普等第三方检索系统的异构数据集成 |
R3-F02-13 |
分布式检索 |
支撑海量数据,能够通过多级分布方式提升系统的数据处理能力,能够以低成本的方式按需扩展系统 |
R3-F02-14 |
个性化搜索 |
R3独有的功能,不同用户或不同角色可以定义不同的检索结果展现方式。 |
R3-F02-15 |
快速预览 |
快速预览检索结果,即快照功能 |
R3-F02-16 |
授权原文下载 |
获得授权的用户,能够对原文进行下载 |
R3-F03 |
系统管理 |
|
R3-F03-1 |
角色管理 |
系统登录用户角色管理,也可以和外部系统整合作为映射参数 |
R3-F03-2 |
用户管理 |
系统用户管理 |
R3-F03-3 |
用户级别管理 |
系统安全级别,用户安全级别,系统信息访问分级参数 |
R3-F03-4 |
用户界面定义 |
自定义用户检索前台,系统支持不同用户访问不同前台检索界面 |
R3-F03-5 |
角色界面定义 |
为角色定义安全级别、默认角色使用的检索界面 |
R3-F03-6 |
采集策略定义 |
定义采集线程数、采集内存使用量、内存使用总量等参数 |
R3-F03-7 |
系统邮件设置 |
系统发送邮件时使用的SMTP账号、密码、发件人邮件地址等信息 |
R3-F04 |
核心扩展 |
|
R3-F04-1 |
检索模板定义 |
|
R3-F04-2 |
文档格式定义 |
|
R3-F04-3 |
元数据定义 |
|
R3-F04-5 |
语言处理接口 |
|
R3-F04-7 |
数据库驱动 |
|
R3-F04-8 |
数据采集器 |
|
R3-F04-9 |
语言分析 |
|
R3-F04-10 |
文件解析 |
|
R3-F04-11 |
数据处理 |
|
R3-F04-12 |
文本处理 |
|
R3-F04-13 |
身份验证 |
|