『智海』企业搜索系统产品开发,智海企业集团有限公司。
一、企业数据的应用困境
企业信息化推进提升企业效率,改进管理流程的同时,也不断积累起海量的各种类型的数字化数据。据统计,企业数据以每年约200%的速度增长。如何充分利用这些庞杂的数据,发挥其应有的价值,逐渐成为企业信息化深入发展所面临的亟待解决的问题。
企业数据的特点
从数据的类型上看,企业数据中有80%是文件、邮件和图片等非结构化的形式,仅有20%的数据是以数据库等结构化数据类型存储。从数据的分布来看,98%的数据存储在企业内部的数据库服务器、文件服务器、已经各种办公终端上。企业仅会将2%的数据公布在互联网上。海量的数据、分散的存储、繁杂的格式、混杂的信息,使数据的使用的变得困难。
企业面临的主要问题
企业数据的这些特点使其不像传统数据库数据那样便于访问和检索,特别是对非结构化数据的处理,是传统检索技术无法逾越的障碍。实际工作中,企业主要被以下三个问题所困扰:
# 不知道需要的数据已经存在
# 数据知道有却找不到
# 各种信息混在一起不易提取使用
这会使宝贵的数据无法发挥其应有的价值,无谓的投入人力财力完成重复的工作,数据的使用效率低下。这正是『智海』企业搜索所要解决的问题。
二、『智海』让数据信手拈来
『智海』企业搜索系统以多年在信息检索领域的技术积累和当前文本挖掘技术的最新研究成果为基础,以灵活可扩展的用户管理和完备精细的访问控制为安全保证,覆盖关系数据库、文件管理系统、企业信息管理系统、本地文件系统、邮件系统、互联网数据等多种数据源,由简单的搜索框提供统一的检索、访问,以及数据整合等服务。面对纷繁复杂的各样数据,使有价值的数据仿佛就在指尖。
『智海』企业搜索的系统框架
『智海』企业搜索主要包括了数据索引、统一检索、访问控制、内容管理、文本挖掘、应用开发等六个主要部分。
三、『智海』的核心技术优势
『智海』企业搜索的主要由搜索引擎、访问控制、文本挖掘、数据处理四种核心技术作为支撑,以保证用户能够快速、安全,智能的获取数据。
搜索引擎
搜索引擎能对海量文本数据建立索引,提供基于结构化查询语句的数据检索查询系统,基于语义的文本分析和理解提供准确合理的信息检索结果。此外,系统还能满足在分布式硬件系统上扩展部署,以提高系统的响应性能。
# 索引性能10M/Sec
# 3G的索引文本每次查询仅需50ms
# 关键词、短语、布尔运算、以及自然语言等多种查询方式
# 提供多种排序模型,返回结果准确完备
# 高可扩展性,支持基于数据量的横向扩展和基于访问量的扩展技术
# 自动系统状态监控与负载均衡,保证稳定性
访问控制
访问控制实现了各类文档、资料、数据等信息的访问安全,采用分级安全体系来保障不同安全级别的信息必须经过授权才能够访问;通过对检索结果进行文档级安全和集合级安全的分类来实现授权体系的灵活与强大功能。
# 严格的基于生物特征的身份认证与登录方式
# 便于与第三方系统权限集成
# 基于角色的多级用户权限管理
# 多粒度的数据权限系统
文本挖掘
文本挖掘包括了智能分词、关键词提取、文本分类、文本聚类、文档摘要、相关性分析、倾向性分析、语义解析等八大功能构件,实现了较为完备文本挖掘底层算法,性能稳定高效。构件间可无缝连接封装,为上层应用提供方便易用的调用接口。
# 为检索系统提供智能扩展查询
# 根据需求解析非结构化数据,抽取有价值信息
# 支持GB18030和UTF8两种编码和中英文两种语言
# 分类速度达到1M/Sec,分类准确率一般能达到85%
# 配备大规模语料库,和多种分类模型
数据处理
数据处理支持所有主流数据库和文件系统的数据采集,内置文件解析器,可对PDF、OFFICE 、 HTML、 TXT 、音频、视频、图像等多种文件格式自动解析。同时依托文本挖掘组件根据需要抽取要检索的数据内容。
# 多数据源,多格式数据获取与解析
# 结构化/非结构化数据处理
# 智能数据抽取与理解
# 数据处理的流程和管理
四、『智海』企业搜索的应用架构
『智海』企业级搜索是企业内容检索的应用,能够通过对企业内容的有效整合,搭建一套安全的、统一的、可靠的检索入口访问企业内容。系统对需要处理海量文本、多媒体数据的企业、组织和部门应用价值巨大,能提高企业内容利用效率,提升企业产能和效益,以企业内容管理为基础,以应用开发为平台,全面帮助企业实现价值最大化。此外,系统集成了多种数据获取、处理、分析、管理技术,其中的各种组件可内嵌或拓展来满足多种应用场合的需求。