信息全面获取与整合组件产品开发,信息全面获取与整合组件的区别。

信息全面获取与整合组件

» 组件定位 
    面向用户的需求,量身定制互联网数据采集系统,并提供一站式的数据采集、信息结构化抽取、数据整合和数据管理服务.
» 功能介绍 
    » 数据爬取子系统 
    利用站点监控、元搜索、主题聚焦采集相结合的方式,保证数据采集的快、全、准,并实现定向、定题的个性化可定制的数据采集服务系统;同时系统具有良好的采集服务器的可扩充性,使用多采集服务器形成采集集群,采用动态IP切换策略,实现分布式协同采集并实现大规模网站的实时监控; 

  • 数据采集范围:新闻、论坛、博客、微博客、评论信息、SNS社区、IM群、wiki、百科;  
  • 数据采集语种:中文、英文、日文、韩文、藏文、维文等小语种;  
  • 数据采集类型:网页、图片、视频、pdf、office等文档格式。 

    » 数据处理子系统 

  • 网页编码的自动识别和转换,实现多语种网页的编码的归一化处理;  
  • 支持网页,图片及多媒体信息的结构化自动提取;   
  • 可对采集网页进行自动分类,准确率到90%以上,并提供智能分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类 结构和生成特征模板;  
  • 通过相似性文档发现对文本数据进行排重,并通过转载来源抽取分析网页转载关系;  
  • 可自动生成网页摘要和抽取网页关键词。 

    » 数据服务子系统 

  • 可自动对用户设定的报警规则,进行信息报警;  
  • 根据用户的需求,实现满足不同需要的数据内容服务;

» 技术优势 

  • 数据采集快、全、准,支持用户个性化定制数据采集系统;  
  • 站点监控、元搜索、主题聚焦采集相结合,保证数据采集的快、全、准,三种方式互为补充,实现定向、定题和定向定题的个性化可定制的数据采集系统;  
  • 支持用户对站点、关键词等采集对象的进行扩充;  
  • 支持采集服务器的可扩充,多采集服务器形成采集集群,实现分布式协同采集,实现大规模网站的实时监控;  
  • 数据采集情况实时监测,便于用户查询和维护采集情况  
  • 系统后台定制了针对站点和针对抽取模板的可视化维护平台,通过平台用户能便捷地查询数据的采集情况,迅速发现和修复采集异常情况,海量数据的采集维护不再是难题。  
  • 整合了一系列网页信息抽取和处理的技术,一站式地为用户提供数据服务,帮助用户充分利用和有效管理数据  
  • 高准确率的信息抽取技术,通过机器学习和用户行为分析相结合的方式,能够持续准确且全面地挖掘文档中的实体,在国际评测语料ACE语料的实体抽取准确率达到85%以上;  
  • 可实现网络信息中的新人物、新组织、新事件的自动发现和识别; 

相关新闻

联系我们

联系我们

QQ:951076433

在线咨询:点击这里给我发消息

邮件:951076433@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

分享本页
返回顶部