数(shu)据智能采集平台(tai)全网捕获所需互(hu)联网公开信息,所见即所得式采集,为用户提供持续获取(qu)外部海量(liang)数(shu)据的服务。通过(guo)数(shu)据治理(li)算法组件,对数(shu)据进行清洗、治理(li),保证数(shu)据质量(liang),为数(shu)据应用提供有效支撑。
支持对定向网站、社(she)交平台等数据源(yuan)进(jin)行配置管理。
将(jiang)采集(ji)的(de)定向网站、社交平台转换为采集(ji)任务(wu),协调监(jian)控每个任务(wu)队列的(de)情况。
支(zhi)持对采集任务异常情况进(jin)行监(jian)控(kong)预(yu)警。
支持对(dui)信息进行(xing)初步(bu)处理(li)后,将其结构化入库,数据治理(li)算法组件(jian)包括:标(biao)题抽(chou)(chou)取、新闻正文抽(chou)(chou)取、人名(ming)地名(ming)抽(chou)(chou)取、热词(ci)发现(xian)、自动聚类等。
数(shu)(shu)据采(cai)集(ji)采(cai)用先进的(de)分(fen)布式架构集(ji)群部(bu)署,可以抓取(qu)海量(liang)的(de)网页,消除单点抓取(qu)瓶颈。数(shu)(shu)据支(zhi)持缓存(cun)处理和分(fen)库存(cun)储(chu),保证采(cai)集(ji)系(xi)统稳定高效运行(xing)。
采用(yong)流式计算技术,对(dui)(dui)用(yong)户的数据(ju)请求能够(gou)秒级快速响应(ying)。智能的调(diao)度机制,对(dui)(dui)于实时性(xing)要求较高(gao)的源网站(zhan)优(you)先调(diao)度处理。
采用先进的(de)数(shu)据采集容(rong)错机制,确保数(shu)据传(chuan)输的(de)性(xing)能(neng)和正确性(xing)。对于传(chuan)输错误的(de)数(shu)据能(neng)够进行(xing)重(zhong)传(chuan)。
不展示!