• 手机版

    扫码体验手机版

  • 微信公众号

    扫码关注公众号

国内首家协议开发

软芯音视解码保护平台

在线
客服

发布
需求

在线
聊天

天盟
APP

天盟APP下载

关注
微信

微信扫一扫访问
顶部

[系统开发] python搜索引擎系统开发

tm195***发布 已通过手机认证
任务编号:5104406 悬赏任务200元 悬赏任务 : 按雇主需求进行任务后提交稿件,被采纳后即获得佣金。

python搜索引擎系统开发

距截止: 00天00时00分00秒 雇主已托管赏金:200
雇主发布需求 雇主托管佣金 服务商投稿 雇主开始选稿 任务完成

任务大厅共需1个合格投稿 | 每稿将获得200| 每人交稿次数不限 可多次任务

投诉举报 联系Ta 我来承接 已有1 个投稿 | 已采纳0 稿 | 拒绝0 稿 | 目前中标名额已满

任务需求:
搜索引擎系统主要分为三部分:信息采集模块、基于系统插件结构的主题过滤模块和基于ApacheSolr索引服务器的中文分词预处理模块。网络爬虫模块负责根据要爬虫的网页的URL集(预取列表)进行网页爬虫。在爬行过程中,提取并分析页面的脚本内容,用正则表达式匹配Ajax请求。如果包含Ajax请求,则使用htmlUnit来处理当前页面,以便在完成页面中获取JS的所有静态页面。主题过滤模块主要基于朴素贝叶斯算法,结合系统插件构建的特殊机制,实现主题过滤功能,达到主题爬虫的效果。信息预处理模块是将存储的Web内容解析为字段并将其转换为最基本的索引表示单元项(term)的过程。针对系统本身是面向英语的特点,在系统中添加中文分词插件,更好地实现检索策略的本质“关键词匹配”,然后建立反索引,对过滤后的词汇单元进行分析,达到快速检索信息的目的

使用道具 举报

全部参与1

未采纳

使用道具 举报

发新帖
tm195***

普通会员

发布任务需求已有1031284位用户正在使用天盟网服务

发布分类: *
任务预算: *
需求内容: *
手机号码: *
任务商家报价为
  • 预算价 :
  • 成交价 :
  • 完工期 :
  • 质保期 :

* 最终任务项目以服务商报价、双方协商为准!