专注于抚顺网站建设、抚顺网站制作、抚顺网页设计等网络服务
网站首页 关于我们 新闻中心 软件开发 网站建设 小程序开发 公众号开发 成功案例 联系我们
您所在的位置:网站首页 > 新闻中心
【搜索引擎在网站建设中的植入接口】
来源:www.fsjianzhan.com 发布者:抚顺小程序开发  发布时间:2020/10/31 
 

索引程序对抓取来的页面数据主要进行关键词提取、生成倒排索引、页面PageRank值计算、关键词与页面相关性、TrustRank值计算等处理,以备排名程序调用。这是搜索引擎能在极短时间内返回搜索结果的关键。其中我们最关心的是PR值和相关性

文档(Document):以文本形式存在的存储对象。如:网页、Word、PDF、XML等不同格式的文件。
文档集合(Document Collection):若干文档构成的集合。如:大量的网页。
文档编号(Document ID):搜索引擎内部,唯一标识文档的唯一编号。
单词编号(Word ID):搜索引擎内部,唯一标识单词的唯一编号。
那么做搜索引擎要做哪些内容呢,以前有人也这样问过nutch,lucene,hadoop之父Doug Cutting,他回答大致应该分为以下几部分:


1)  攫取(fetching):就是把被指向的网页下载下来。通常就是日常所说的网络爬虫的工作。


2)  数据库:保存攫取的网页信息,比如那些网页已经被攫取,什么时候被攫取的以及他们又有哪些链接的网页等等。


 
下一篇:Asp.Net也能跨平台的
 
推荐文章

如果提升网站运行的性能 [2020/10/28]
我的ORM框架的优缺点 [2020/10/27]
Asp.Net也能跨平台的 [2020/10/26]
网站静态化的几种方法之一 [2020/10/25]
日志中请求数据的详解 [2020/10/23]
Windows中cmd的简单应用 [2020/10/22]
 
公司地址:沈阳市沈河区北站路77-1号光达大厦C座1336层
领航科技 版权所有 联系电话:13840539193 024-31281857
Copyright @ 2005-2020 fsjianzhan.com All Right Reserved
客服Q Q:2579047692
辽ICP备15019440号
首页 | 关于我们 | 新闻中心 | 域名注册 | 国内主机 | 云主机 | 美国主机 | 香港主机 | 软件开发 | 网站建设 | 成功案例 | 联系我们