搜索引擎在网站建设中的植入接口_新闻动态

专注于抚顺网站建设、抚顺网站制作、抚顺网页设计等网络服务

您所在的位置：网站首页 > 新闻中心

【搜索引擎在网站建设中的植入接口】

来源：www.fsjianzhan.com 发布者：抚顺小程序开发　发布时间：2020/10/31　

索引程序对抓取来的页面数据主要进行关键词提取、生成倒排索引、页面PageRank值计算、关键词与页面相关性、TrustRank值计算等处理,以备排名程序调用。这是搜索引擎能在极短时间内返回搜索结果的关键。其中我们最关心的是PR值和相关性

文档（Document）：以文本形式存在的存储对象。如：网页、Word、PDF、XML等不同格式的文件。
文档集合（Document Collection）：若干文档构成的集合。如：大量的网页。
文档编号（Document ID）：搜索引擎内部，唯一标识文档的唯一编号。
单词编号（Word ID）：搜索引擎内部，唯一标识单词的唯一编号。
那么做搜索引擎要做哪些内容呢，以前有人也这样问过nutch,lucene,hadoop之父Doug Cutting，他回答大致应该分为以下几部分：

1）攫取(fetching)：就是把被指向的网页下载下来。通常就是日常所说的网络爬虫的工作。

2）数据库：保存攫取的网页信息，比如那些网页已经被攫取，什么时候被攫取的以及他们又有哪些链接的网页等等。

下一篇：Asp.Net也能跨平台的


推荐文章

	如果提升网站运行的性能	[2020/10/28]
	我的ORM框架的优缺点	[2020/10/27]
	Asp.Net也能跨平台的	[2020/10/26]
	网站静态化的几种方法之一	[2020/10/25]
	日志中请求数据的详解	[2020/10/23]
	Windows中cmd的简单应用	[2020/10/22]