索引程序对抓取来的页面数据主要进行关键词提取、生成倒排索引、页面PageRank值计算、关键词与页面相关性、TrustRank值计算等处理,以备排名程序调用。这是搜索引擎能在极短时间内返回搜索结果的关键。其中我们最关心的是PR值和相关性
文档(Document):以文本形式存在的存储对象。如:网页、Word、PDF、XML等不同格式的文件。
文档集合(Document Collection):若干文档构成的集合。如:大量的网页。
文档编号(Document ID):搜索引擎内部,唯一标识文档的唯一编号。
单词编号(Word ID):搜索引擎内部,唯一标识单词的唯一编号。
那么做搜索引擎要做哪些内容呢,以前有人也这样问过nutch,lucene,hadoop之父Doug Cutting,他回答大致应该分为以下几部分:
1) 攫取(fetching):就是把被指向的网页下载下来。通常就是日常所说的网络爬虫的工作。
2) 数据库:保存攫取的网页信息,比如那些网页已经被攫取,什么时候被攫取的以及他们又有哪些链接的网页等等。
|