算法设计与分析课程设计
项目地址quantumxiaol/NEU_Algorithm_coursedesign
1)(东北大学 计算机学院, 沈阳市 10000)
摘 要 随着计算机技术与互联网技术的飞速发展,越来越丰富的信息呈现在用户面前,但同时伴随的问题是用户越来越难以获得其最需要的信息。本次课程设计旨在设计与实现一个小型搜索引擎系统,主要分为四部分:首先需要利用爬虫爬取网页信息;其次进行分词,再应用字典树查重与统计词频并编号,生成临时索引;之后对单词编号进行希尔排序、归并排序与多路平衡归并排序并整合,生成倒排索引;最后根据倒排索引查询结果,并用堆排序对网页编号出现次序排序,最后用二分查找查询结果并输出。
关键词 搜集、分词、字典树、临时索引、希尔排序、归并排序、多路平衡归并排序、倒排索引、堆排序、二分查找
东北大学算法分析与设计课程设计(2021.06.10)
课题任务即不调用算法库的条件下,实现一个小型搜索引擎,分块完成搜集、分析、索引、查询四部分。 其中: 搜集指利用爬虫爬取网页信息;
分析是对网页内容抽取、分词,构建临时索引;
索引是在临时索引的基础上,进行排序与整合,构建倒排索引;
查询是响应用户的请求,根据倒排索引获取相关网页,计算网页排名,返回查询结果给用户。
在搜集阶段,将提供的news.csv处理网页文件,以txt形式存储网页;在分析阶段,将搜集的网页文件处理为词频文件,并保存为txt文件;在索引阶段,将词频文件处理为倒排索引文件,并保存为txt文件;在查询阶段,处理用户输入的关键词,并计算相关网页的排名,返回给用户。
