爬虫技术抓取针灸文献相关信息

为了收集整理针灸推拿类文献信息,中医药学科学数据中心使用爬虫技术抓取网络上文献题录信息并进行整理收集工作。其中题录文献信息包括:文献题目、作者、作者单位、刊名、英文刊名、年卷期、关键词等等内容。网络爬虫是一种按照一定的规则,自动地抓取互联网信息的工具。随着网络的迅速发展,互联网成为大量文献信息的载体,如何有效地提取并利用这些信息成为文献加工工作一个重要问题。因此,抓取相关网页资源的爬虫技术应运而生。它根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息。将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询提供数据来源。

友情链接 更多>>