MVC学习笔记索引帖

Url Seen用来做url去重。对于一个大的爬虫系统，它可能已经有百亿或者千亿的url，新来一个url如何能快速的判断url是否已经出现过非常关键。因为大的爬虫系统可能一秒钟就会下载几千个网页，一个网页一般能够抽取出几十个url，而每个url都需要执行去重操作，可想每秒需要执行大量的去重操作。因此Url Seen是整个爬虫系统中非常有技术含量的一个部分。

阅读全文 »

【爬虫学习笔记】基于 SimHash 的去重复处理模块ContentSeen的构建

发表于 2016-09-13 更新于 2019-03-12 分类于学习笔记阅读次数： Valine：
本文字数： 5k 阅读时长 ≈ 5 分钟

Internet上的一些站点常常存在着镜像网站（mirror），即两个网站的内容一样但网页对应的域名不同。这样会导致对同一份网页爬虫重复抓取多次。为了避免这种情况，对于每一份抓取到的网页，它首先需要进入ContentSeen模块。该模块会判断网页的内容是否和已下载过的某个网页的内容一致，如果一致，则该网页不会再被送去进行下一步的处理。这样的做法能够显著的降低爬虫需要下载的网页数。至于如果判断两个网页的内容是否一致，一般的思路是这样的：并不会去直接比较两个网页的内容，而是将网页的内容经过计算生成FingerPrint（指纹），通常FingerPrint是一个固定长度的字符串，要比网页的正文短很多。如果两个网页的FingerPrint一样，则认为它们内容完全相同。

为了完成这一模块，首先我们需要一个强大的指纹算法，将我们的网页内容计算成指纹存入数据库，下次直接判断指纹在保存前通过指纹的对比即可成功完成去重复操作。

阅读全文 »

【爬虫学习笔记】Url过滤模块UrlFilter

发表于 2016-09-26 更新于 2019-03-12 分类于学习笔记阅读次数： Valine：
本文字数： 920 阅读时长 ≈ 1 分钟

Url Filter则是对提取出来的URL再进行一次筛选。不同的应用筛选的标准是不一样的，比如对于baidu/google的搜索，一般不进行筛选，但是对于垂直搜索或者定向抓取的应用，那么它可能只需要满足某个条件的url，比如不需要图片的url，比如只需要某个特定网站的url等等。Url Filter是一个和应用密切相关的模块。

using System;
using System.Collections.Generic;
using Crawler.Common;

namespace Crawler.Processing
{
    public class UrlFilter
    {
        public static List<Uri> RemoveByRegex(List<Uri> uris, params string[] regexs)
        {
            var uriList=new List<Uri>(uris);
            for (var i = 0; i < uriList.Count; i++)
            {
                foreach (var r in regexs)
                {
                    if (!RegexHelper.IsMatch(uriList[i].ToString(), r)) continue;
                    uris.RemoveAt(i);
                    i--;
                }
            }
            return uriList;
        }

        public static List<Uri> SelectByRegex(List<Uri> uris, params string[] regexs)
        {
            var uriList = new List<Uri>();
            foreach (var t in uris)
                foreach (var r in regexs)
                    if (RegexHelper.IsMatch(t.ToString(), r))
                        if(!uriList.Contains(t))
                            uriList.Add(t);
            return uriList;
        }

    }
}

【爬虫学习笔记】ScrapySharp简单封装为Requester

发表于 2016-09-13 更新于 2019-03-12 分类于学习笔记阅读次数： Valine：
本文字数： 1.3k 阅读时长 ≈ 1 分钟

为了便于使用及日后的扩展，将Scrapy简单封装为了Requester。

阅读全文 »

【爬虫学习笔记】DNS解析服务增加缓存机制

发表于 2016-09-11 更新于 2019-03-12 分类于学习笔记阅读次数： Valine：
本文字数： 2.2k 阅读时长 ≈ 2 分钟

之前我们已经基于ARSoft.Tools.Net简单实现了DNS解析模块的功能，但是当性能要求升高时，每一次爬取都要进行DNS请求，甚至很有可能一段时间内每次请求的都是相同的地址，频繁的DNS请求就会成为性能瓶颈，所以我们要通过缓存机制将DNS解析结果缓存下来，降低DNS解析操作，提升系统性能。

阅读全文 »