博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫程序cookie和proxy的解决方法
阅读量:5144 次
发布时间:2019-06-13

本文共 3430 字,大约阅读时间需要 11 分钟。

作为一个合理的爬虫程序,cookie和proxy是必须解决的问题, 相信很多朋友都遇到过类似问题。

wininet.dll中包含很多win32下和网络有关的函数,包括internet,ftp,cookie,Proxy等,比如百度知道和新浪微博的登陆信息可以保存N天,你在登陆后把系统时间改为2天后,登陆信息就失效了,使用InternetSetCookie可以自己设置过期日期。 首先在IE中登陆,登陆时选择信息保存2周,然后运行如下代码,运行之后你可以把日期调整到2012年看效果:

测试结果:应用以下代码不必担心cookie过期的问题,广大虫友们让你的爬虫强大起来吧!

using System;

using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Windows.Forms;
using System.Runtime.InteropServices;
using System.Text.RegularExpressions;
using Common;
using mshtml;

namespace spider

{
    public partial class WininetTest : Form
    {

        /// <summary>

        /// 获取cookie        

        /// </summary>

        [DllImport("wininet.dll", CharSet = CharSet.Auto, SetLastError = true)]
        public static extern bool InternetGetCookie(string url, string name, StringBuilder data, ref int dataSize);
        /// <summary>  
        /// 设置cookie  
        /// </summary>  
        [DllImport("wininet.dll", CharSet = CharSet.Auto, SetLastError = true)]
        public static extern bool InternetSetCookie(string lpszUrlName, string lbszCookieName, string lpszCookieData);

        public WininetTest()
        {
            InitializeComponent();
        }

        private void WininetTest_Load(object sender, EventArgs e)

        {
           //string url = "";
           string url = "";
          // string url = "";

     

            this.webBrowser.Navigate(url);

        }

        private void btnGetCookie_Click(object sender, EventArgs e)

        {
            this.txtCookie.Text = GetCookie();

        }

        private void btnSetCookie_Click(object sender, EventArgs e)

        {
            删除旧的
            foreach (string fileName in System.IO.Directory.GetFiles(System.Environment.GetFolderPath(Environment.SpecialFolder.Cookies)))
            {

               if (fileName.ToLower().IndexOf("zhidao") > 0)

                {

                    System.IO.File.Delete("zhidao");

               }

              //  if (fileName.ToLower().IndexOf("soso") > 0)

               // {

                //    System.IO.File.Delete("soso");

              //  }

            }

            //生成新的  

            foreach (string c in GetCookie().Split(';'))

            {

                string[] item = c.Split('=');

                if (item.Length == 2)
                {
                    string name = item[0];
                    string value = item[1] + ";expires=Sun,22-Feb-2099 00:00:00 GMT";
                    InternetSetCookie(webBrowser.Url.ToString(), name, value);
                    this.txtNewCookie.Text += name + "=" + value + ";";
                }
               
            }
           
        }

        public string GetCookie()

        {
            //获取旧的  

            StringBuilder cookie = new StringBuilder(new String(' ', 2048));

          
            int datasize = cookie.Length;

            bool b = InternetGetCookie(webBrowser.Url.ToString(), null, cookie, ref datasize);

            if (b)
            {
                return webBrowser.Document.Cookie;
            }
            return null;
        }

        private void btnSave_Click(object sender, EventArgs e)

        {
            string cookie = this.txtNewCookie.Text;
        }

      }

}

以下是proxy关键代码.

 public class ProxyHelper

    {
        [DllImport("wininet.dll", SetLastError = true)]
        private static extern bool InternetSetOption(IntPtr hInternet, int dwOption, IntPtr lpBuffer, int lpdwBufferLength);

        public void RefreshIESettings(string strProxy)

        {
            const int INTERNET_OPTION_PROXY = 38;
            const int INTERNET_OPEN_TYPE_PROXY = 3;

            Struct_INTERNET_PROXY_INFO struct_IPI;

            // Filling in structure

            struct_IPI.dwAccessType = INTERNET_OPEN_TYPE_PROXY;
            struct_IPI.proxy = Marshal.StringToHGlobalAnsi(strProxy);
            struct_IPI.proxyBypass = Marshal.StringToHGlobalAnsi("local");

            // Allocating memory

            IntPtr intptrStruct = Marshal.AllocCoTaskMem(Marshal.SizeOf(struct_IPI));

            // Converting structure to IntPtr

            Marshal.StructureToPtr(struct_IPI, intptrStruct, true);

            bool iReturn = InternetSetOption(IntPtr.Zero, INTERNET_OPTION_PROXY, intptrStruct, Marshal.SizeOf(struct_IPI));

        }

    }

由于soso问问的cookie是在服务端有独立的运行模式。目前没有找到合适的解决方案。

转载于:https://www.cnblogs.com/nevergiveupblog/archive/2011/06/23/2088139.html

你可能感兴趣的文章
SQL语法(3)
查看>>
在js在添版本号
查看>>
sublime3
查看>>
Exception Type: IntegrityError 数据完整性错误
查看>>
Nuget:Newtonsoft.Json
查看>>
CI控制器调用内部方法并载入相应模板的做法
查看>>
Hdu - 1002 - A + B Problem II
查看>>
HDU - 2609 - How many
查看>>
每天CookBook之Python-003
查看>>
每天CookBook之Python-004
查看>>
Android设置Gmail邮箱
查看>>
StringBuffer的用法
查看>>
js编写时间选择框
查看>>
PHP压缩文件操作
查看>>
Java数据结构和算法(四)--链表
查看>>
JIRA
查看>>
小技巧——直接在目录中输入cmd然后就打开cmd命令窗口
查看>>
深浅拷贝(十四)
查看>>
由级别和性格特征将程序员分类 ---看看你属于哪一种
查看>>
HDU 6370(并查集)
查看>>