• 手机版

    扫码体验手机版

  • 微信公众号

    扫码关注公众号

国内首家协议开发

软芯音视解码保护平台

在线
客服

发布
需求

在线
聊天

天盟
APP

天盟APP下载

关注
微信

微信扫一扫访问
顶部

使用scrapy爬取新浪电影库,只能爬取到前两页内容,后边全是重复页面

使用scrapy爬取新浪电影库,结果前两页正常,之后的页面全是重复,刚开始以为是时间戳的问题,后来加入时间戳还是有问题,求解答……(新浪电影库网址:http://ent.sina.com.cn/ku/movie_search_index.d.html?page=1&cTime=1547163277&pre=next)
import scrapyfrom sina.items import MovieItemfrom scrapy_splash import SplashRequestimport timeimport reclass SinaspiderSpider(scrapy.Spider):    name = 'sinaspider'    allowed_domains = ['ent.sina.com.cn']    start_urls = ['http://ent.sina.com.cn/ku/movie_search_index.d.html?page=1&cTime=1546971817&pre=next']    def start_requests(self):        for url in self.start_urls:            yield SplashRequest(url,args={'images': 0, 'timeout': 3})    def parse(self, response):        '''        1。获取文章列表页中的文章url并交给scrapy下载后并进行解析        2。获取下一页的url并交给scrapy,下载完成后交给parse        '''               for sel in response.css('ul.tv-list li'):            director = sel.css('.item-intro.left p:nth-child(3)::text').extract_first()            yield {'director': director}        href = response.css('.next-t.nextPage::attr(href)').extract_first()        if href:            t = str(int(time.time()*1000))            temp = re.match('.*page=(\d+).*', href)            p = int(temp.group(1))+1            url = 'http://ent.sina.com.cn/ku/movie_search_index.d.html?page='+str(p)+'&cTime='+t+'&pre=next'            yield SplashRequest(url, args={'images': 0, 'timeout': 3})

免责声明:本内容仅代表回答会员见解不代表天盟观点,请谨慎对待。

版权声明:作者保留权利,不代表天盟立场。

使用道具 举报

发新帖

发布任务需求已有1031167位用户正在使用天盟网服务

发布分类: *
任务预算: *
需求内容: *
手机号码: *
任务商家报价为
  • 预算价 :
  • 成交价 :
  • 完工期 :
  • 质保期 :

* 最终任务项目以服务商报价、双方协商为准!