使用scrapy爬取新浪电影库，只能爬取到前两页内容，后边全是重复页面

黑剑汽***

使用scrapy爬取新浪电影库，结果前两页正常，之后的页面全是重复，刚开始以为是时间戳的问题，后来加入时间戳还是有问题，求解答……（新浪电影库网址：http://ent.sina.com.cn/ku/movie_search_index.d.html?page=1&cTime=1547163277&pre=next）
import scrapyfrom sina.items import MovieItemfrom scrapy_splash import SplashRequestimport timeimport reclass SinaspiderSpider(scrapy.Spider): name = 'sinaspider' allowed_domains = ['ent.sina.com.cn'] start_urls = ['http://ent.sina.com.cn/ku/movie_search_index.d.html?page=1&cTime=1546971817&pre=next'] def start_requests(self): for url in self.start_urls: yield SplashRequest(url,args={'images': 0, 'timeout': 3}) def parse(self, response): ''' 1。获取文章列表页中的文章url并交给scrapy下载后并进行解析 2。获取下一页的url并交给scrapy，下载完成后交给parse ''' for sel in response.css('ul.tv-list li'): director = sel.css('.item-intro.left p:nth-child(3)::text').extract_first() yield {'director': director} href = response.css('.next-t.nextPage::attr(href)').extract_first() if href: t = str(int(time.time()*1000)) temp = re.match('.*page=(\d+).*', href) p = int(temp.group(1))+1 url = 'http://ent.sina.com.cn/ku/movie_search_index.d.html?page='+str(p)+'&cTime='+t+'&pre=next' yield SplashRequest(url, args={'images': 0, 'timeout': 3})

已有账号？

找人解决需求

使用scrapy爬取新浪电影库，只能爬取到前两页内容，后边全是重复页面

热门问答

黑剑汽***

今日需求悬赏

今日问答求助

发布任务需求已有1031167位用户正在使用天盟网服务

新手帮助

平台规则

关于天盟

一键快捷导航

微信公众号

手机客户端