main/tools/scrapers/flickrgrab.py

import requests, re, json, sys

import lxml.html
from lxml import etree
from lxml.etree import XMLParser

# Dependencies: requests, lxml
# Usage: python flickrgrab.py http://url.to.flickr/profile/page
# Saves to working directory

# http://stackoverflow.com/questions/16694907/how-to-download-large-file-in-python-with-requests-py
def DownloadFile(url):
	local_filename = url.split('/')[-1]
	r = requests.get(url, stream = True) # here we need to set stream = True parameter
	with open(local_filename, 'wb') as f:
		for chunk in r.iter_content(chunk_size=1024): 
			if chunk: # filter out keep-alive new chunks
				f.write(chunk)
				f.flush()
	return local_filename

pagedata = requests.get(sys.argv[1]).text

parser = XMLParser(ns_clean=True, recover=True)
doc = lxml.html.fromstring(pagedata)

elem = doc.xpath("//div[@class='Pages']/@data-page-count")

if len(elem) > 0:
	page_count = int(elem[0])
else:
	print "No page count found"
	exit(1)

print "Retrieving %d pages worth of images..." % page_count

total_done = 0

for i in xrange(1, page_count + 1):
	pictures = requests.get("%s?data=1&page=%d&append=1" % (sys.argv[1], i)).json()
	
	for picture in pictures:
		try:
			filename = picture['sizes']['o']['file']
			url = picture['sizes']['o']['url']
			DownloadFile(url)
			
			total_done += 1
			print "Downloaded %d full-size images..." % total_done
		except KeyError, e:
			print "Skipped image because of missing URL or filename"
			
	print "Flipping to page %d..." % i
Add Flickr mass-downloader 11 years ago			`import requests, re, json, sys`

			`import lxml.html`
			`from lxml import etree`
			`from lxml.etree import XMLParser`

			`# Dependencies: requests, lxml`
			`# Usage: python flickrgrab.py http://url.to.flickr/profile/page`
			`# Saves to working directory`

			`# http://stackoverflow.com/questions/16694907/how-to-download-large-file-in-python-with-requests-py`
			`def DownloadFile(url):`
			`local_filename = url.split('/')[-1]`
			`r = requests.get(url, stream = True) # here we need to set stream = True parameter`
			`with open(local_filename, 'wb') as f:`
			`for chunk in r.iter_content(chunk_size=1024):`
			`if chunk: # filter out keep-alive new chunks`
			`f.write(chunk)`
			`f.flush()`
			`return local_filename`

			`pagedata = requests.get(sys.argv[1]).text`

			`parser = XMLParser(ns_clean=True, recover=True)`
			`doc = lxml.html.fromstring(pagedata)`

			`elem = doc.xpath("//div[@class='Pages']/@data-page-count")`

			`if len(elem) > 0:`
			`page_count = int(elem[0])`
			`else:`
			`print "No page count found"`
			`exit(1)`

			`print "Retrieving %d pages worth of images..." % page_count`

			`total_done = 0`

			`for i in xrange(1, page_count + 1):`
			`pictures = requests.get("%s?data=1&page=%d&append=1" % (sys.argv[1], i)).json()`

			`for picture in pictures:`
			`try:`
			`filename = picture['sizes']['o']['file']`
			`url = picture['sizes']['o']['url']`
			`DownloadFile(url)`

			`total_done += 1`
			`print "Downloaded %d full-size images..." % total_done`
			`except KeyError, e:`
			`print "Skipped image because of missing URL or filename"`

			`print "Flipping to page %d..." % i`