Rewrite University of Reddit crawler - now with less hacks!

12 years ago · 98340b38a0
parent 8bbffb9429
commit 98340b38a0
3 changed files with 56 additions and 101 deletions
--- a/updater/scrapers/ureddit.py
+++ b/updater/scrapers/ureddit.py
@ -0,0 +1,55 @@
 import datetime, json, simplejson, sys, re
 import requests
 import shared
 class UniversityOfReddit(shared.Scraper):
 	provider_id = 3
 	def run(self):
 		data = requests.get("http://ureddit.com/api?type=catalog").json()
 		for category in data["categories"]:
 			self.parse_category(category['id'], category['value'])
 	def parse_category(self, category_id, category_name):
 		try:
 			data = requests.get("http://ureddit.com/api?type=category&id=%s" % category_id).json()
 		except simplejson.decoder.JSONDecodeError, e:
 			return
 		for _class in data["classes"]:
 			if not self.topic_exists(_class['id']):
 				self.parse_class(_class['id'], _class['value'], category_name)
 			else:
 				self.env.log("Skipped class %s" % _class['value'])
 	def parse_class(self, class_id, class_name, category_name):
 		try:
 			data = requests.get("http://ureddit.com/api?type=class&id=%s" % class_id).json()
 		except simplejson.decoder.JSONDecodeError, e:
 			self.env.log("Skipped %s due to JSON formatting error" % class_name, True)
 			return
 		if data["status"] == '1' or data["status"] == '3' or data["status"] == '5':
 			try:
 				creation_date = datetime.datetime.strptime(data["created"], '%Y-%m-%d %H:%M:%S')
 			except ValueError, e:
 				creation_date = None
 			class_page = data["url"]
 			inserted, topic_id = self.insert_topic(str(class_id), data["name"], needs_enrollment=True, description=data["description"], creation_date=creation_date)
 			if inserted:
 				self.env.log("Inserted topic %s" % data["name"])
 			else:
 				self.env.log("Skipped topic %s" % data["name"])
 			inserted, item_id = self.insert_item(str(class_id), data["name"], class_page, itemtype=self.COURSE, has_topic=True, topic_id=topic_id, date=creation_date, description=data["description"])
 			if inserted:
 				self.env.log("Inserted item %s" % data["name"])
 			else:
 				self.env.log("Skipped item %s" % data["name"])
 		else:
 			self.env.log("Skipped %s due to status (%s)" % (data["name"], data["status_description"]))
--- a/updater/update.py
+++ b/updater/update.py
@ -4,5 +4,5 @@ import shared, scrapers
 env = shared.Environment()
 env.connect(host="localhost", username="root", password="", database="learn")
-scraper = env.Scraper(scrapers.KhanAcademy)
+scraper = env.Scraper(scrapers.UniversityOfReddit)
 scraper.run()
--- a/updater/update_ureddit.py
+++ b/updater/update_ureddit.py
@ -1,100 +0,0 @@
 import requests
 import oursql
 import datetime
 import json, simplejson
 import lib
 import re
 class UredditCrawler(object):
 	def __init__(self):
 		self.db = lib.Database("localhost", "root")
 	def parse_catalog(self):
 		data = requests.get("http://ureddit.com/api?type=catalog").json()
 		for category in data["categories"]:
 			self.parse_category(category['id'], category['value'])
 	def parse_category(self, category_id, category_name):
 		try:
 			data = requests.get("http://ureddit.com/api?type=category&id=%s" % category_id).json()
 		except simplejson.decoder.JSONDecodeError, e:
 			return
 		for _class in data["classes"]:
 			if not self.db.topic_exists(3, _class['id']):
 				self.parse_class(_class['id'], _class['value'], category_name)
 			else:
 				print "Skipped class %s" % _class['value']
 	def parse_class(self, class_id, class_name, category_name):
 		try:
 			data = requests.get("http://ureddit.com/api?type=class&id=%s" % class_id).json()
 		except simplejson.decoder.JSONDecodeError, e:
 			print "Skipped %s due to JSON formatting error" % class_name
 			return
 		try:
 			creation_date = datetime.datetime.strptime(data["created"], '%Y-%m-%d %H:%M:%S')
 		except ValueError, e:
 			creation_date = None
 		# Hack to get the class page as this isn't returned by the API
 		html_data = requests.get("http://ureddit.com/show_class.php?id=%s&show=true" % class_id).text
 		matches = re.search('<a href="([^"]+)"><button class="button">class page<\/button><\/a>', html_data)
 		if matches is not None:
 			class_page = "http://ureddit.com%s" % matches.group(1)
 		else:
 			class_page = None
 		inserted, topic_id = self.db.insert_topic(3, str(class_id), data["name"], needs_enrollment=True, description=data["description"], creation_date=creation_date)
 		if inserted:
 			print "Inserted %s" % data["name"]
 		else:
 			print "Skipped %s" % data["name"]
 		inserted, item_id = self.db.insert_item(3, str(class_id), True, self.db.COURSE, data["name"], class_page, topic_id=topic_id, date=creation_date, description=data["description"])
 		if inserted:
 			print "\tInserted %s" % data["name"]
 		else:
 			print "\tSkipped %s" % data["name"]
 	def retrieve_dataset(self):
 		#self.dataset = requests.get("https://www.coursera.org/maestro/api/topic/list?full=1").json()
 		self.dataset = json.loads(open("coursera.json", "r").read())
 	def parse_dataset(self):
 		for item in self.dataset:
 			self.process_item(item)
 	def process_item(self, item):
 		inserted, rowid = self.db.insert_topic(2, str(item["id"]), item["name"], description=item["short_description"], needs_enrollment=True)
 		if inserted:
 			print "Inserted %s" % item["name"]
 		else:
 			print "Skipped %s" % item["name"]
 		for course in item["courses"]:
 			self.process_course(course, rowid)
 	def process_course(self, course, topicid):
 		try:
 			start_date = datetime.datetime(course["start_year"], course["start_month"], course["start_day"])
 			title = "%s: %s-%s-%s" % (course["name"], str(course["start_year"]).zfill(4), str(course["start_month"]).zfill(2), str(course["start_day"]).zfill(2))
 		except TypeError, e:
 			start_date = None
 			title = "%s (date undetermined)" % (course["name"])
 		inserted, itemid = self.db.insert_item(2, str(course["id"]), True, self.db.COURSE, title, course["home_link"], description=course["certificate_description"], start_date=start_date, topic_id=topicid)
 		if inserted:
 			print "\tInserted %s" % title
 		else:
 			print "\tSkipped %s" % title
 crawler = UredditCrawler()
 crawler.parse_catalog()