ensure timestamps are always valid
[clinton/thingy_grabber.git] / README.md
index 9063329..e78abff 100644 (file)
--- a/README.md
+++ b/README.md
@@ -3,7 +3,7 @@ Script for archiving thingiverse things. Due to this being a glorified webscrape
 
 ## Usage:
 ````
-usage: thingy_grabber.py [-h] [-l {debug,info,warning}] [-d DIRECTORY] {collection,thing,user,batch,version} ...
+usage: thingy_grabber.py [-h] [-l {debug,info,warning}] [-d DIRECTORY] [-f LOG_FILE] [-q] {collection,thing,user,batch,version} ...
 
 positional arguments:
   {collection,thing,user,batch,version}
@@ -20,6 +20,9 @@ optional arguments:
                         level of logging desired
   -d DIRECTORY, --directory DIRECTORY
                         Target directory to download into
+  -f LOG_FILE, --log-file LOG_FILE
+                        Place to log debug information to
+  -q, --quick           Assume date ordering on posts
 ````
 
 ### Things
@@ -27,7 +30,7 @@ optional arguments:
 This will create a directory named after the title of the thing(s) with the given ID(s) and download the files into it.
 
 ### Collections
-`thingy_grabber.py collection user_name collection_name1 collection_name2`
+`thingy_grabber.py  collection user_name collection_name1 collection_name2`
 Where `user_name` is the name of the creator of the collection (not nes. your name!) and `collection_name1...etc` are the name(s) of the collection(s) you want.
 
 This will create a series of directorys `user-collection/thing-name` for each thing in the collection.
@@ -57,6 +60,13 @@ user cwoac
 If you are using linux, you can just add an appropriate call to the crontab. If you are using windows, it's a bit more of a faff, but at least according to [https://www.technipages.com/scheduled-task-windows](this link), you should be able to with a command something like this (this is not tested!): `schtasks /create /tn thingy_grabber /tr "c:\path\to\thingy_grabber.py -d c:\path\to\output\directory batch c:\path\to\batchfile.txt" /sc weekly /d wed /st 13:00:00`
 You may have to play with the quotation marks to make that work though.
 
+### Quick mode
+All modes now support 'quick mode' (`-q`), although this has no effect for individual item downloads. As thingyverse sorts it's returned items in descending last modified order (I believe), once we have determined that we have the most recent version of a given thing in a collection, we can safely stop processing that collection as we should have _all_ the remaining items in it already. This _substantially_ speeds up the process of keeping big collections up to date and will noticably reduce the server load it generates.
+
+*Warning:* As it stops as soon as it finds an uptodate successful model, if you have unfixed failed downloads further down the list (for want of a better term), they will _not_ be retried.
+
+*Warning:* At the moment I have not conclusively proven to myself that the result is ordered by last updated and not upload time. Once I have verified this, I will probably be making this the default option.
+
 ## Examples
 `thingy_grabber.py collection cwoac bike`
 Download the collection 'bike' by the user 'cwoac'
@@ -75,6 +85,30 @@ python3, beautifulsoup4, requests, lxml
 - If there is an updated file, the old directory will be moved to `name_timestamp` where `timestamp` is the last upload time of the old files. The code will then copy unchanged files across and download any new ones.
 
 ## Changelog
+* v0.8.7
+  - Always, Always generate a valid time stamp.
+* v0.8.6
+  - Handle thingiverse returning no files for a thing gracefully.
+* v0.8.5
+  - Strip '.'s from the end of filenames
+  - If you fail a download for an already failed download it no longer throws an exception
+  - Truncates paths that are too long for windows
+* v0.8.4
+  - Just use unicode filenames - puts the unicode characters back in!
+  - Force selenium to shutdown firefox on assert and normal exit
+* v0.8.3
+  - Strip unicode characters from license text
+* v0.8.2
+  - Strip unicode characters from filenames
+* v0.8.1
+  - Fix bug on when all files were created / updated in October after the 9th.
+* v0.8.0
+  - Updated to support new thingiverse front end
+* v0.7.0
+  - Add new quick mode that stops once it has 'caught up' for a group
+* v0.6.3
+  - Caught edge case involving old dir clashes
+  - Add support for seperate log file
 * v0.6.2
   - Added catches for 404s, 504s and malformed pages
 * v0.6.1
@@ -90,8 +124,6 @@ python3, beautifulsoup4, requests, lxml
   - support `-d` to specify base download directory 
 
 ## Todo features (maybe):
-- log to file support
-- less perfunctory error checking / handling
 - attempt to use -failed dirs for resuming
 - gui?