Remove stale log files and speed up apache log sync
authorClinton Ebadi <clinton@unknownlamer.org>
Sun, 14 Jul 2013 05:58:53 +0000 (01:58 -0400)
committerClinton Ebadi <clinton@unknownlamer.org>
Sun, 14 Jul 2013 05:58:53 +0000 (01:58 -0400)
* Major speedup: The apache log directory was pointlessly being copied
  for each user on each sync so that it could be chowned and
  transferred. But there is no need: afs ignores the owner/group and
  unix permissions and root can read the keytabs. Eliminating the
  redundant copy sped the script by from ~9 minutes to ~2 minutes.
* Limit scope of each transfer to the per-host apache log
  directory. This could result in less stat()ing, but more importantly
  allows us to...
* Pass --delete to rsync to clean up stale log files. It turns out
  that for a very long time we've just been leaving the uncompressed
  logrotated apache logs behind, and never removing old log files. Fix
  that.

apache-sync-logs

index 7ad7668..4c38de6 100755 (executable)
@@ -1,6 +1,6 @@
 #!/bin/bash
 
 #!/bin/bash
 
-# invoke this as root on mire
+# invoked by cron as root on each web node
 
 exec 2>&1
 
 
 exec 2>&1
 
@@ -16,21 +16,17 @@ KEYTAB_DIR=/etc/keytabs/user.daemon
 AFS_USER_DIR=/afs/hcoop.net/user
 ERROR=no
 
 AFS_USER_DIR=/afs/hcoop.net/user
 ERROR=no
 
-# Sanify permissions so that we can safely create tmp directories and
-# run rsync.
-chmod -R u=rwX,g=rX,o=X $LOCAL_LOG_DIR
-
 # Iterate through logs for each user
 for A in $(find $LOCAL_LOG_DIR -mindepth 3 -maxdepth 3 -print); do
     USER=`basename $A`
     PATHBITS=`echo $USER | head -c 1`/`echo $USER | head -c 2`/$USER
     USER_HOME=$AFS_USER_DIR/$PATHBITS
 # Iterate through logs for each user
 for A in $(find $LOCAL_LOG_DIR -mindepth 3 -maxdepth 3 -print); do
     USER=`basename $A`
     PATHBITS=`echo $USER | head -c 1`/`echo $USER | head -c 2`/$USER
     USER_HOME=$AFS_USER_DIR/$PATHBITS
-    LOG_SRC=$A/apache/log
-    LOG_DEST=$USER_HOME/.logs/apache/
-    TMP_DEST=$LOG_SRC.tmp
+    LOG_SRC=$A/apache/log/$(hostname)
+    LOG_DEST=$USER_HOME/.logs/apache/$(hostname)
 
     # Skip deleted or empty log directories
 
     # Skip deleted or empty log directories
-    if test ! -d "$LOG_SRC" || ! ls "$LOG_SRC"/*/*/*.log >/dev/null 2>&1; then
+    # Possible inefficiency? (ls entire directory*400+ dirs)
+    if test ! -d "$LOG_SRC" || ! ls "$LOG_SRC"/*/*.log >/dev/null 2>&1; then
         if test "$VERBOSE" = "true"; then
                echo "Skipping $USER (deleted or empty log dir $LOG_SRC)"
         fi
         if test "$VERBOSE" = "true"; then
                echo "Skipping $USER (deleted or empty log dir $LOG_SRC)"
         fi
@@ -38,6 +34,7 @@ for A in $(find $LOCAL_LOG_DIR -mindepth 3 -maxdepth 3 -print); do
     fi
 
     # Skip people who have unreadable log subdirectories
     fi
 
     # Skip people who have unreadable log subdirectories
+    # This test is broken! --clinton
     if test -d "$USER_HOME/.logs" && \
         ! ls "$USER_HOME/.logs" >/dev/null 2>&1; then
         if test "$VERBOSE" = "true"; then
     if test -d "$USER_HOME/.logs" && \
         ! ls "$USER_HOME/.logs" >/dev/null 2>&1; then
         if test "$VERBOSE" = "true"; then
@@ -57,28 +54,23 @@ for A in $(find $LOCAL_LOG_DIR -mindepth 3 -maxdepth 3 -print); do
     if test "$VERBOSE" = "true"; then
         echo
         echo "=============================================================================="
     if test "$VERBOSE" = "true"; then
         echo
         echo "=============================================================================="
-        echo "syncing logs for $USER from $A"
+        echo "syncing logs for $USER from $LOG_SRC"
         echo "  to $LOG_DEST ..."
     fi
 
         echo "  to $LOG_DEST ..."
     fi
 
-    if test ! -d "$LOG_DEST"; then
-#        echo "Error: $LOG_DEST does not exist, please make it"
+    if test ! -d "$USER_HOME/.logs/apache"; then
+        echo "Error: $USER_HOME/.logs/apache does not exist, please make it"
 #        ERROR=yes
 # We will assume that people know what they are doing when they
 # delete their ~/.logs/apache directory ....
 #        ERROR=yes
 # We will assume that people know what they are doing when they
 # delete their ~/.logs/apache directory ....
+# This is perhaps a bad assumption --clinton
         if test "$VERBOSE" = "true"; then
                echo "Skipping $USER (no $LOG_DEST directory)"
         fi
         continue
     else
         if test "$VERBOSE" = "true"; then
                echo "Skipping $USER (no $LOG_DEST directory)"
         fi
         continue
     else
-        rm -fr $TMP_DEST
-        cp -r $LOG_SRC $TMP_DEST
-        chown -R $USER:nogroup $TMP_DEST
-        chmod -R u=rwX,go=X $TMP_DEST
-        sudo -u $USER k5start -qtU -f $KEYTAB_DIR/$USER \
-            -- rsync -a $TMP_DEST/ $LOG_DEST/
-        rm -fr $TMP_DEST
-        test "$VERBOSE" = "true" && echo "  done."
+       k5start -qtU -f $KEYTAB_DIR/$USER -- rsync -a -v --no-owner --no-group --delete $LOG_SRC/ $LOG_DEST/
+       test "$VERBOSE" = "true" && echo "  done."
     fi
 done
 
     fi
 done