2009-10-01 Carsten Dominik <carsten.dominik@gmail.com>
[bpt/emacs.git] / admin / unidata / unidata-gen.el
index 84fd888..9fee8e4 100644 (file)
@@ -1,5 +1,5 @@
 ;; unidata-gen.el -- Create files containing character property data.
-;; Copyright (C) 2005, 2006, 2007, 2008
+;; Copyright (C) 2005, 2006, 2007, 2008, 2009
 ;;   National Institute of Advanced Industrial Science and Technology (AIST)
 ;;   Registration Number H13PRO009
 
@@ -166,9 +166,8 @@ Property value is one of the following symbols:
      "Unicode decomposition mapping.
 Property value is a list of characters.  The first element may be
 one of these symbols representing compatibility formatting tag:
-  <font>, <noBreak>, <initial>, <medial>, <final>, <isolated>, <circle>,
-  <super>, <sub>, <vertical>, <wide>, <narrow>, <small>, <square>, <fraction>,
-  <compat>"
+  font, noBreak, initial, medial, final, isolated, circle, super,
+  sub, vertical, wide, narrow, small, square, fraction, compat"
      unidata-describe-decomposition)
     (decimal-digit-value
      6 unidata-gen-table-integer "uni-decimal.el"
@@ -179,9 +178,9 @@ Property value is an integer.")
      "Unicode numeric value (digit).
 Property value is an integer.")
     (numeric-value
-     8 unidata-gen-table-symbol "uni-numeric.el"
+     8 unidata-gen-table-numeric "uni-numeric.el"
      "Unicode numeric value (numeric).
-Property value is a symbol.")
+Property value is an integer or a floating point.")
     (mirrored
      9 unidata-gen-table-symbol "uni-mirrored.el"
      "Unicode bidi mirrored flag.
@@ -393,6 +392,34 @@ Property value is a character."
                 (setq first-char (1+ first-char))))
             this-val)))))
 
+;; Return a numeric-type (integer or float) character property value
+;; of CHAR.  VAL is the current value of (aref TABLE CHAR).
+
+(defun unidata-get-numeric (char val table)
+  (cond
+   ((numberp val)
+    val)
+   ((stringp val)
+    (let ((val-table (char-table-extra-slot table 4))
+         (first-char (lsh (lsh char -7) 7))
+         (str val)
+         (len (length val))
+         (idx 0)
+         this-val count)
+      (while (< idx len)
+       (setq val (aref str idx) idx (1+ idx)
+             count (if (< idx len) (aref str idx) 1))
+       (setq val (and (> val 0) (aref val-table (1- val)))
+             count (if (< count 128)
+                       1
+                     (prog1 (- count 128) (setq idx (1+ idx)))))
+       (dotimes (i count)
+         (aset table first-char val)
+         (if (= first-char char)
+             (setq this-val val))
+         (setq first-char (1+ first-char))))
+      this-val))))
+
 ;; Store VAL (symbol) as a character property value of CHAR in TABLE.
 
 (defun unidata-put-symbol (char val table)
@@ -416,6 +443,19 @@ Property value is a character."
          (funcall (char-table-extra-slot table 1) char current-val table))
       (aset table char val))))
 
+;; Store VAL (integer or float) as a character property value of CHAR
+;; in TABLE.
+
+(defun unidata-put-numeric (char val table)
+  (or (numberp val)
+      (not val)
+      (error "Not a number nor nil: %S" val))
+  (let ((current-val (aref table char)))
+    (unless (equal current-val val)
+      (if (stringp current-val)
+         (funcall (char-table-extra-slot table 1) char current-val table))
+      (aset table char val))))
+
 ;; Encode the character property value VAL into an integer value by
 ;; VAL-LIST.  By side effect, VAL-LIST is modified.
 ;; VAL-LIST has this form:
@@ -425,7 +465,7 @@ Property value is a character."
 ;;   (t (VAL . (1+ VAL-CODE1)) (VAL1 . VAL-CODE1) (VAL2 . VAL-CODE2) ...)
 
 (defun unidata-encode-val (val-list val)
-  (let ((slot (assq val val-list))
+  (let ((slot (assoc val val-list))
        val-code)
     (if slot
        (cdr slot)
@@ -519,6 +559,22 @@ Property value is a character."
     (set-char-table-extra-slot table 2 (symbol-function 'unidata-put-integer))
     table))
 
+(defun unidata-gen-table-numeric (prop)
+  (let ((table (unidata-gen-table prop
+                                 #'(lambda (x)
+                                     (if (string-match "/" x)
+                                         (/ (float (string-to-number x))
+                                            (string-to-number
+                                             (substring x (match-end 0))))
+                                       (if (> (length x) 0)
+                                           (string-to-number x))))
+                                 t)))
+    (byte-compile 'unidata-get-numeric)
+    (byte-compile 'unidata-put-numeric)
+    (set-char-table-extra-slot table 1 (symbol-function 'unidata-get-numeric))
+    (set-char-table-extra-slot table 2 (symbol-function 'unidata-put-numeric))
+    table))
+
 \f
 ;; WORD-LIST TABLE
 
@@ -772,11 +828,13 @@ Property value is a character."
          (L (+ #x1100 (/ char 588)))
          ;; V = VBase + (SIndex % NCount) * TCount
          (V (+ #x1161 (/ (% char 588) 28)))
+         ;; LV = SBase + (SIndex / TCount) * TCount
+         (LV (+ #xAC00 (* (/ char 28) 28)))
          ;; T = TBase + SIndex % TCount
          (T (+ #x11A7 (% char 28))))
       (if (= T #x11A7)
          (list L V)
-       (list L V T))))
+       (list LV T))))
 
    ))
 
@@ -970,11 +1028,11 @@ Property value is a character."
          (setq c (aref str i))
          (if (= c 32)
              (setq l (if (= (aref str idx) ?<)
-                         (cons (intern (substring str idx i)) l)
+                         (cons (intern (substring str (1+ idx) (1- i))) l)
                        (cons (string-to-number (substring str idx i) 16) l))
                    idx (1+ i))))
        (if (= (aref str idx) ?<)
-           (setq l (cons (intern (substring str idx len)) l))
+           (setq l (cons (intern (substring str (1+ idx) (1- len))) l))
          (setq l (cons (string-to-number (substring str idx len) 16) l)))
        (nreverse l)))))
 
@@ -1078,8 +1136,13 @@ Property value is a character."
               (ON . "Other Neutrals")))))
 
 (defun unidata-describe-decomposition (val)
-  (mapconcat #'(lambda (x) (if (symbolp x) (symbol-name x) (string ?' x ?')))
-            val " "))
+  (mapconcat
+   #'(lambda (x)
+       (if (symbolp x) (symbol-name x)
+        (concat (string ?')
+                (compose-string (string x) 0 1 (string ?\t x ?\t))
+                (string ?'))))
+   val " "))
 
 ;; Verify if we can retrieve correct values from the generated
 ;; char-tables.
@@ -1151,7 +1214,10 @@ Property value is a character."
                (byte-compile describer)
                (setq describer (symbol-function describer)))
              (set-char-table-extra-slot table 3 describer))
-           (insert ";; Automatically generated from UnicodeData.txt.\n"
+           (insert ";; Copyright (C) 1991-2009 Unicode, Inc.
+;; This file was generated from the Unicode data file at
+;; http://www.unicode.org/Public/UNIDATA/UnicodeData.txt.
+;; See lisp/international/README for the copyright and permission notice.\n"
                    (format "(define-char-code-property '%S %S %S)\n"
                            prop table docstring)
                    ";; Local Variables:\n"