HCoop Git - bpt/emacs.git/blame_incremental

... / ...

Commit	Line	Data
	1	;;; indian.el --- Indian languages support -- coding: utf-8; --
	2
	3	;; Copyright (C) 1997, 1999, 2001-2013 Free Software Foundation, Inc.
	4	;; Copyright (C) 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011
	5	;; National Institute of Advanced Industrial Science and Technology (AIST)
	6	;; Registration Number H14PRO021
	7
	8	;; Maintainer: Kenichi Handa <handa@m17n.org>
	9	;; KAWABATA, Taichi <kawabata@m17n.org>
	10	;; Keywords: multilingual, i18n, Indian
	11
	12	;; This file is part of GNU Emacs.
	13
	14	;; GNU Emacs is free software: you can redistribute it and/or modify
	15	;; it under the terms of the GNU General Public License as published by
	16	;; the Free Software Foundation, either version 3 of the License, or
	17	;; (at your option) any later version.
	18
	19	;; GNU Emacs is distributed in the hope that it will be useful,
	20	;; but WITHOUT ANY WARRANTY; without even the implied warranty of
	21	;; MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
	22	;; GNU General Public License for more details.
	23
	24	;; You should have received a copy of the GNU General Public License
	25	;; along with GNU Emacs. If not, see <http://www.gnu.org/licenses/>.
	26
	27	;;; Commentary:
	28
	29	;; This file contains definitions of Indian language environments, and
	30	;; setups for displaying the scrtipts used there.
	31
	32	;;; Code:
	33
	34	(define-coding-system 'in-is13194-devanagari
	35	"8-bit encoding for ASCII (MSB=0) and IS13194-Devanagari (MSB=1)."
	36	:coding-type 'iso-2022
	37	:mnemonic ?D
	38	:designation [ascii indian-is13194 nil nil]
	39	:charset-list '(ascii indian-is13194)
	40	:post-read-conversion 'in-is13194-post-read-conversion
	41	:pre-write-conversion 'in-is13194-pre-write-conversion)
	42
	43	(define-coding-system-alias 'devanagari 'in-is13194-devanagari)
	44
	45	(set-language-info-alist
	46	"Devanagari" '((charset unicode)
	47	(coding-system utf-8)
	48	(coding-priority utf-8)
	49	(input-method . "devanagari-aiba")
	50	(documentation . "\
	51	Such languages using Devanagari script as Hindi and Marathi
	52	are supported in this language environment."))
	53	'("Indian"))
	54
	55	(set-language-info-alist
	56	"Bengali" '((charset unicode)
	57	(coding-system utf-8)
	58	(coding-priority utf-8)
	59	(input-method . "bengali-itrans")
	60	(documentation . "\
	61	Such languages using Bengali script as Bengali and Assamese
	62	are supported in this language environment."))
	63	'("Indian"))
	64
	65	(set-language-info-alist
	66	"Punjabi" '((charset unicode)
	67	(coding-system utf-8)
	68	(coding-priority utf-8)
	69	(input-method . "punjabi-itrans")
	70	(documentation . "\
	71	North Indian language Punjabi is supported in this language environment."))
	72	'("Indian"))
	73
	74	(set-language-info-alist
	75	"Gujarati" '((charset unicode)
	76	(coding-system utf-8)
	77	(coding-priority utf-8)
	78	(input-method . "gujarati-itrans")
	79	(documentation . "\
	80	North Indian language Gujarati is supported in this language environment."))
	81	'("Indian"))
	82
	83	(set-language-info-alist
	84	"Oriya" '((charset unicode)
	85	(coding-system utf-8)
	86	(coding-priority utf-8)
	87	(input-method . "oriya-itrans")
	88	(documentation . "\
	89	Such languages using Oriya script as Oriya, Khonti, and Santali
	90	are supported in this language environment."))
	91	'("Indian"))
	92
	93	(set-language-info-alist
	94	"Tamil" '((charset unicode)
	95	(coding-system utf-8)
	96	(coding-priority utf-8)
	97	(input-method . "tamil-itrans")
	98	(documentation . "\
	99	South Indian Language Tamil is supported in this language environment."))
	100	'("Indian"))
	101
	102	(set-language-info-alist
	103	"Telugu" '((charset unicode)
	104	(coding-system utf-8)
	105	(coding-priority utf-8)
	106	(input-method . "telugu-itrans")
	107	(documentation . "\
	108	South Indian Language Telugu is supported in this language environment."))
	109	'("Indian"))
	110
	111	(set-language-info-alist
	112	"Kannada" '((charset unicode)
	113	(coding-system mule-utf-8)
	114	(coding-priority mule-utf-8)
	115	(input-method . "kannada-itrans")
	116	(sample-text . "Kannada (ಕನ್ನಡ) ನಮಸ್ಕಾರ")
	117	(documentation . "\
	118	Kannada language and script is supported in this language
	119	environment."))
	120	'("Indian"))
	121
	122	(set-language-info-alist
	123	"Malayalam" '((charset unicode)
	124	(coding-system utf-8)
	125	(coding-priority utf-8)
	126	(input-method . "malayalam-itrans")
	127	(documentation . "\
	128	South Indian language Malayalam is supported in this language environment."))
	129	'("Indian"))
	130
	131	;; Replace mnemonic characters in REGEXP according to TABLE. TABLE is
	132	;; an alist of (MNEMONIC-STRING . REPLACEMENT-STRING).
	133
	134	(defun indian-compose-regexp (regexp table)
	135	(let ((case-fold-search nil))
	136	(dolist (elt table)
	137	(setq regexp (replace-regexp-in-string (car elt) (cdr elt) regexp t t)))
	138	regexp))
	139
	140	(defconst devanagari-composable-pattern
	141	(let ((table
	142	'(("a" . "[\u0900-\u0902]") ; vowel modifier (above)
	143	("A" . "\u0903") ; vowel modifier (post)
	144	("V" . "[\u0904-\u0914\u0960-\u0961\u0972]") ; independent vowel
	145	("C" . "[\u0915-\u0939\u0958-\u095F\u0979-\u097F]") ; consonant
	146	("R" . "\u0930") ; RA
	147	("n" . "\u093C") ; NUKTA
	148	("v" . "[\u093E-\u094C\u094E\u0955\u0962-\u0963]") ; vowel sign
	149	("H" . "\u094D") ; HALANT
	150	("s" . "[\u0951-\u0952]") ; stress sign
	151	("t" . "[\u0953-\u0954]") ; accent
	152	("N" . "\u200C") ; ZWNJ
	153	("J" . "\u200D") ; ZWJ
	154	("X" . "[\u0900-\u097F]")))) ; all coverage
	155	(indian-compose-regexp
	156	(concat
	157	;; syllables with an independent vowel, or
	158	"\\(?:RH\\)?Vn?\\(?:J?HR\\)?v*n?a?s?t?A?\\\|"
	159	;; consonant-based syllables, or
	160	"Cn?\\(?:J?HJ?Cn?\\)\\(?:H[NJ]?\\\|vn?a?s?t?A?\\)\\\|"
	161	;; special consonant form, or
	162	"JHR\\\|"
	163	;; any other singleton characters
	164	"X")
	165	table))
	166	"Regexp matching a composable sequence of Devanagari characters.")
	167
	168	(defconst bengali-composable-pattern
	169	(let ((table
	170	'(("a" . "\u0981") ; SIGN CANDRABINDU
	171	("A" . "[\u0982-\u0983]") ; SIGN ANUSVARA .. VISARGA
	172	("V" . "[\u0985-\u0994\u09E0-\u09E1]") ; independent vowel
	173	("C" . "[\u0995-\u09B9\u09DC-\u09DF\u09F1]") ; consonant
	174	("B" . "[\u09AC\u09AF-\u09B0\u09F0]") ; BA, YA, RA
	175	("R" . "[\u09B0\u09F0]") ; RA
	176	("n" . "\u09BC") ; NUKTA
	177	("v" . "[\u09BE-\u09CC\u09D7\u09E2-\u09E3]") ; vowel sign
	178	("H" . "\u09CD") ; HALANT
	179	("T" . "\u09CE") ; KHANDA TA
	180	("N" . "\u200C") ; ZWNJ
	181	("J" . "\u200D") ; ZWJ
	182	("X" . "[\u0980-\u09FF]")))) ; all coverage
	183	(indian-compose-regexp
	184	(concat
	185	;; syllables with an independent vowel, or
	186	"\\(?:RH\\)?Vn?\\(?:J?HB\\)?v*n?a?A?\\\|"
	187	;; consonant-based syllables, or
	188	"Cn?\\(?:J?HJ?Cn?\\)\\(?:H[NJ]?\\\|v[NJ]?v?a?A?\\)\\\|"
	189	;; another syllables with an independent vowel, or
	190	"\\(?:RH\\)?T\\\|"
	191	;; special consonant form, or
	192	"JHB\\\|"
	193	;; any other singleton characters
	194	"X")
	195	table))
	196	"Regexp matching a composable sequence of Bengali characters.")
	197
	198	(defconst gurmukhi-composable-pattern
	199	(let ((table
	200	'(("a" . "[\u0A01-\u0A02\u0A70]") ; SIGN ADAK BINDI .. BINDI, TIPPI
	201	("A" . "\u0A03") ; SIGN VISARGA
	202	("V" . "[\u0A05-\u0A14]") ; independent vowel
	203	("C" . "[\u0A15-\u0A39\u0A59-\u0A5E]") ; consonant
	204	("Y" . "[\u0A2F-u0A30\u0A35\u0A39]") ; YA, RA, VA, HA
	205	("n" . "\u0A3C") ; NUKTA
	206	("v" . "[\u0A3E-\u0A4C]") ; vowel sign
	207	("H" . "\u0A4D") ; VIRAMA
	208	("N" . "\u200C") ; ZWNJ
	209	("J" . "\u200D") ; ZWJ
	210	("X" . "[\u0A00-\u0A7F]")))) ; all coverage
	211	(indian-compose-regexp
	212	(concat
	213	;; consonant-based syllables, or
	214	"Cn?\\(?:J?HJ?Cn?\\)\\(?:H[NJ]?\\\|vn?a?A?\\)\\\|"
	215	;; syllables with an independent vowel, or
	216	"Vn?\\(?:J?HY\\)?v*n?a?A?\\\|"
	217	;; special consonant form, or
	218	"JHY\\\|"
	219	;; any other singleton characters
	220	"X")
	221	table))
	222	"Regexp matching a composable sequence of Gurmukhi characters.")
	223
	224	(defconst gujarati-composable-pattern
	225	(let ((table
	226	'(("a" . "[\u0A81-\u0A82]") ; SIGN CANDRABINDU .. ANUSVARA
	227	("A" . "\u0A83") ; SIGN VISARGA
	228	("V" . "[\u0A85-\u0A94\u0AE0-\u0AE1]") ; independent vowel
	229	("C" . "[\u0A95-\u0AB9]") ; consonant
	230	("R" . "\u0AB0") ; RA
	231	("n" . "\u0ABC") ; NUKTA
	232	("v" . "[\u0ABE-\u0ACC\u0AE2-\u0AE3]") ; vowel sign
	233	("H" . "\u0ACD") ; VIRAMA
	234	("N" . "\u200C") ; ZWNJ
	235	("J" . "\u200D") ; ZWJ
	236	("X" . "[\u0A80-\u0AFF]")))) ; all coverage
	237	(indian-compose-regexp
	238	(concat
	239	;; syllables with an independent vowel, or
	240	"\\(?:RH\\)?Vn?\\(?:J?HR\\)?v*n?a?A?\\\|"
	241	;; consonant-based syllables, or
	242	"Cn?\\(?:J?HJ?Cn?\\)\\(?:H[NJ]?\\\|vn?a?A?\\)\\\|"
	243	;; special consonant form, or
	244	"JHR\\\|"
	245	;; any other singleton characters
	246	"X")
	247	table))
	248	"Regexp matching a composable sequence of Gujarati characters.")
	249
	250	(defconst oriya-composable-pattern
	251	(let ((table
	252	'(("a" . "\u0B01") ; SIGN CANDRABINDU
	253	("A" . "[\u0B02-\u0B03]") ; SIGN ANUSVARA .. VISARGA
	254	("V" . "[\u0B05-\u0B14\u0B60-\u0B61]") ; independent vowel
	255	("C" . "[\u0B15-\u0B39\u0B5C-\u0B5D\u0B71]") ; consonant
	256	("B" . "[\u0B15-\u0B17\u0B1B-\u0B1D\u0B1F-\u0B21\u0B23-\u0B24\u0B27-\u0B30\u0B32-\u0B35\u0B38-\u0B39]") ; consonant with below form
	257	("R" . "\u0B30") ; RA
	258	("n" . "\u0B3C") ; NUKTA
	259	("v" . "[\u0B3E-\u0B4C\u0B56-\u0B57\u0B62-\u0B63]") ; vowel sign
	260	("H" . "\u0B4D") ; VIRAMA
	261	("N" . "\u200C") ; ZWNJ
	262	("J" . "\u200D") ; ZWJ
	263	("X" . "[\u0B00-\u0B7F]")))) ; all coverage
	264	(indian-compose-regexp
	265	(concat
	266	;; syllables with an independent vowel, or
	267	"\\(?:RH\\)?Vn?\\(?:J?HB\\)?v*n?a?A?\\\|"
	268	;; consonant-based syllables, or
	269	"Cn?\\(?:J?HJ?Cn?\\)\\(?:H[NJ]?\\\|vn?a?A?\\)\\\|"
	270	;; special consonant form, or
	271	"JHB\\\|"
	272	;; any other singleton characters
	273	"X")
	274	table))
	275	"Regexp matching a composable sequence of Oriya characters.")
	276
	277	(defconst tamil-composable-pattern
	278	(let ((table
	279	'(("a" . "\u0B82") ; SIGN ANUSVARA
	280	("V" . "[\u0B85-\u0B94]") ; independent vowel
	281	("C" . "[\u0B95-\u0BB9]") ; consonant
	282	("v" . "[\u0BBE-\u0BCC\u0BD7]") ; vowel sign
	283	("H" . "\u0BCD") ; VIRAMA
	284	("N" . "\u200C") ; ZWNJ
	285	("J" . "\u200D") ; ZWJ
	286	("X" . "[\u0B80-\u0BFF]")))) ; all coverage
	287	(indian-compose-regexp
	288	(concat
	289	;; consonant-based syllables, or
	290	"C\\(?:J?HJ?C\\)\\(?:H[NJ]?\\\|va?\\)\\\|"
	291	;; syllables with an independent vowel, or
	292	"Vv*a?\\\|"
	293	;; any other singleton characters
	294	"X")
	295	table))
	296	"Regexp matching a composable sequence of Tamil characters.")
	297
	298	(defconst telugu-composable-pattern
	299	(let ((table
	300	'(("a" . "[\u0C01-\u0C03]") ; SIGN CANDRABINDU .. VISARGA
	301	("V" . "[\u0C05-\u0C14\u0C60-\u0C61]") ; independent vowel
	302	("C" . "[\u0C15-\u0C39\u0C58-\u0C59]") ; consonant
	303	("v" . "[\u0C3E-\u0C4C\u0C55-\u0C56\u0C62-\u0C63]") ; vowel sign
	304	("H" . "\u0C4D") ; VIRAMA
	305	("N" . "\u200C") ; ZWNJ
	306	("J" . "\u200D") ; ZWJ
	307	("X" . "[\u0C00-\u0C7F]")))) ; all coverage
	308	(indian-compose-regexp
	309	(concat
	310	;; consonant-based syllables, or
	311	"C\\(?:J?HJ?C\\)\\(?:H[NJ]?\\\|va?\\)\\\|"
	312	;; syllables with an independent vowel, or
	313	"V\\(?:J?HC\\)?v*a?\\\|"
	314	;; special consonant form, or
	315	"JHC\\\|"
	316	;; any other singleton characters
	317	"X")
	318	table))
	319	"Regexp matching a composable sequence of Telugu characters.")
	320
	321	(defconst kannada-composable-pattern
	322	(let ((table
	323	'(("A" . "[\u0C82-\u0C83]") ; SIGN ANUSVARA .. VISARGA
	324	("V" . "[\u0C85-\u0C94\u0CE0-\u0CE1]") ; independent vowel
	325	("C" . "[\u0C95-\u0CB9\u0CDE]") ; consonant
	326	("R" . "\u0CB0") ; RA
	327	("n" . "\u0CBC") ; NUKTA
	328	("v" . "[\u0CBE-\u0CCC\u0CD5-\u0CD6\u0CE2-\u0CE3]") ; vowel sign
	329	("H" . "\u0CCD") ; VIRAMA
	330	("N" . "\u200C") ; ZWNJ
	331	("J" . "\u200D") ; ZWJ
	332	("X" . "[\u0C80-\u0CFF]")))) ; all coverage
	333	(indian-compose-regexp
	334	(concat
	335	;; syllables with an independent vowel, or
	336	"\\(?:RH\\)?Vn?\\(?:J?HC\\)?v?A?\\\|"
	337	;; consonant-based syllables, or
	338	"Cn?\\(?:J?HJ?Cn?\\)\\(?:H[NJ]?\\\|vn?A?\\)\\\|"
	339	;; special consonant form, or
	340	"JHC\\\|"
	341	;; any other singleton characters
	342	"X")
	343	table))
	344	"Regexp matching a composable sequence of Kannada characters.")
	345
	346	(defconst malayalam-composable-pattern
	347	(let ((table
	348	'(("A" . "[\u0D02-\u0D03]") ; SIGN ANUSVARA .. VISARGA
	349	("V" . "[\u0D05-\u0D14\u0D60-\u0D61]") ; independent vowel
	350	("C" . "[\u0D15-\u0D39]") ; consonant
	351	("Y" . "[\u0D2F-\u0D30\u0D32\u0D35]") ; YA, RA, LA, VA
	352	("v" . "[\u0D3E-\u0D4C\u0D57\u0D62-\u0D63]") ; postbase matra
	353	("H" . "\u0D4D") ; SIGN VIRAMA
	354	("N" . "\u200C") ; ZWNJ
	355	("J" . "\u200D") ; ZWJ
	356	("X" . "[\u0D00-\u0D7F]")))) ; all coverage
	357	(indian-compose-regexp
	358	(concat
	359	;; consonant-based syllables, or
	360	"C\\(?:J?HJ?C\\)*\\(?:H[NJ]?\\\|v?A?\\)\\\|"
	361	;; syllables with an independent vowel, or
	362	"V\\(?:J?HY\\)?v*?A?\\\|"
	363	;; special consonant form, or
	364	"JHY\\\|"
	365	;; any other singleton characters
	366	"X")
	367	table))
	368	"Regexp matching a composable sequence of Malayalam characters.")
	369
	370	(let ((script-regexp-alist
	371	`((devanagari . ,devanagari-composable-pattern)
	372	(bengali . ,bengali-composable-pattern)
	373	(gurmukhi . ,gurmukhi-composable-pattern)
	374	(gujarati . ,gujarati-composable-pattern)
	375	(oriya . ,oriya-composable-pattern)
	376	(tamil . ,tamil-composable-pattern)
	377	(telugu . ,telugu-composable-pattern)
	378	(kannada . ,kannada-composable-pattern)
	379	(malayalam . ,malayalam-composable-pattern))))
	380	(map-char-table
	381	#'(lambda (key val)
	382	(let ((slot (assq val script-regexp-alist)))
	383	(if slot
	384	(set-char-table-range
	385	composition-function-table key
	386	(list (vector (cdr slot) 0 'font-shape-gstring))))))
	387	char-script-table))
	388
	389	(provide 'indian)
	390
	391	;;; indian.el ends here