Merge remote-tracking branch 'origin/stable-2.0'
[bpt/guile.git] / libguile / ports.c
index 12174bc..b453785 100644 (file)
@@ -103,7 +103,6 @@ static long scm_numptob = 0; /* Number of port types.  */
 static long scm_ptobs_size = 0; /* Number of slots in the port type
                                    table.  */
 static scm_i_pthread_mutex_t scm_ptobs_lock = SCM_I_PTHREAD_MUTEX_INITIALIZER;
-SCM_PTHREAD_ATFORK_LOCK_STATIC_MUTEX (scm_ptobs_lock);
 
 long
 scm_c_num_port_types (void)
@@ -471,7 +470,8 @@ scm_i_mode_bits_n (SCM modes)
 long
 scm_mode_bits (char *modes)
 {
-  return scm_i_mode_bits (scm_from_locale_string (modes));
+  /* Valid characters are rw+a0l.  So, use latin1.  */
+  return scm_i_mode_bits (scm_from_latin1_string (modes));
 }
 
 long
@@ -606,6 +606,8 @@ scm_c_make_port_with_encoding (scm_t_bits tag, unsigned long mode_bits,
   entry->encoding = encoding ? scm_gc_strdup (encoding, "port") : NULL;
   if (encoding && strcmp (encoding, "UTF-8") == 0)
     entry->encoding_mode = SCM_PORT_ENCODING_MODE_UTF8;
+  else if (!encoding || strcmp (encoding, "ISO-8859-1") == 0)
+    entry->encoding_mode = SCM_PORT_ENCODING_MODE_LATIN1;
   else
     entry->encoding_mode = SCM_PORT_ENCODING_MODE_ICONV;
   entry->ilseq_handler = handler;
@@ -808,8 +810,20 @@ scm_i_set_default_port_encoding (const char *encoding)
       || !strcmp (encoding, "ISO-8859-1"))
     scm_fluid_set_x (SCM_VARIABLE_REF (default_port_encoding_var), SCM_BOOL_F);
   else
-    scm_fluid_set_x (SCM_VARIABLE_REF (default_port_encoding_var),
-                    scm_from_locale_string (encoding));
+    {
+      SCM str;
+      size_t i;
+
+      str = scm_from_latin1_string (encoding);
+
+      /* Restrict to ASCII.  */
+      for (i = 0; encoding[i]; i++)
+        if (encoding[i] > 127)
+          scm_misc_error ("scm_i_set_default_port_encoding",
+                          "invalid character encoding ~s", scm_list_1 (str));
+
+      scm_fluid_set_x (SCM_VARIABLE_REF (default_port_encoding_var), str);
+    }
 }
 
 /* Return the name of the default encoding for newly created ports; a
@@ -844,10 +858,15 @@ open_iconv_descriptors (const char *encoding, int reading, int writing)
 {
   scm_t_iconv_descriptors *id;
   iconv_t input_cd, output_cd;
+  size_t i;
 
   input_cd = (iconv_t) -1;
   output_cd = (iconv_t) -1;
 
+  for (i = 0; encoding[i]; i++)
+    if (encoding[i] > 127)
+      goto invalid_encoding;
+
   if (reading)
     {
       /* Open an input iconv conversion descriptor, from ENCODING
@@ -860,9 +879,7 @@ open_iconv_descriptors (const char *encoding, int reading, int writing)
          allocation.  */
       scm_gc_register_allocation (16 * 1024);
 
-      scm_i_lock_iconv ();
       input_cd = iconv_open ("UTF-8", encoding);
-      scm_i_unlock_iconv ();
       if (input_cd == (iconv_t) -1)
         goto invalid_encoding;
     }
@@ -873,15 +890,11 @@ open_iconv_descriptors (const char *encoding, int reading, int writing)
          allocation.  */
       scm_gc_register_allocation (16 * 1024);
 
-      scm_i_lock_iconv ();
       output_cd = iconv_open (encoding, "UTF-8");
-      scm_i_unlock_iconv ();
       if (output_cd == (iconv_t) -1)
         {
-          scm_i_lock_iconv ();
           if (input_cd != (iconv_t) -1)
             iconv_close (input_cd);
-          scm_i_unlock_iconv ();
           goto invalid_encoding;
         }
     }
@@ -898,7 +911,7 @@ open_iconv_descriptors (const char *encoding, int reading, int writing)
  invalid_encoding:
   {
     SCM err;
-    err = scm_from_locale_string (encoding);
+    err = scm_from_latin1_string (encoding);
     scm_misc_error ("open_iconv_descriptors",
                    "invalid or unknown character encoding ~s",
                    scm_list_1 (err));
@@ -908,12 +921,10 @@ open_iconv_descriptors (const char *encoding, int reading, int writing)
 static void
 close_iconv_descriptors (scm_t_iconv_descriptors *id)
 {
-  scm_i_lock_iconv ();
   if (id->input_cd != (iconv_t) -1)
     iconv_close (id->input_cd);
   if (id->output_cd != (iconv_t) -1)
     iconv_close (id->output_cd);
-  scm_i_unlock_iconv ();
   id->input_cd = (void *) -1;
   id->output_cd = (void *) -1;
 }
@@ -940,6 +951,7 @@ scm_i_port_iconv_descriptors (SCM port)
   return pt->iconv_descriptors;
 }
 
+/* The name of the encoding is itself encoded in ASCII.  */
 void
 scm_i_set_port_encoding_x (SCM port, const char *encoding)
 {
@@ -950,15 +962,18 @@ scm_i_set_port_encoding_x (SCM port, const char *encoding)
   pt = SCM_PTAB_ENTRY (port);
   prev = pt->iconv_descriptors;
 
-  if (encoding == NULL)
-    encoding = "ISO-8859-1";
-
-  if (strcmp (encoding, "UTF-8") == 0)
+  if (encoding && strcmp (encoding, "UTF-8") == 0)
     {
       pt->encoding = "UTF-8";
       pt->encoding_mode = SCM_PORT_ENCODING_MODE_UTF8;
       pt->iconv_descriptors = NULL;
     }
+  else if (!encoding || strcmp (encoding, "ISO-8859-1") == 0)
+    {
+      pt->encoding = "ISO-8859-1";
+      pt->encoding_mode = SCM_PORT_ENCODING_MODE_LATIN1;
+      pt->iconv_descriptors = NULL;
+    }
   else
     {
       /* Open descriptors before mutating the port. */
@@ -988,7 +1003,7 @@ SCM_DEFINE (scm_port_encoding, "port-encoding", 1, 0, 0,
   pt = SCM_PTAB_ENTRY (port);
   enc = pt->encoding;
   if (enc)
-    return scm_from_locale_string (pt->encoding);
+    return scm_from_latin1_string (pt->encoding);
   else
     return SCM_BOOL_F;
 }
@@ -1008,7 +1023,7 @@ SCM_DEFINE (scm_set_port_encoding_x, "set-port-encoding!", 2, 0, 0,
   SCM_VALIDATE_PORT (1, port);
   SCM_VALIDATE_STRING (2, enc);
 
-  enc_str = scm_to_locale_string (enc);
+  enc_str = scm_to_latin1_string (enc);
   scm_i_set_port_encoding_x (port, enc_str);
   free (enc_str);
 
@@ -1591,6 +1606,26 @@ get_utf8_codepoint (SCM port, scm_t_wchar *codepoint,
 #undef ASSERT_NOT_EOF
 }
 
+/* Read an ISO-8859-1 codepoint (a byte) from PORT.  On success, return
+   0 and set *CODEPOINT to the codepoint that was read, fill BUF with
+   its UTF-8 representation, and set *LEN to the length in bytes.
+   Return `EILSEQ' on error.  */
+static int
+get_latin1_codepoint (SCM port, scm_t_wchar *codepoint,
+                      char buf[SCM_MBCHAR_BUF_SIZE], size_t *len)
+{
+  *codepoint = scm_get_byte_or_eof_unlocked (port);
+
+  if (*codepoint == EOF)
+    *len = 0;
+  else
+    {
+      *len = 1;
+      buf[0] = *codepoint;
+    }
+  return 0;
+}
+
 /* Likewise, read a byte sequence from PORT, passing it through its
    input conversion descriptor.  */
 static int
@@ -1662,7 +1697,7 @@ get_iconv_codepoint (SCM port, scm_t_wchar *codepoint,
    with the byte representation of the codepoint in PORT's encoding, and
    set *LEN to the length in bytes of that representation.  Return 0 on
    success and an errno value on error.  */
-static int
+static SCM_C_INLINE int
 get_codepoint (SCM port, scm_t_wchar *codepoint,
               char buf[SCM_MBCHAR_BUF_SIZE], size_t *len)
 {
@@ -1671,6 +1706,8 @@ get_codepoint (SCM port, scm_t_wchar *codepoint,
 
   if (pt->encoding_mode == SCM_PORT_ENCODING_MODE_UTF8)
     err = get_utf8_codepoint (port, codepoint, (scm_t_uint8 *) buf, len);
+  else if (pt->encoding_mode == SCM_PORT_ENCODING_MODE_LATIN1)
+    err = get_latin1_codepoint (port, codepoint, buf, len);
   else
     err = get_iconv_codepoint (port, codepoint, buf, len);
 
@@ -1840,12 +1877,10 @@ scm_ungetc_unlocked (scm_t_wchar c, SCM port)
     encoding = "ISO-8859-1";
 
   len = sizeof (result_buf);
-  scm_i_lock_iconv ();
   result = u32_conv_to_encoding (encoding,
                                 (enum iconv_ilseq_handler) pt->ilseq_handler,
                                 (uint32_t *) &c, 1, NULL,
                                 result_buf, &len);
-  scm_i_unlock_iconv ();
 
   if (SCM_UNLIKELY (result == NULL || len == 0))
     scm_encoding_error (FUNC_NAME, errno,
@@ -2066,20 +2101,21 @@ scm_fill_input (SCM port)
   return ret;
 }
 
-/* move up to read_len chars from port's putback and/or read buffers
-   into memory starting at dest.  returns the number of chars moved.  */
+/* Move up to READ_LEN bytes from PORT's putback and/or read buffers
+   into memory starting at DEST.  Return the number of bytes moved.
+   PORT's line/column numbers are left unchanged.  */
 size_t
 scm_take_from_input_buffers (SCM port, char *dest, size_t read_len)
 {
   scm_t_port *pt = SCM_PTAB_ENTRY (port);
-  size_t chars_read = 0;
+  size_t bytes_read = 0;
   size_t from_buf = min (pt->read_end - pt->read_pos, read_len);
 
   if (from_buf > 0)
     {
       memcpy (dest, pt->read_pos, from_buf);
       pt->read_pos += from_buf;
-      chars_read += from_buf;
+      bytes_read += from_buf;
       read_len -= from_buf;
       dest += from_buf;
     }
@@ -2092,10 +2128,11 @@ scm_take_from_input_buffers (SCM port, char *dest, size_t read_len)
        {
          memcpy (dest, pt->saved_read_pos, from_buf);
          pt->saved_read_pos += from_buf;
-         chars_read += from_buf;
+         bytes_read += from_buf;
        }
     }
-  return chars_read;
+
+  return bytes_read;
 }
 
 /* Clear a port's read buffers, returning the contents.  */