Merge remote-tracking branch 'origin/stable-2.0'
[bpt/guile.git] / libguile / strports.c
index 5c67bf9..7020227 100644 (file)
@@ -1,5 +1,6 @@
-/* Copyright (C) 1995,1996,1998,1999,2000,2001,2002, 2003, 2005, 2006, 2009 Free Software Foundation, Inc.
- * 
+/* Copyright (C) 1995, 1996, 1998, 1999, 2000, 2001, 2002, 2003, 2005, 2006,
+ *   2009, 2010, 2011, 2012 Free Software Foundation, Inc.
+ *
  * This library is free software; you can redistribute it and/or
  * modify it under the terms of the GNU Lesser General Public License
  * as published by the Free Software Foundation; either version 3 of
@@ -30,7 +31,7 @@
 #include <unistd.h>
 #endif
 
-#include "libguile/unif.h"
+#include "libguile/bytevectors.h"
 #include "libguile/eval.h"
 #include "libguile/ports.h"
 #include "libguile/read.h"
@@ -39,6 +40,7 @@
 #include "libguile/modules.h"
 #include "libguile/validate.h"
 #include "libguile/deprecation.h"
+#include "libguile/srfi-4.h"
 
 #include "libguile/strports.h"
 
 
 /* NOTES:
 
-   We break the rules set forth by strings.h about accessing the
-   internals of strings here.  We can do this since we can guarantee
-   that the string used as pt->stream is not in use by anyone else.
-   Thus, it's representation will not change asynchronously.
-
-   (Ports aren't thread-safe yet anyway...)
-
-   write_buf/write_end point to the ends of the allocated string.
-   read_buf/read_end in principle point to the part of the string which
-   has been written to, but this is only updated after a flush.
-   read_pos and write_pos in principle should be equal, but this is only true
-   when rw_active is SCM_PORT_NEITHER.
+   write_buf/write_end point to the ends of the allocated bytevector.
+   read_buf/read_end point to the part of the bytevector which has been
+   written to.  read_pos and write_pos are always equal.
 
    ENHANCE-ME - output blocks:
 
@@ -95,35 +88,33 @@ scm_t_bits scm_tc16_strport;
 
 
 static int
-stfill_buffer (SCM port)
+st_fill_input (SCM port)
 {
   scm_t_port *pt = SCM_PTAB_ENTRY (port);
   
   if (pt->read_pos >= pt->read_end)
     return EOF;
   else
-    return scm_return_first_int (*pt->read_pos, port);
+    return *pt->read_pos;
 }
 
-/* change the size of a port's string to new_size.  this doesn't
-   change read_buf_size.  */
-static void 
+/* Change the size of a port's bytevector to NEW_SIZE.  This doesn't
+   change `read_buf_size'.  */
+static void
 st_resize_port (scm_t_port *pt, scm_t_off new_size)
 {
   SCM old_stream = SCM_PACK (pt->stream);
-  const char *src = scm_i_string_chars (old_stream);
-  char *dst;
-  SCM new_stream = scm_i_make_string (new_size, &dst);
-  unsigned long int old_size = scm_i_string_length (old_stream);
+  const signed char *src = SCM_BYTEVECTOR_CONTENTS (old_stream);
+  SCM new_stream = scm_c_make_bytevector (new_size);
+  signed char *dst = SCM_BYTEVECTOR_CONTENTS (new_stream);
+  unsigned long int old_size = SCM_BYTEVECTOR_LENGTH (old_stream);
   unsigned long int min_size = min (old_size, new_size);
-  unsigned long int i;
 
-  scm_t_off index = pt->write_pos - pt->write_buf;
+  scm_t_off offset = pt->write_pos - pt->write_buf;
 
   pt->write_buf_size = new_size;
 
-  for (i = 0; i != min_size; ++i)
-    dst[i] = src[i];
+  memcpy (dst, src, min_size);
 
   scm_remember_upto_here_1 (old_stream);
 
@@ -131,60 +122,29 @@ st_resize_port (scm_t_port *pt, scm_t_off new_size)
   {
     pt->stream = SCM_UNPACK (new_stream);
     pt->read_buf = pt->write_buf = (unsigned char *)dst;
-    pt->read_pos = pt->write_pos = pt->write_buf + index;
+    pt->read_pos = pt->write_pos = pt->write_buf + offset;
     pt->write_end = pt->write_buf + pt->write_buf_size;
     pt->read_end = pt->read_buf + pt->read_buf_size;
   }
 }
 
-/* amount by which write_buf is expanded.  */
-#define SCM_WRITE_BLOCK 80
-
-/* ensure that write_pos < write_end by enlarging the buffer when
-   necessary.  update read_buf to account for written chars.
-
-   The buffer is enlarged by 1.5 times, plus SCM_WRITE_BLOCK.  Adding just a
-   fixed amount is no good, because there's a block copy for each increment,
-   and that copying would take quadratic time.  In the past it was found to
-   be very slow just adding 80 bytes each time (eg. about 10 seconds for
-   writing a 100kbyte string).  */
-
 static void
-st_flush (SCM port)
+st_write (SCM port, const void *data, size_t size)
 {
   scm_t_port *pt = SCM_PTAB_ENTRY (port);
 
-  if (pt->write_pos == pt->write_end)
-    {
-      st_resize_port (pt, pt->write_buf_size * 3 / 2 + SCM_WRITE_BLOCK);
-    }
-  pt->read_pos = pt->write_pos;
+  if (size > pt->write_end - pt->write_pos)
+    st_resize_port (pt, max (pt->write_buf_size * 2,
+                             pt->write_end - pt->write_pos + size));
+
+  memcpy ((char *) pt->write_pos, data, size);
+  pt->read_pos = (pt->write_pos += size);
+
   if (pt->read_pos > pt->read_end)
     {
       pt->read_end = (unsigned char *) pt->read_pos;
       pt->read_buf_size = pt->read_end - pt->read_buf;
     }
-  pt->rw_active = SCM_PORT_NEITHER;
-}
-
-static void
-st_write (SCM port, const void *data, size_t size)
-{
-  scm_t_port *pt = SCM_PTAB_ENTRY (port);
-  const char *input = (char *) data;
-
-  while (size > 0)
-    {
-      int space = pt->write_end - pt->write_pos;
-      int write_len = (size > space) ? space : size;
-      
-      memcpy ((char *) pt->write_pos, input, write_len);
-      pt->write_pos += write_len;
-      size -= write_len;
-      input += write_len;
-      if (write_len == space)
-       st_flush (port);
-    }
 }
 
 static void
@@ -221,11 +181,10 @@ st_seek (SCM port, scm_t_off offset, int whence)
   else
     /* all other cases.  */
     {
-      if (pt->rw_active == SCM_PORT_WRITE)
-       st_flush (port);
-  
       if (pt->rw_active == SCM_PORT_READ)
-       scm_end_input (port);
+       scm_end_input_unlocked (port);
+
+      pt->rw_active = SCM_PORT_NEITHER;
 
       switch (whence)
        {
@@ -254,12 +213,8 @@ st_seek (SCM port, scm_t_off offset, int whence)
                                  SCM_EOL);
                }
            }
-         else
-           {
-             st_resize_port (pt, target + (target == pt->write_buf_size
-                                           ? SCM_WRITE_BLOCK
-                                           : 0));
-           }
+         else if (target == pt->write_buf_size)
+           st_resize_port (pt, target * 2);
        }
       pt->read_pos = pt->write_pos = pt->read_buf + target;
       if (pt->read_pos > pt->read_end)
@@ -282,78 +237,89 @@ st_truncate (SCM port, scm_t_off length)
   pt->read_buf_size = length;
   pt->read_end = pt->read_buf + length;
   if (pt->read_pos > pt->read_end)
-    pt->read_pos = pt->read_end;
-  
-  if (pt->write_pos > pt->read_end)
-    pt->write_pos = pt->read_end;
+    pt->read_pos = pt->write_pos = pt->read_end;
 }
 
-SCM 
+/* The initial size in bytes of a string port's buffer.  */
+#define INITIAL_BUFFER_SIZE 128
+
+/* Return a new string port with MODES.  If STR is #f, a new backing
+   buffer is allocated; otherwise STR must be a string and a copy of it
+   serves as the buffer for the new port.  */
+SCM
 scm_mkstrport (SCM pos, SCM str, long modes, const char *caller)
 {
-  SCM z;
+  SCM z, buf;
   scm_t_port *pt;
-  size_t str_len, c_pos;
-
-  SCM_ASSERT (scm_is_string (str), str, SCM_ARG1, caller);
-
-  str_len = scm_i_string_length (str);
-  c_pos = scm_to_unsigned_integer (pos, 0, str_len);
+  const char *encoding;
+  size_t read_buf_size, str_len, c_pos;
+  char *c_buf;
 
   if (!((modes & SCM_WRTNG) || (modes & SCM_RDNG)))
     scm_misc_error ("scm_mkstrport", "port must read or write", SCM_EOL);
 
-  /* XXX
-     Make a new string to isolate us from changes to the original.
-     This is done so that we can rely on scm_i_string_chars to stay in
-     place even across SCM_TICKs.
-
-     Additionally, when we are going to write to the string, we make a
-     copy so that we can write to it without having to use
-     scm_i_string_writable_chars.
-  */
+  encoding = scm_i_default_port_encoding ();
 
-  if (modes & SCM_WRTNG)
-    str = scm_c_substring_copy (str, 0, str_len);
+  if (scm_is_false (str))
+    {
+      /* Allocate a new buffer to write to.  */
+      str_len = INITIAL_BUFFER_SIZE;
+      buf = scm_c_make_bytevector (str_len);
+      c_buf = (char *) SCM_BYTEVECTOR_CONTENTS (buf);
+
+      /* Reset `read_buf_size'.  It will contain the actual number of
+        bytes written to the port.  */
+      read_buf_size = 0;
+      c_pos = 0;
+    }
   else
-    str = scm_c_substring (str, 0, str_len);
-
-  scm_i_scm_pthread_mutex_lock (&scm_i_port_table_mutex);
-  z = scm_new_port_table_entry (scm_tc16_strport);
-  pt = SCM_PTAB_ENTRY(z);
-  SCM_SETSTREAM (z, SCM_UNPACK (str));
-  SCM_SET_CELL_TYPE(z, scm_tc16_strport|modes);
-  /* see above why we can use scm_i_string_chars here. */
-  pt->write_buf = pt->read_buf = (unsigned char *) scm_i_string_chars (str);
+    {
+      /* STR is a string.  */
+      char *copy;
+
+      SCM_ASSERT (scm_is_string (str), str, SCM_ARG1, caller);
+
+      /* Create a copy of STR in ENCODING.  */
+      copy = scm_to_stringn (str, &str_len, encoding,
+                            SCM_FAILED_CONVERSION_ERROR);
+      buf = scm_c_make_bytevector (str_len);
+      c_buf = (char *) SCM_BYTEVECTOR_CONTENTS (buf);
+      memcpy (c_buf, copy, str_len);
+      free (copy);
+
+      c_pos = scm_to_unsigned_integer (pos, 0, str_len);
+      read_buf_size = str_len;
+    }
+
+  z = scm_c_make_port_with_encoding (scm_tc16_strport, modes,
+                                     encoding,
+                                     scm_i_default_port_conversion_handler (),
+                                     (scm_t_bits)buf);
+
+  pt = SCM_PTAB_ENTRY (z);
+
+  pt->write_buf = pt->read_buf = (unsigned char *) c_buf;
   pt->read_pos = pt->write_pos = pt->read_buf + c_pos;
-  pt->write_buf_size = pt->read_buf_size = str_len;
+  pt->read_buf_size = read_buf_size;
+  pt->write_buf_size = str_len;
   pt->write_end = pt->read_end = pt->read_buf + pt->read_buf_size;
-
   pt->rw_random = 1;
 
-  scm_i_pthread_mutex_unlock (&scm_i_port_table_mutex);
-
-  /* ensure write_pos is writable. */
-  if ((modes & SCM_WRTNG) && pt->write_pos == pt->write_end)
-    st_flush (z);
   return z;
 }
 
-/* create a new string from a string port's buffer.  */
-SCM scm_strport_to_string (SCM port)
+/* Create a new string from the buffer of PORT, a string port, converting from
+   PORT's encoding to the standard string representation.  */
+SCM
+scm_strport_to_string (SCM port)
 {
   scm_t_port *pt = SCM_PTAB_ENTRY (port);
-  SCM str;
-  char *dst;
-  
-  if (pt->rw_active == SCM_PORT_WRITE)
-    st_flush (port);
 
-  str = scm_i_make_string (pt->read_buf_size, &dst);
-  memcpy (dst, (char *) pt->read_buf, pt->read_buf_size);
-  scm_remember_upto_here_1 (port);
-  return str;
+  if (pt->read_buf_size == 0)
+    return scm_nullstr;
+
+  return scm_from_stringn ((char *)pt->read_buf, pt->read_buf_size,
+                           pt->encoding, pt->ilseq_handler);
 }
 
 SCM_DEFINE (scm_object_to_string, "object->string", 1, 1, 0,
@@ -363,53 +329,54 @@ SCM_DEFINE (scm_object_to_string, "object->string", 1, 1, 0,
            "argument @var{printer} (default: @code{write}).")
 #define FUNC_NAME s_scm_object_to_string
 {
-  SCM str, port;
+  SCM port, result;
 
   if (!SCM_UNBNDP (printer))
     SCM_VALIDATE_PROC (2, printer);
 
-  str = scm_c_make_string (0, SCM_UNDEFINED);
-  port = scm_mkstrport (SCM_INUM0, str, SCM_OPN | SCM_WRTNG, FUNC_NAME);
+  port = scm_mkstrport (SCM_INUM0, SCM_BOOL_F,
+                       SCM_OPN | SCM_WRTNG, FUNC_NAME);
 
   if (SCM_UNBNDP (printer))
     scm_write (obj, port);
   else
     scm_call_2 (printer, obj, port);
 
-  return scm_strport_to_string (port);
+  result = scm_strport_to_string (port);
+
+  /* Explicitly close PORT so that the iconv CDs associated with it are
+     deallocated right away.  This is important because CDs use a lot of
+     memory that's not visible to the GC, so not freeing them can lead
+     to almost large heap usage.  See
+     <http://wingolog.org/archives/2011/02/25/ports-weaks-gc-and-dark-matter>
+     for details.  */
+  scm_close_port (port);
+
+  return result;
 }
 #undef FUNC_NAME
 
-SCM_DEFINE (scm_call_with_output_string, "call-with-output-string", 1, 0, 0, 
-           (SCM proc),
-           "Calls the one-argument procedure @var{proc} with a newly created output\n"
-           "port.  When the function returns, the string composed of the characters\n"
-           "written into the port is returned.")
-#define FUNC_NAME s_scm_call_with_output_string
+SCM
+scm_call_with_output_string (SCM proc)
 {
-  SCM p;
+  static SCM var = SCM_BOOL_F;
 
-  p = scm_mkstrport (SCM_INUM0, 
-                    scm_make_string (SCM_INUM0, SCM_UNDEFINED),
-                    SCM_OPN | SCM_WRTNG,
-                     FUNC_NAME);
-  scm_call_1 (proc, p);
+  if (scm_is_false (var))
+    var = scm_c_private_lookup ("guile", "call-with-output-string");
 
-  return scm_get_output_string (p);
+  return scm_call_1 (scm_variable_ref (var), proc);
 }
-#undef FUNC_NAME
 
-SCM_DEFINE (scm_call_with_input_string, "call-with-input-string", 2, 0, 0,
-           (SCM string, SCM proc),
-           "Calls the one-argument procedure @var{proc} with a newly\n"
-           "created input port from which @var{string}'s contents may be\n"
-           "read.  The value yielded by the @var{proc} is returned.")
-#define FUNC_NAME s_scm_call_with_input_string
+SCM
+scm_call_with_input_string (SCM string, SCM proc)
 {
-  SCM p = scm_mkstrport(SCM_INUM0, string, SCM_OPN | SCM_RDNG, FUNC_NAME);
-  return scm_call_1 (proc, p);
+  static SCM var = SCM_BOOL_F;
+
+  if (scm_is_false (var))
+    var = scm_c_private_lookup ("guile", "call-with-input-string");
+
+  return scm_call_2 (scm_variable_ref (var), string, proc);
 }
-#undef FUNC_NAME
 
 SCM_DEFINE (scm_open_input_string, "open-input-string", 1, 0, 0,
            (SCM str),
@@ -435,8 +402,7 @@ SCM_DEFINE (scm_open_output_string, "open-output-string", 0, 0, 0,
 {
   SCM p;
 
-  p = scm_mkstrport (SCM_INUM0, 
-                    scm_make_string (SCM_INUM0, SCM_UNDEFINED),
+  p = scm_mkstrport (SCM_INUM0, SCM_BOOL_F,
                     SCM_OPN | SCM_WRTNG,
                      FUNC_NAME);
   return p;
@@ -467,7 +433,6 @@ scm_c_read_string (const char *expr)
                            "scm_c_read_string");
   SCM form;
 
-  /* Read expressions from that port; ignore the values.  */
   form = scm_read (port);
 
   scm_close_port (port);
@@ -489,25 +454,6 @@ scm_c_eval_string_in_module (const char *expr, SCM module)
 }
 
 
-static SCM
-inner_eval_string (void *data)
-{
-  SCM port = (SCM)data;
-  SCM form;
-  SCM ans = SCM_UNSPECIFIED;
-
-  /* Read expressions from that port; ignore the values.  */
-  while (!SCM_EOF_OBJECT_P (form = scm_read (port)))
-    ans = scm_primitive_eval_x (form);
-
-  /* Don't close the port here; if we re-enter this function via a
-     continuation, then the next time we enter it, we'll get an error.
-     It's a string port anyway, so there's no advantage to closing it
-     early.  */
-
-  return ans;
-}
-
 SCM_DEFINE (scm_eval_string_in_module, "eval-string", 1, 1, 0, 
             (SCM string, SCM module),
            "Evaluate @var{string} as the text representation of a Scheme\n"
@@ -519,14 +465,20 @@ SCM_DEFINE (scm_eval_string_in_module, "eval-string", 1, 1, 0,
             "procedure returns.")
 #define FUNC_NAME s_scm_eval_string_in_module
 {
-  SCM port = scm_mkstrport (SCM_INUM0, string, SCM_OPN | SCM_RDNG,
-                           FUNC_NAME);
+  static SCM eval_string = SCM_BOOL_F, k_module = SCM_BOOL_F;
+
+  if (scm_is_false (eval_string))
+    {
+      eval_string = scm_c_public_lookup ("ice-9 eval-string", "eval-string");
+      k_module = scm_from_locale_keyword ("module");
+    }
+  
   if (SCM_UNBNDP (module))
     module = scm_current_module ();
   else
     SCM_VALIDATE_MODULE (2, module);
-  return scm_c_call_with_current_module (module,
-                                        inner_eval_string, (void *)port);
+
+  return scm_call_3 (scm_variable_ref (eval_string), string, k_module, module);
 }
 #undef FUNC_NAME
 
@@ -539,11 +491,9 @@ scm_eval_string (SCM string)
 static scm_t_bits
 scm_make_stptob ()
 {
-  scm_t_bits tc = scm_make_port_type ("string", stfill_buffer, st_write);
+  scm_t_bits tc = scm_make_port_type ("string", st_fill_input, st_write);
 
-  scm_set_port_mark        (tc, scm_markstream);
   scm_set_port_end_input   (tc, st_end_input);
-  scm_set_port_flush       (tc, st_flush);
   scm_set_port_seek        (tc, st_seek);
   scm_set_port_truncate    (tc, st_truncate);