2002-07-20 Han-Wen <hanwen@cs.uu.nl>
[bpt/guile.git] / libguile / strings.c
index 27f56ba..cbfab7b 100644 (file)
@@ -1,4 +1,4 @@
-/*     Copyright (C) 1995,1996,1998 Free Software Foundation, Inc.
+/* Copyright (C) 1995,1996,1998,2000,2001 Free Software Foundation, Inc.
  * 
  * This program is free software; you can redistribute it and/or modify
  * it under the terms of the GNU General Public License as published by
  * whether to permit this exception to apply to your modifications.
  * If you do not wish that, delete this exception notice.  */
 
-/* Software engineering face-lift by Greg J. Badros, 11-Dec-1999,
-   gjb@cs.washington.edu, http://www.cs.washington.edu/homes/gjb */
 
 \f
 
-#include <stdio.h>
-#include "_scm.h"
-#include "chars.h"
+#include <string.h>
+
+#include "libguile/_scm.h"
+#include "libguile/chars.h"
+#include "libguile/root.h"
+#include "libguile/strings.h"
+#include "libguile/deprecation.h"
+#include "libguile/validate.h"
 
-#include "strings.h"
-#include "scm_validate.h"
 \f
 
 /* {Strings}
  */
 
 SCM_DEFINE (scm_string_p, "string?", 1, 0, 0, 
-           (SCM x),
-"")
+           (SCM obj),
+           "Return @code{#t} if @var{obj} is a string, else @code{#f}.")
 #define FUNC_NAME s_scm_string_p
 {
-  if (SCM_IMP (x))
-    return SCM_BOOL_F;
-  return SCM_BOOL(SCM_STRINGP (x));
+  return SCM_BOOL (SCM_STRINGP (obj));
 }
 #undef FUNC_NAME
 
-SCM_DEFINE (scm_read_only_string_p, "read-only-string?", 1, 0, 0, 
-           (SCM x),
-"Return true of OBJ can be read as a string,
-
-This illustrates the difference between @code{string?} and
-@code{read-only-string?}:
 
-@example
-(string? \"a string\") @result{} #t
-(string? 'a-symbol) @result{} #f
+SCM_REGISTER_PROC (s_scm_list_to_string, "list->string", 1, 0, 0, scm_string);
 
-(read-only-string? \"a string\") @result{} #t
-(read-only-string? 'a-symbol) @result{} #t
-@end example")
-#define FUNC_NAME s_scm_read_only_string_p
+SCM_DEFINE (scm_string, "string", 0, 0, 1, 
+            (SCM chrs),
+           "@deffnx {Scheme Procedure} list->string chrs\n"
+           "Return a newly allocated string composed of the arguments,\n"
+           "@var{chrs}.")
+#define FUNC_NAME s_scm_string
 {
-  if (SCM_IMP (x))
-    return SCM_BOOL_F;
-  return SCM_BOOL(SCM_ROSTRINGP (x));
-}
-#undef FUNC_NAME
+  SCM result;
 
-SCM_REGISTER_PROC(s_list_to_string, "list->string", 1, 0, 0, scm_string);
+  {
+    long i = scm_ilength (chrs);
 
+    SCM_ASSERT (i >= 0, chrs, SCM_ARG1, FUNC_NAME);
+    result = scm_allocate_string (i);
+  }
 
-SCM_DEFINE (scm_string, "string", 0, 0, 1, 
-           (SCM chrs),
-"")
-#define FUNC_NAME s_scm_string
-{
-  SCM res;
-  register unsigned char *data;
-  long i;
-  long len;
-  SCM_DEFER_INTS;
-  i = scm_ilength (chrs);
-  if (i < 0)
-    {
-      SCM_ALLOW_INTS;
-      SCM_ASSERT (0, chrs, SCM_ARG1, FUNC_NAME);
-    }
-  len = 0;
   {
-    SCM s;
-
-    for (len = 0, s = chrs; s != SCM_EOL; s = SCM_CDR (s))
-      if (SCM_ICHRP (SCM_CAR (s)))
-       len += 1;
-      else if (SCM_ROSTRINGP (SCM_CAR (s)))
-       len += SCM_ROLENGTH (SCM_CAR (s));
-      else
-       {
-         SCM_ALLOW_INTS;
-         SCM_ASSERT (0, s, SCM_ARG1, FUNC_NAME);
-       }
+    unsigned char *data = SCM_STRING_UCHARS (result);
+
+    while (!SCM_NULLP (chrs))
+      {
+       SCM elt = SCM_CAR (chrs);
+
+       SCM_VALIDATE_CHAR (SCM_ARGn, elt);
+       *data++ = SCM_CHAR (elt);
+       chrs = SCM_CDR (chrs);
+      }
   }
-  res = scm_makstr (len, 0);
-  data = SCM_UCHARS (res);
-  for (;SCM_NNULLP (chrs);chrs = SCM_CDR (chrs))
-    {
-      if (SCM_ICHRP (SCM_CAR (chrs)))
-       *data++ = SCM_ICHR (SCM_CAR (chrs));
-      else
-       {
-         int l;
-         char * c;
-         l = SCM_ROLENGTH (SCM_CAR (chrs));
-         c = SCM_ROCHARS (SCM_CAR (chrs));
-         while (l)
-           {
-             --l;
-             *data++ = *c++;
-           }
-       }
-    }
-  SCM_ALLOW_INTS;
-  return res;
+  return result;
 }
 #undef FUNC_NAME
 
 
-SCM 
-scm_makstr (long len, int slots)
-{
-  SCM s;
-  SCM * mem;
-  SCM_NEWCELL (s);
-  --slots;
-  SCM_REDEFER_INTS;
-  mem = (SCM *)scm_must_malloc (sizeof (SCM) * (slots + 1) + len + 1,
-                               "scm_makstr");
-  if (slots >= 0)
-    {
-      int x;
-      mem[slots] = (SCM)mem;
-      for (x = 0; x < slots; ++x)
-       mem[x] = SCM_BOOL_F;
-    }
-  SCM_SETCHARS (s, (char *) (mem + slots + 1));
-  SCM_SETLENGTH (s, len, scm_tc7_string);
-  SCM_REALLOW_INTS;
-  SCM_CHARS (s)[len] = 0;
-  return s;
-}
-
 /* converts C scm_array of strings to SCM scm_list of strings. */
 /* If argc < 0, a null terminated scm_array is assumed. */
-
 SCM 
 scm_makfromstrs (int argc, char **argv)
 {
@@ -182,7 +111,7 @@ scm_makfromstrs (int argc, char **argv)
   if (0 > i)
     for (i = 0; argv[i]; i++);
   while (i--)
-    lst = scm_cons (scm_makfromstr (argv[i], (scm_sizet) strlen (argv[i]), 0), lst);
+    lst = scm_cons (scm_mem2string (argv[i], strlen (argv[i])), lst);
   return lst;
 }
 
@@ -196,17 +125,20 @@ scm_makfromstrs (int argc, char **argv)
    strings by claiming they're shared substrings of a string we just
    made up.  */
 SCM
-scm_take_str (char *s, int len)
+scm_take_str (char *s, size_t len)
+#define FUNC_NAME "scm_take_str"
 {
   SCM answer;
-  SCM_NEWCELL (answer);
-  SCM_DEFER_INTS;
-  SCM_SETLENGTH (answer, len, scm_tc7_string);
-  scm_done_malloc (len + 1);
-  SCM_SETCHARS (answer, s);
-  SCM_ALLOW_INTS;
+
+  SCM_ASSERT_RANGE (2, scm_ulong2num (len), len <= SCM_STRING_MAX_LENGTH);
+
+  answer = scm_cell (SCM_MAKE_STRING_TAG (len), (scm_t_bits) s);
+  scm_gc_register_collectable_memory (s, len+1, "string");
+
   return answer;
 }
+#undef FUNC_NAME
+
 
 /* `s' must be a malloc'd string.  See scm_take_str.  */
 SCM
@@ -217,24 +149,29 @@ scm_take0str (char *s)
 
 
 SCM 
-scm_makfromstr (const char *src, scm_sizet len, int slots)
+scm_mem2string (const char *src, size_t len)
 {
-  SCM s;
-  register char *dst;
-  s = scm_makstr ((long) len, slots);
-  dst = SCM_CHARS (s);
+  SCM s = scm_allocate_string (len);
+  char *dst = SCM_STRING_CHARS (s);
+
   while (len--)
     *dst++ = *src++;
   return s;
 }
 
 
+SCM
+scm_str2string (const char *src)
+{
+  return scm_mem2string (src, strlen (src));
+}
+
 
 SCM 
 scm_makfrom0str (const char *src)
 {
   if (!src) return SCM_BOOL_F;
-  return scm_makfromstr (src, (scm_sizet) strlen (src), 0);
+  return scm_mem2string (src, strlen (src));
 }
 
 
@@ -245,164 +182,238 @@ scm_makfrom0str_opt (const char *src)
 }
 
 
+SCM
+scm_allocate_string (size_t len)
+#define FUNC_NAME "scm_allocate_string"
+{
+  char *mem;
+  SCM s;
+
+  SCM_ASSERT_RANGE (1, scm_long2num (len), len <= SCM_STRING_MAX_LENGTH);
+
+  mem = (char *) scm_gc_malloc (len + 1, "string");
+  mem[len] = 0;
+
+  s = scm_cell (SCM_MAKE_STRING_TAG (len), (scm_t_bits) mem);
+
+  return s;
+}
+#undef FUNC_NAME
 
 
 SCM_DEFINE (scm_make_string, "make-string", 1, 1, 0,
-           (SCM k, SCM chr),
-"")
+            (SCM k, SCM chr),
+           "Return a newly allocated string of\n"
+            "length @var{k}.  If @var{chr} is given, then all elements of\n"
+           "the string are initialized to @var{chr}, otherwise the contents\n"
+           "of the @var{string} are unspecified.")
 #define FUNC_NAME s_scm_make_string
 {
-  SCM res;
-  register long i;
-  SCM_VALIDATE_INUM_MIN_COPY (1,k,0,i);
-  res = scm_makstr (i, 0);
-  if (!SCM_UNBNDP (chr))
+  if (SCM_INUMP (k))
     {
-      SCM_VALIDATE_CHAR (2,chr);
-      {
-       unsigned char *dst = SCM_UCHARS (res);
-       char c = SCM_ICHR (chr);
-       
-       memset (dst, c, i);
-      }
+      long int i = SCM_INUM (k);
+      SCM res;
+
+      SCM_ASSERT_RANGE (1, k, i >= 0);
+
+      res = scm_allocate_string (i);
+      if (!SCM_UNBNDP (chr))
+       {
+         unsigned char *dst;
+
+         SCM_VALIDATE_CHAR (2, chr);
+
+         dst = SCM_STRING_UCHARS (res);
+         memset (dst, SCM_CHAR (chr), i);
+       }
+
+      return res;
     }
-  return res;
+  else if (SCM_BIGP (k))
+    SCM_OUT_OF_RANGE (1, k);
+  else
+    SCM_WRONG_TYPE_ARG (1, k);
 }
 #undef FUNC_NAME
 
+
 SCM_DEFINE (scm_string_length, "string-length", 1, 0, 0, 
-           (SCM str),
-"")
+           (SCM string),
+           "Return the number of characters in @var{string}.")
 #define FUNC_NAME s_scm_string_length
 {
-  SCM_VALIDATE_ROSTRING (1,str);
-  return SCM_MAKINUM (SCM_ROLENGTH (str));
+  SCM_VALIDATE_STRING (1, string);
+  return SCM_MAKINUM (SCM_STRING_LENGTH (string));
 }
 #undef FUNC_NAME
 
-SCM_DEFINE (scm_string_ref, "string-ref", 1, 1, 0,
-           (SCM str, SCM k),
-"")
+SCM_DEFINE (scm_string_ref, "string-ref", 2, 0, 0,
+            (SCM str, SCM k),
+           "Return character @var{k} of @var{str} using zero-origin\n"
+           "indexing. @var{k} must be a valid index of @var{str}.")
 #define FUNC_NAME s_scm_string_ref
 {
-  SCM_VALIDATE_ROSTRING (1,str);
-  SCM_VALIDATE_INUM_DEF (2,k,0);
-  SCM_ASSERT_RANGE (2,k,SCM_INUM (k) < SCM_ROLENGTH (str) && SCM_INUM (k) >= 0);
-  return SCM_MAKICHR (SCM_ROUCHARS (str)[SCM_INUM (k)]);
+  long idx;
+
+  SCM_VALIDATE_STRING (1, str);
+  SCM_VALIDATE_INUM_COPY (2, k, idx);
+  SCM_ASSERT_RANGE (2, k, idx >= 0 && idx < SCM_STRING_LENGTH (str));
+  return SCM_MAKE_CHAR (SCM_STRING_UCHARS (str)[idx]);
 }
 #undef FUNC_NAME
 
+
 SCM_DEFINE (scm_string_set_x, "string-set!", 3, 0, 0,
-           (SCM str, SCM k, SCM chr),
-"")
+            (SCM str, SCM k, SCM chr),
+           "Store @var{chr} in element @var{k} of @var{str} and return\n"
+           "an unspecified value. @var{k} must be a valid index of\n"
+           "@var{str}.")
 #define FUNC_NAME s_scm_string_set_x
 {
-  SCM_VALIDATE_RWSTRING (1,str);
-  SCM_VALIDATE_INUM_RANGE (2,k,0,SCM_LENGTH(str));
-  SCM_VALIDATE_CHAR (3,chr);
-  SCM_UCHARS (str)[SCM_INUM (k)] = SCM_ICHR (chr);
+  SCM_VALIDATE_STRING (1, str);
+  SCM_VALIDATE_INUM_RANGE (2, k,0, SCM_STRING_LENGTH(str));
+  SCM_VALIDATE_CHAR (3, chr);
+  SCM_STRING_UCHARS (str)[SCM_INUM (k)] = SCM_CHAR (chr);
   return SCM_UNSPECIFIED;
 }
 #undef FUNC_NAME
 
 
-
 SCM_DEFINE (scm_substring, "substring", 2, 1, 0,
-           (SCM str, SCM start, SCM end),
-"")
+           (SCM str, SCM start, SCM end),
+           "Return a newly allocated string formed from the characters\n"
+            "of @var{str} beginning with index @var{start} (inclusive) and\n"
+           "ending with index @var{end} (exclusive).\n"
+            "@var{str} must be a string, @var{start} and @var{end} must be\n"
+           "exact integers satisfying:\n\n"
+            "0 <= @var{start} <= @var{end} <= (string-length @var{str}).")
 #define FUNC_NAME s_scm_substring
 {
-  long l;
-  SCM_VALIDATE_ROSTRING (1,str);
-  SCM_VALIDATE_INUM (2,start);
-  SCM_VALIDATE_INUM_DEF (3,end,SCM_ROLENGTH(str));
-  SCM_ASSERT_RANGE (2,start,SCM_INUM (start) <= SCM_ROLENGTH (str));
-  SCM_ASSERT_RANGE (2,end,SCM_INUM (end) <= SCM_ROLENGTH (str));
-  l = SCM_INUM (end)-SCM_INUM (start);
-  SCM_ASSERT (l >= 0, SCM_MAKINUM (l), SCM_OUTOFRANGE, FUNC_NAME);
-  return scm_makfromstr (&SCM_ROCHARS (str)[SCM_INUM (start)], (scm_sizet)l, 0);
+  long int from;
+  long int to;
+  SCM substr;
+
+  SCM_VALIDATE_STRING (1, str);
+  SCM_VALIDATE_INUM (2, start);
+  SCM_VALIDATE_INUM_DEF (3, end, SCM_STRING_LENGTH (str));
+
+  from = SCM_INUM (start);
+  SCM_ASSERT_RANGE (2, start, 0 <= from && from <= SCM_STRING_LENGTH (str));
+  to = SCM_INUM (end);
+  SCM_ASSERT_RANGE (3, end, from <= to && to <= SCM_STRING_LENGTH (str));
+
+  substr = scm_mem2string (&SCM_STRING_CHARS (str)[from], to - from);
+  scm_remember_upto_here_1 (str);
+  return substr;
 }
 #undef FUNC_NAME
 
+
 SCM_DEFINE (scm_string_append, "string-append", 0, 0, 1, 
-           (SCM args),
-"")
+            (SCM args),
+           "Return a newly allocated string whose characters form the\n"
+            "concatenation of the given strings, @var{args}.")
 #define FUNC_NAME s_scm_string_append
 {
   SCM res;
-  register long i = 0;
+  size_t i = 0;
   register SCM l, s;
   register unsigned char *data;
-  for (l = args;SCM_CONSP (l);) {
+
+  SCM_VALIDATE_REST_ARGUMENT (args);
+  for (l = args; !SCM_NULLP (l); l = SCM_CDR (l)) {
     s = SCM_CAR (l);
-    SCM_VALIDATE_ROSTRING (SCM_ARGn,s);
-    i += SCM_ROLENGTH (s);
-    l = SCM_CDR (l);
+    SCM_VALIDATE_STRING (SCM_ARGn, s);
+    i += SCM_STRING_LENGTH (s);
   }
-  SCM_ASSERT (SCM_NULLP (l), args, SCM_ARGn, FUNC_NAME);
-  res = scm_makstr (i, 0);
-  data = SCM_UCHARS (res);
-  for (l = args;SCM_NIMP (l);l = SCM_CDR (l)) {
+  res = scm_allocate_string (i);
+  data = SCM_STRING_UCHARS (res);
+  for (l = args; !SCM_NULLP (l);l = SCM_CDR (l)) {
     s = SCM_CAR (l);
-    for (i = 0;i<SCM_ROLENGTH (s);i++) *data++ = SCM_ROUCHARS (s)[i];
+    for (i = 0;i<SCM_STRING_LENGTH (s);i++) *data++ = SCM_STRING_UCHARS (s)[i];
   }
   return res;
 }
 #undef FUNC_NAME
 
-SCM_DEFINE (scm_make_shared_substring, "make-shared-substring", 1, 2, 0,
-           (SCM str, SCM frm, SCM to),
-"Return a shared substring of @var{str}.  The semantics are the same as
-for the @code{substring} function: the shared substring returned
-includes all of the text from @var{str} between indexes @var{start}
-(inclusive) and @var{end} (exclusive).  If @var{end} is omitted, it
-defaults to the end of @var{str}.  The shared substring returned by
-@code{make-shared-substring} occupies the same storage space as
-@var{str}.")
-#define FUNC_NAME s_scm_make_shared_substring
-{
-  long f;
-  long t;
-  SCM answer;
-  SCM len_str;
 
-  SCM_VALIDATE_ROSTRING (1,str);
-  SCM_VALIDATE_INUM_DEF_COPY (2,frm,0,f);
-  SCM_VALIDATE_INUM_DEF_COPY (3,to,SCM_ROLENGTH(str),t);
+/* Converts the given Scheme string OBJ into a C string, containing a copy
+   of OBJ's content with a trailing null byte.  If LENP is non-NULL, set
+   *LENP to the string's length.
+
+   When STR is non-NULL it receives the copy and is returned by the function,
+   otherwise new memory is allocated and the caller is responsible for 
+   freeing it via free().  If out of memory, NULL is returned.
 
-  SCM_ASSERT_RANGE (2,frm,(f >= 0));
-  SCM_ASSERT_RANGE (3,to, (f <= t) && (t <= SCM_ROLENGTH (str)));
+   Note that Scheme strings may contain arbitrary data, including null
+   characters.  This means that null termination is not a reliable way to 
+   determine the length of the returned value.  However, the function always 
+   copies the complete contents of OBJ, and sets *LENP to the length of the
+   scheme string (if LENP is non-null).  */
+#define FUNC_NAME "scm_c_string2str"
+char *
+scm_c_string2str (SCM obj, char *str, size_t *lenp)
+{
+  size_t len;
 
-  SCM_NEWCELL (answer);
-  SCM_NEWCELL (len_str);
+  SCM_ASSERT (SCM_STRINGP (obj), obj, SCM_ARG1, FUNC_NAME);
+  len = SCM_STRING_LENGTH (obj);
 
-  SCM_DEFER_INTS;
-  if (SCM_SUBSTRP (str))
-    {
-      long offset;
-      offset = SCM_INUM (SCM_SUBSTR_OFFSET (str));
-      f += offset;
-      t += offset;
-      SCM_SETCAR (len_str, SCM_MAKINUM (f));
-      SCM_SETCDR (len_str, SCM_SUBSTR_STR (str));
-      SCM_SETCDR (answer, len_str);
-      SCM_SETLENGTH (answer, t - f, scm_tc7_substring);
-    }
-  else
+  if (str == NULL)
     {
-      SCM_SETCAR (len_str, SCM_MAKINUM (f));
-      SCM_SETCDR (len_str, str);
-      SCM_SETCDR (answer, len_str);
-      SCM_SETLENGTH (answer, t - f, scm_tc7_substring);
+      /* FIXME: Should we use exported wrappers for malloc (and free), which
+       * allow windows DLLs to call the correct freeing function? */
+      str = (char *) malloc ((len + 1) * sizeof (char));
+      if (str == NULL)
+       return NULL;
     }
-  SCM_ALLOW_INTS;
-  return answer;
+
+  memcpy (str, SCM_STRING_CHARS (obj), len);
+  scm_remember_upto_here_1 (obj);
+  str[len] = '\0';
+
+  if (lenp != NULL)
+    *lenp = len;
+
+  return str;
 }
 #undef FUNC_NAME
 
+
+/* Copy LEN characters at START from the Scheme string OBJ to memory
+   at STR.  START is an index into OBJ; zero means the beginning of
+   the string.  STR has already been allocated by the caller.
+
+   If START + LEN is off the end of OBJ, silently truncate the source
+   region to fit the string.  If truncation occurs, the corresponding
+   area of STR is left unchanged.  */
+#define FUNC_NAME "scm_c_substring2str"
+char *
+scm_c_substring2str (SCM obj, char *str, size_t start, size_t len)
+{
+  size_t src_length, effective_length;
+
+  SCM_ASSERT (SCM_STRINGP (obj), obj, SCM_ARG2, FUNC_NAME);
+  src_length = SCM_STRING_LENGTH (obj);
+  effective_length = (len + start <= src_length) ? len : src_length - start;
+  memcpy (str, SCM_STRING_CHARS (obj) + start, effective_length);
+  scm_remember_upto_here_1 (obj);
+  return str;
+}
+#undef FUNC_NAME
+
+
 void
 scm_init_strings ()
 {
-#include "strings.x"
+  scm_nullstr = scm_allocate_string (0);
+
+#include "libguile/strings.x"
 }
 
+
+/*
+  Local Variables:
+  c-file-style: "gnu"
+  End:
+*/