clipperhouse · clipperhouse · Jun 21, 2024 · Jun 21, 2024
diff --git a/README.md b/README.md
@@ -19,7 +19,7 @@ var example = "Hello, 🌏 world. 你好，世界.";
 // The tokenizer can split words, graphemes or sentences.
 // It operates on strings, UTF-8 bytes, and streams.
 
-var words = example.GetWords();
+var words = Tokenizer.GetWords(example);
 
 // Iterate over the tokens
 foreach (var word in words)
@@ -46,9 +46,8 @@ world
 .
 */
 
-
 var utf8bytes = Encoding.UTF8.GetBytes(example);
-var graphemes = utf8bytes.GetGraphemes();
+var graphemes = Tokenizer.GetGraphemes(utf8bytes);
 
 // Iterate over the tokens		
 foreach (var grapheme in graphemes)
@@ -109,9 +108,9 @@ If you are using v1.x of this package, v2 has been renamed:
 
 We now use extension methods:
 
-`Tokenizer.Create(input)` → `input.GetWords()`
+`Tokenizer.Create(input)` → `Tokenizer.GetWords(input)`
 
-`Tokenizer.Create(input, TokenType.Graphemes)` → `input.GetGraphemes()`
+`Tokenizer.Create(input, TokenType.Graphemes)` → `Tokenizer.GetGraphemes(input)`
 
 ### Performance
 

diff --git a/uax29/Examples.Test.cs b/uax29/Examples.Test.cs
@@ -21,7 +21,7 @@ public void Readme()
         // The tokenizer can split words, graphemes or sentences.
         // It operates on strings, UTF-8 bytes, and streams.
 
-        var words = example.GetWords();
+        var words = Tokenizer.GetWords(example);
 
         // Iterate over the tokens
         foreach (var word in words)
@@ -49,7 +49,7 @@ public void Readme()
         */
 
         var utf8bytes = Encoding.UTF8.GetBytes(example);
-        var graphemes = utf8bytes.GetGraphemes();
+        var graphemes = Tokenizer.GetGraphemes(utf8bytes);
 
         // Iterate over the tokens		
         foreach (var grapheme in graphemes)

diff --git a/uax29/README.md b/uax29/README.md
@@ -19,7 +19,7 @@ var example = "Hello, 🌏 world. 你好，世界.";
 // The tokenizer can split words, graphemes or sentences.
 // It operates on strings, UTF-8 bytes, and streams.
 
-var words = example.GetWords();
+var words = Tokenizer.GetWords(example);
 
 // Iterate over the tokens
 foreach (var word in words)
@@ -46,9 +46,8 @@ world
 .
 */
 
-
 var utf8bytes = Encoding.UTF8.GetBytes(example);
-var graphemes = utf8bytes.GetGraphemes();
+var graphemes = Tokenizer.GetGraphemes(utf8bytes);
 
 // Iterate over the tokens		
 foreach (var grapheme in graphemes)
@@ -109,9 +108,9 @@ If you are using v1.x of this package, v2 has been renamed:
 
 We now use extension methods:
 
-`Tokenizer.Create(input)` → `input.GetWords()`
+`Tokenizer.Create(input)` → `Tokenizer.GetWords(input)`
 
-`Tokenizer.Create(input, TokenType.Graphemes)` → `input.GetGraphemes()`
+`Tokenizer.Create(input, TokenType.Graphemes)` → `Tokenizer.GetGraphemes(input)`
 
 ### Performance
 

diff --git a/uax29/StreamTokenizer.Test.cs b/uax29/StreamTokenizer.Test.cs
@@ -27,10 +27,10 @@ public void Stream()
         foreach (var input in examples)
         {
             var bytes = Encoding.UTF8.GetBytes(input);
-            var staticTokens = bytes.GetWords();
+            var staticTokens = Tokenizer.GetWords(bytes);
 
             using var stream = new MemoryStream(bytes);
-            var streamTokens = stream.GetWords();
+            var streamTokens = Tokenizer.GetWords(stream);
 
             foreach (var streamToken in streamTokens)
             {

diff --git a/uax29/Tokenizer.Graphemes.cs b/uax29/Tokenizer.Graphemes.cs
@@ -11,7 +11,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<byte> GetGraphemes(this Span<byte> input) => new(input, Graphemes.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetGraphemes(Span<byte> input) => new(input, Graphemes.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the graphemes in the given <see cref="ReadOnlySpan"/> of UTF-8 encoded bytes, according to the Unicode UAX #29 spec. https://unicode.org/reports/tr29/
@@ -20,7 +20,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<byte> GetGraphemes(this ReadOnlySpan<byte> input) => new(input, Graphemes.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetGraphemes(ReadOnlySpan<byte> input) => new(input, Graphemes.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the graphemes in the given <see cref="Memory"/> of UTF-8 encoded bytes.
@@ -29,7 +29,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<byte> GetGraphemes(this Memory<byte> input) => new(input.Span, Graphemes.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetGraphemes(Memory<byte> input) => new(input.Span, Graphemes.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the graphemes in the given <see cref="ReadOnlyMemory"/> of UTF-8 encoded bytes.
@@ -38,7 +38,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<byte> GetGraphemes(this ReadOnlyMemory<byte> input) => new(input.Span, Graphemes.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetGraphemes(ReadOnlyMemory<byte> input) => new(input.Span, Graphemes.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the graphemes in the given array of UTF-8 encoded bytes.
@@ -47,7 +47,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<byte> GetGraphemes(this byte[] input) => new(input.AsSpan(), Graphemes.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetGraphemes(byte[] input) => new(input.AsSpan(), Graphemes.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the graphemes in the given string.
@@ -56,7 +56,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<char> GetGraphemes(this string input) => new(input.AsSpan(), Graphemes.SplitChars);
+    public static Tokenizer<char> GetGraphemes(string input) => new(input.AsSpan(), Graphemes.SplitChars);
 
     /// <summary>
     /// Split the graphemes in the given string.
@@ -65,7 +65,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<char> GetGraphemes(this char[] input) => new(input.AsSpan(), Graphemes.SplitChars);
+    public static Tokenizer<char> GetGraphemes(char[] input) => new(input.AsSpan(), Graphemes.SplitChars);
 
     /// <summary>
     /// Split the graphemes in the given <see cref="Span"/> of <see cref="char"/>.
@@ -75,7 +75,7 @@ public static partial class Tokenizer
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
     /// 
-    public static Tokenizer<char> GetGraphemes(this Span<char> input) => new(input, Graphemes.SplitChars);
+    public static Tokenizer<char> GetGraphemes(Span<char> input) => new(input, Graphemes.SplitChars);
 
     /// <summary>
     /// Split the graphemes in the given <see cref="ReadOnlySpan"/> of <see cref="char"/>.
@@ -84,7 +84,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<char> GetGraphemes(this ReadOnlySpan<char> input) => new(input, Graphemes.SplitChars);
+    public static Tokenizer<char> GetGraphemes(ReadOnlySpan<char> input) => new(input, Graphemes.SplitChars);
 
     /// <summary>
     /// Split the graphemes in the given <see cref="Memory"/> of <see cref="char"/>.
@@ -93,7 +93,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<char> GetGraphemes(this Memory<char> input) => new(input.Span, Graphemes.SplitChars);
+    public static Tokenizer<char> GetGraphemes(Memory<char> input) => new(input.Span, Graphemes.SplitChars);
 
     /// <summary>
     /// Split the graphemes in the given <see cref="ReadOnlyMemory"/> of <see cref="char"/>.
@@ -102,7 +102,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static Tokenizer<char> GetGraphemes(this ReadOnlyMemory<char> input) => new(input.Span, Graphemes.SplitChars);
+    public static Tokenizer<char> GetGraphemes(ReadOnlyMemory<char> input) => new(input.Span, Graphemes.SplitChars);
 
     /// <summary>
     /// Split the graphemes in the given <see cref="Stream"/> of UTF-8 encoded bytes.
@@ -127,7 +127,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static StreamTokenizer<byte> GetGraphemes(this Stream stream, int minBufferBytes = 1024, byte[]? bufferStorage = null)
+    public static StreamTokenizer<byte> GetGraphemes(Stream stream, int minBufferBytes = 1024, byte[]? bufferStorage = null)
     {
         bufferStorage ??= new byte[minBufferBytes * 2];
         var buffer = new Buffer<byte>(stream.Read, minBufferBytes, bufferStorage);
@@ -157,7 +157,7 @@ public static StreamTokenizer<byte> GetGraphemes(this Stream stream, int minBuff
     /// <returns>
     /// An enumerator of graphemes. Use foreach (var grapheme in graphemes).
     /// </returns>
-    public static StreamTokenizer<char> GetGraphemes(this TextReader stream, int minBufferChars = 1024, char[]? bufferStorage = null)
+    public static StreamTokenizer<char> GetGraphemes(TextReader stream, int minBufferChars = 1024, char[]? bufferStorage = null)
     {
         bufferStorage ??= new char[minBufferChars * 2];
         var buffer = new Buffer<char>(stream.Read, minBufferChars, bufferStorage);

diff --git a/uax29/Tokenizer.Sentences.cs b/uax29/Tokenizer.Sentences.cs
@@ -11,7 +11,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<byte> GetSentences(this Span<byte> input) => new(input, Sentences.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetSentences(Span<byte> input) => new(input, Sentences.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the sentences in the given <see cref="ReadOnlySpan"/> of UTF-8 encoded bytes, according to the Unicode UAX #29 spec. https://unicode.org/reports/tr29/
@@ -20,7 +20,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<byte> GetSentences(this ReadOnlySpan<byte> input) => new(input, Sentences.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetSentences(ReadOnlySpan<byte> input) => new(input, Sentences.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the sentences in the given <see cref="Memory"/> of UTF-8 encoded bytes.
@@ -29,7 +29,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<byte> GetSentences(this Memory<byte> input) => new(input.Span, Sentences.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetSentences(Memory<byte> input) => new(input.Span, Sentences.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the sentences in the given <see cref="ReadOnlyMemory"/> of UTF-8 encoded bytes.
@@ -38,7 +38,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<byte> GetSentences(this ReadOnlyMemory<byte> input) => new(input.Span, Sentences.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetSentences(ReadOnlyMemory<byte> input) => new(input.Span, Sentences.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the sentences in the given array of UTF-8 encoded bytes.
@@ -47,7 +47,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<byte> GetSentences(this byte[] input) => new(input.AsSpan(), Sentences.SplitUtf8Bytes);
+    public static Tokenizer<byte> GetSentences(byte[] input) => new(input.AsSpan(), Sentences.SplitUtf8Bytes);
 
     /// <summary>
     /// Split the sentences in the given string.
@@ -56,7 +56,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<char> GetSentences(this string input) => new(input.AsSpan(), Sentences.SplitChars);
+    public static Tokenizer<char> GetSentences(string input) => new(input.AsSpan(), Sentences.SplitChars);
 
     /// <summary>
     /// Split the sentences in the given string.
@@ -65,7 +65,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<char> GetSentences(this char[] input) => new(input.AsSpan(), Sentences.SplitChars);
+    public static Tokenizer<char> GetSentences(char[] input) => new(input.AsSpan(), Sentences.SplitChars);
 
     /// <summary>
     /// Split the sentences in the given <see cref="Span"/> of <see cref="char"/>.
@@ -75,7 +75,7 @@ public static partial class Tokenizer
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
     /// 
-    public static Tokenizer<char> GetSentences(this Span<char> input) => new(input, Sentences.SplitChars);
+    public static Tokenizer<char> GetSentences(Span<char> input) => new(input, Sentences.SplitChars);
 
     /// <summary>
     /// Split the sentences in the given <see cref="ReadOnlySpan"/> of <see cref="char"/>.
@@ -84,7 +84,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<char> GetSentences(this ReadOnlySpan<char> input) => new(input, Sentences.SplitChars);
+    public static Tokenizer<char> GetSentences(ReadOnlySpan<char> input) => new(input, Sentences.SplitChars);
 
     /// <summary>
     /// Split the sentences in the given <see cref="Memory"/> of <see cref="char"/>.
@@ -93,7 +93,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<char> GetSentences(this Memory<char> input) => new(input.Span, Sentences.SplitChars);
+    public static Tokenizer<char> GetSentences(Memory<char> input) => new(input.Span, Sentences.SplitChars);
 
     /// <summary>
     /// Split the sentences in the given <see cref="ReadOnlyMemory"/> of <see cref="char"/>.
@@ -102,7 +102,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static Tokenizer<char> GetSentences(this ReadOnlyMemory<char> input) => new(input.Span, Sentences.SplitChars);
+    public static Tokenizer<char> GetSentences(ReadOnlyMemory<char> input) => new(input.Span, Sentences.SplitChars);
 
 
 
@@ -129,7 +129,7 @@ public static partial class Tokenizer
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static StreamTokenizer<byte> GetSentences(this Stream stream, int minBufferBytes = 1024, byte[]? bufferStorage = null)
+    public static StreamTokenizer<byte> GetSentences(Stream stream, int minBufferBytes = 1024, byte[]? bufferStorage = null)
     {
         bufferStorage ??= new byte[minBufferBytes * 2];
         var buffer = new Buffer<byte>(stream.Read, minBufferBytes, bufferStorage);
@@ -159,7 +159,7 @@ public static StreamTokenizer<byte> GetSentences(this Stream stream, int minBuff
     /// <returns>
     /// An enumerator of sentences. Use foreach (var sentence in sentences).
     /// </returns>
-    public static StreamTokenizer<char> GetSentences(this TextReader stream, int minBufferChars = 1024, char[]? bufferStorage = null)
+    public static StreamTokenizer<char> GetSentences(TextReader stream, int minBufferChars = 1024, char[]? bufferStorage = null)
     {
         bufferStorage ??= new char[minBufferChars * 2];
         var buffer = new Buffer<char>(stream.Read, minBufferChars, bufferStorage);