-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
allow doubling particles separated with punctuation #2
Comments
なるほど。 ものすごく安直な実装だと
"が" と "が" で間隔値は2になるのでパスできます。(デフォルトでは間隔値2以上はセーフとゆるめ)
この変更の仕方だと上記のような"、"の使い方も単純に間隔値が増えるのでスルーされてしまいます。("で"の間隔値が2となる) なので、仰るとおり助詞以外の単語も含めたポイント性にしてデフォルト値をもう少しあげるなりする必要が出てきそうな気はします。(今は助詞同士のみを見てる) 以前、文中の |
最初にあげた2つの例は、
という、それぞれ違う許容の仕方になっているんですよね…。逆に言うと、
をチェックできるとよいのですが、そうすると単語(文節)の依存関係(係り受け)解析+格の意味解析が必要になるので、kuromojiではできなさそうです。 現状では、ある程度NGなものも許容するのは仕方ないとして、明らかにダメなものをチェックするようになるとうれしいです。以前RedPenを試してみたときの経験では、許容したいのにNGになるケースが多発するとチェッカーとして使う気力がなくなるので、false positiveは極力避けてくれれば…と思いました。 |
自分が書いてるルール大体この方向ですね。 なので、 |
「右がiPhone、左がAndroidです。」や「ナイフで切断した後、ハンマーで破砕した。」といったように、同一の格助詞が読点で句切られている文を許容したいです。
単純には、splitSentencesの引数に使われているcharRegExpに
、
を追加すれば良さそうですが、「なんでも読点を打てばよいというのはいかがなものか」ということもあるかと思います。その場合は間隔値の算出をポイント制にして、通常の単語は1ポイント、、
が間に挟まる場合は5ポイントといったような計算をするようにしてもよいかもしれません(ポイント値は適当です)。The text was updated successfully, but these errors were encountered: