I m parsing a text file made from this Wikipedia article, basically I made a Ctrl+A and copy/paste all the content in a text file. (I use it as example). I m trying to make a list of words with their counts and for that I use a Scanner with this delimiter :
sc.useDelimiter("[\p{javaWhitespace}\p{Punct}]+");
它对我的需要很有用,但分析结果后,我看到一些东西,看起来像一个空白的牌子(https://stackoverflow.com/q/ 10765597/1140748>>Again... )。字符在文章中的(nynorsk){%/code>之后(我复制/paste这里的字符消失时是funny,在Gedit中我可以使用 和,光标不动)。
经过进一步的研究,我发现这个标志其实是 >POP 直接指令(U+202C) 。
它不是唯一的方向性,从
我想避免自己列清单,因为恐怕我会忘记其中的一些。