RegEx hashtag matching #foo and #foo-fåäö, but not http://this.is/no#hashtag
javascript RegEx hashtag matching #foo and #foo-fåäö but not http://this.is/no#hashtag

Currently we re using javascript new RegExp( #[^,#=!s][^,#=!s]* ) (see [1]) and it mostly works, except that it also matches URLs with anchors like http://this。is/no#hashtag and also we d rather avoid matching foo#bar



#public #writable #kommentarer-till-beta -- all these should be matched
Verkligen #bra jobbat! T ex #kommentarer till #artiklar och #blogginlägg, kool。 -- mixed within text
http://this。is/no#hashtag -- problem
xxy#bar      -- We d prefer not matching this one, and。。。
#foo=bar   =foo#bar  -- we probably shouldn t match any of those either。
#foo,bar #foo;bar #foo-bar #foo:bar   -- We re flexible on whether these get matched in part or in full


(showing $ instead of <a class=tag href=。。。。。>。。。</a> for readability reasons)

$ $ $ -- all these should be matched
Verkligen $ jobbat! T ex $ till $ och $, kool。 -- mixed within text
http://this。is/no$ -- problem
xxy$      -- We d prefer not matching this one, and。。。
$=bar   =foo$  -- we probably shouldn t match any of those either。
$,bar $ $ $   -- We re flexible on whether these get matched in part or in full

[1] http://github。com/ether/pad/blob/master/etherpad/src/plugins/twitterStyleTags/hooks。js


我认为,寻找字面界线将在这里 do(或显然缺乏字面),这似乎与我相对应。

<编码> B#[^,#=!s]+ don t对第三行或第四行的任何改动。 然而,它符合诺福oo的 #,以及你所举的标志所涵盖的一切。

EDIT: 经过几处互换, B#[^,#=!s]+[s,]将与第一和第二行的所有内容一致。 第3-5条线和第6条线没有对应,除禁忌外,所有东西都完全吻合(只有#,巴bar在 com之前有对应关系)。

您很可能要求一个捕获组在最后离开白天或 com,以便d 成为<条码>B(#[^,#=!s]+)[s,]。

(如果你真的希望第6行的所有标签都完全吻合,将 com子从头等大类中删除)。)




