Salma,恐怕这不是你提问的适当论坛,因为它与方案规划没有直接关系。 我建议你再次在corpora list上提问。 你也不妨首先查找档案。
除此之外,你的问题不够准确,我解释了我所说的话。 我假定,你的项目是计算判决与判决之间的内在相似性,而不是在很多人中,相互相似之处。 如果是这样,那么可以考虑: 首先,无论是从计算语言还是理论语言的角度来看,都不清楚语义上的相似性的确切含义。 其观点和定义多种多样,都取决于所要解决的问题类型、手头的工具和技术以及完成这项任务的背景等。 考虑这些例子:
- Pete and Rob have found a dog near the station.
- Pete and Rob have never found a dog near the station.
- Pete and Rob both like programming a lot.
- Patricia found a dog near the station.
- It was a dog who found Pete and Rob under the snow.
第2-4号判决中哪些判决与第1条相似? 2 是1对面的,但还是Pete和Rob(而不是)发现狗。 3 涉及佩特和罗布,但情况完全不同。 4 即将在站附近找到一个狗,但发现者是其他人。 5 涉及佩特、罗布、狗和寻找活动,但方式不同于1。 就我而言,即使不必写计算机程序,我也无法根据这些例子的相似性来排列。
为了理解同感,你必须首先决定你想要什么与世俗相近,什么不是。 为了计算刑期上的属人性相似性,理想的做法是比较判决的某种含义。 平均代表制通常属于逻辑公式,极为复杂。 然而,有一些试图这样做的工具,例如Boxer。
作为一种简单但往往是实际的做法,你将把属人性的相似性定义为一句话中与另一句话之间相似之处的总和。 这使问题变得非常容易,尽管仍有一些困难的问题需要解决,因为语义上的相似性与判决的相似性一样,也很难界定。 如果想给人以这种印象,请看D.A. Cruse(1986年)所编的Lexical Semantics。 然而,有许多工具和技术用来计算二字之间的对应性。 其中一些国家将其基本定义为在以下一类的税制中两字的负面距离:Word Net或Wikipedia taxonomy(见 rel=“nofollow noretinger”>。 另一些则采用一些统计措施,对大体文字群进行计算,从而对同异性进行补偿。 它们基于这样的见解,即类似言论在类似情况下发生。 第三种计算“或之间同声”的方法涉及您从信息检索中可能知道的病媒空间模型。 为了解后一种技术,请在《》一书中研究第8.5章。 曼宁和舒尔茨的统计自然语言处理基金会。
现在,希望你们能够站出来。