Question

我正在使用<代码>tm和lda在R中编订一套新闻文章范本。然而,我正在遇到一个“非果园”问题,作为<条码>“<>>”,即阐述我的题目。我的工作流程如下:

text <- Corpus(VectorSource(d$text))
newtext <- lapply(text, tolower)
sw <- c(stopwords("english"), "ahram", "online", "egypt", "egypts", "egyptian")
newtext <- lapply(newtext, function(x) removePunctuation(x))
newtext <- lapply(newtext, function(x) removeWords(x, sw))
newtext <- lapply(newtext, function(x) removeNumbers(x))
newtext <- lapply(newtext, function(x) stripWhitespace(x))
d$processed <- unlist(newtext)
corpus <- lexicalize(d$processed)
k <- 40
result <-lda.collapsed.gibbs.sampler(corpus$documents, k, corpus$vocab, 500, .02, .05,
compute.log.likelihood = TRUE, trace = 2L)

不幸的是,当我训练Lda模型时,除了最经常出现的字眼外,一切都看着“”。我试图通过将其从下文所述原封节中删除来加以纠正,并重新更新上述模式:

newtext <- lapply(newtext, function(x) removeWords(x, ""))

但是,情况仍然如此。

str_split(newtext[[1]], " ")

[[1]]
 [1] ""              "body"          "mohamed"       "hassan"       
 [5] "cook"          "found"         "turkish"       "search"       
 [9] "rescue"        "teams"         "rescued"       "hospital"     
[13] "rescue"        "teams"         "continued"     "search"       
[17] "missing"       "body"          "cook"          "crew"         
[21] "wereegyptians" "sudanese"      "syrians"       "hassan"       
[25] "cook"          "cargo"         "ship"          "sea"          
[29] "bright"        "crashed"       "thursday"      "port"         
[33] "antalya"       "southern"      "turkey"        "vessel"       
[37] "collided"      "rocks"         "port"          "thursday"     
[41] "night"         "result"        "heavy"         "winds"        
[45] "waves"         "crew"          ""

就如何消除这一问题提出任何建议? 在我的中词清单中添加<条码>也无帮助。

Answer 1

我讨论的是案文,但并非一帆风顺,因此,这是摆脱“你”的两种办法。额外“”性质很可能是因为判决之间有双重空间。在你把案文变成一个言辞之前或之后,你可以处理这一状况。你们可以把所有“x2”改为“x1”,然后才能这样做(你必须在插图之后除名)。

x <- "I like to ride my bicycle.  Do you like to ride too?"

#TREAT BEFORE(OPTION):
a <- gsub(" +", " ", x)
strsplit(a,  " ")

#TREAT AFTER OPTION:
y <- unlist(strsplit(x, " "))
y[!y%in%""]

也可以尝试:

newtext <- lapply(newtext, function(x) gsub(" +", " ", x))

Again I don t use tm so this may not be of help but this post hadn t seen any action so I figured I d share possibilities.

Answer 2

如果你已经建立了这套书状,将文件长度作为过滤器,将其附在meta()上,然后制作新的文件。

dtm <- DocumentTermMatrix(corpus)

## terms per document
doc.length = rowSums(as.matrix(dtm))

## add length as description term
meta(corpus.clean.noTL,tag="Length") <- doc.length

## create new corpus
corpus.noEmptyDocs <- tm_filter(corpus, FUN = sFilter, "Length > 0")

## remove Length as meta tag
meta(corpus.clean.noTL,tag="Length") <- NULL

采用上述方法,你可以计算有效地劫持tm现有的矩阵操纵支持,但只有5行代码。

友情链接