Question

我有一个数据框架,其中一栏载有一组名字。我愿介绍一下该栏的一部分名称,并做了如下解释:

DF$newname <- sapply(strsplit(as.character(DF$oldname), "_"),  [ , 5)

举例来说,分部分的第五部分包含特征说明中的名称部分。问题是,这一数据集包含不同格式的<代码>oldname。在第一种格式中,名称如下:XXX是:

xxx_xxx_xxx_xxx_name_xx  (name is in fifth position)

缩略语 looks

xxx_xxx_xxx_xxx_xxx_name_xx  (name is in sixth position)

我认为,我可以使用“<条码>>代号,从职能范围内指挥,但与以下守则相左:

namesplit = function(df){ 
  x <- strsplit(as.character(df$oldname), "_"),  [ , 5)
  y <- strsplit(as.character(df$oldname), "_"),  [ , 6)
  ifelse(is.character(x),x,y) }
DF$newname <- sapply(DF,namesplit)

我知道,这部法典没有工作,可以这样使用<条码>[,但我并不相信最佳方式。我认为,我可以在<<<>t>for loop>的<代码>内进行这项工作,但我更希望找到一种办法,以允许我使用pply的方式提取名字。

thanks.

Answer 1

You can easily do this using gsub

names <- c( xxx_xxx_xxx_xxx_xxx_name1_xx ,  xxx_xxx_xxx_xxx_name2_xx )
gsub("^.*_([[:alnum:]]+)_.*$", "\1", names)


[1] "name1" "name2"

Answer 2

如果名字是倒数部分,那么:

x <- c("xxx_xxx_xxx_xxx_name_xx", "xxx_xxx_xxx_xxx_xxx_name_xx")


namesplit = function(x){
x <- strsplit(as.character(x), "_")
sapply(x, function(x) x[length(x)-1])
}

HTH

友情链接