R海拾遗-stringr

时间:2022-07-25
本文章向大家介绍R海拾遗-stringr,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

stringr

sunqi

2020/8/13

概述

字符串处理比较优秀的包

代码

library(stringr)
library(tidyverse)
rm(list=ls())
#获取字符串长度

iris %>% mutate(len=str_length(Species)) %>% head()
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species len
## 1          5.1         3.5          1.4         0.2  setosa   6
## 2          4.9         3.0          1.4         0.2  setosa   6
## 3          4.7         3.2          1.3         0.2  setosa   6
## 4          4.6         3.1          1.5         0.2  setosa   6
## 5          5.0         3.6          1.4         0.2  setosa   6
## 6          5.4         3.9          1.7         0.4  setosa   6
# 字符串拼接
iris %>% mutate(z=str_c(Sepal.Length,Sepal.Width,sep="_")) %>% head()
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species       z
## 1          5.1         3.5          1.4         0.2  setosa 5.1_3.5
## 2          4.9         3.0          1.4         0.2  setosa   4.9_3
## 3          4.7         3.2          1.3         0.2  setosa 4.7_3.2
## 4          4.6         3.1          1.5         0.2  setosa 4.6_3.1
## 5          5.0         3.6          1.4         0.2  setosa   5_3.6
## 6          5.4         3.9          1.7         0.4  setosa 5.4_3.9
# 字符串取子集
x <- c("Apple", "Banana", "Pear")
# 第一个参数为字符串
# 第二个参数为起始位置
# 第三个参数为长度
str_sub(x, 1, 3)
## [1] "App" "Ban" "Pea"
# str_sub支持赋值操作
str_sub(x, 1, 1) <- "Q"
x
## [1] "Qpple"  "Qanana" "Qear"
# 对字符串进行匹配
# str_view()
x<-c("job","sex","hello")
# pattern 支持正则表达式
# str_view用于可视化观察
# 对于大数据没什么用,玩玩可以
str_view(string = x, pattern = "o")
  • job
  • sex
  • hello
c("s.d") %>%
  str_view("\.")# 双反斜杠用于转义字符
  • s.d
# 开始匹配和末尾匹配
str_view(x, "^j")
  • job
  • sex
  • hello
str_view(x, "x$")
  • job
  • sex
  • hello
x <- c("apple pie", "apple", "apple cake")
str_view(x, "^apple$")
  • apple pie
  • apple
  • apple cake
# 任意匹配
# d:匹配任何数字。
# s:匹配任何空格(如空格、制表符、换行符)。
# [abc]:匹配a, b或c。
# [^abc]除a、b、c之外,可以匹配任何字符。

str_view(c("sunqi", "suoqi"), "su[on]qi")
  • sunqi
  • suoqi
# 重复的问题
# 如果中间有100个任意字符,那么就需要有100个中括号
# 这是不合理的
# ? 匹配0或者1此
# + 1此或者无数次
# * 0次或者无数此
c("ssssddddswdsdsdsdsdss") %>% str_view("s?")
  • ssssddddswdsdsdsdsdss
c("ssssddddswdsdsdsdsdss") %>% str_view("s+")
  • ssssddddswdsdsdsdsdss
c("ssssddddswdsdsdsdsdss") %>% str_view("s*")
  • ssssddddswdsdsdsdsdss
#也支持正则中的{}

c("ssssddddswdsdsdsdsdss") %>% str_view("s{2}")
  • ssssddddswdsdsdsdsdss
c("ssssddddswdsdsdsdsdss") %>% str_view("s{2,3}")
  • ssssddddswdsdsdsdsdss
# 回溯引用

fruit1 <- fruit %>% head(10)
# 提取有相邻重复字符的字符
# (.)匹配任意字符
# \1 再次匹配
str_view(fruit1, "(.)\1", match = TRUE)
  • apple
  • bell pepper
  • bilberry
  • blackberry
  • blackcurrant
  • blood orange
  • blueberry
# 匹配abab, wcwc
# 两个点表示两个字符
str_view(fruit1, "(..)\1", match = TRUE)
  • banana
# 匹配abba, wccw
# 1和2表示位置
str_view(fruit1, "(.)(.)\2\1", match = TRUE)
  • bell pepper
# 匹配anan
str_view(fruit1, "(.)(.)\1\2", match = TRUE)
  • banana

结束语

stringr的字符匹配需要一定的正则表达式知识,除非做文本挖掘,其实也不需要深究。

love&peace