客户管理系统开发定制数据清洗:用一行Python代码去掉文本中的各种符号

前言

客户管理系统开发定制在搜集了很多文本语料之后,客户管理系统开发定制会开始漫长的过程,通常要不断迭代。

1. 问题描述

有些文本数据中,会包含一些。

猜想可能是从某些中直接粘贴到了网页。

如果要清除这些特殊符号,就需要专门的工具。

2. 相关知识

Unicode标准把符号分为四大类,分别是:

缩写详情
[Sc]Symbol, Currency
[Sk]Symbol, Modifier
[Sm]Symbol, Math
[So]Symbol, Other

一般需要清理掉的符号会是So类型的,但还是要根据自己的数据情况具体分析

3. 解决方案

在数据清洗过程中遇到的符号可能包括:杂项符号、几何形状、箭头、心形、星形、表情Emoji、货币符号等。
如果以上这些符号都要删除,可以用下面的代码。

text = "".join(ch for ch in text if unicodedata.category(ch)[0]!= 'S')
  • 1

如果需要单独去除某一类,或者希望知道某个符号所属的具体类别,就需要到这个网站:

查找对应的符号类型。

以箭头符号为例。

先用Arrow搜索上面的网页,找到纯粹的箭头项Arrows,对应的文档是:

找到自己需要的箭头,并查看对应的名字。

举例:箭头
RIGHTWARDS ARROW,然后用python提供的unicodedata标准库,查找这个符号的类别。

unicodedata.lookup('RIGHTWARDS ARROW')'→'unicodedata.category('→')'Sm'
  • 1
  • 2
  • 3
  • 4

这样,就知道要查找的箭头符号,属于Sm类别(数学符号)。

举例:黑色方块

BLACK SQUARE ■ U+25A0

unicodedata.lookup('BLACK SQUARE')'■'unicodedata.category('■')'So'
  • 1
  • 2
  • 3
  • 4

举例:黑色心形

unicodedata.lookup('BLACK HEART SUIT')'♥'unicodedata.category('♥')'So'
  • 1
  • 2
  • 3
  • 4

举例:黑色星形

unicodedata.lookup('BLACK FOUR POINTED STAR')'✦'unicodedata.category('✦')'So'
  • 1
  • 2
  • 3
  • 4

如果只需要去除杂项符号,可以用下面的python代码。

text = "".join(ch for ch in text if unicodedata.category(ch) != 'So')
  • 1

另一个有用的网址:

网站建设定制开发 软件系统开发定制 定制软件开发 软件开发定制 定制app开发 app开发定制 app开发定制公司 电商商城定制开发 定制小程序开发 定制开发小程序 客户管理系统开发定制 定制网站 定制开发 crm开发定制 开发公司 小程序开发定制 定制软件 收款定制开发 企业网站定制开发 定制化开发 android系统定制开发 定制小程序开发费用 定制设计 专注app软件定制开发 软件开发定制定制 知名网站建设定制 软件定制开发供应商 应用系统定制开发 软件系统定制开发 企业管理系统定制开发 系统定制开发