2007-11-21
python 字符串中的中文识别
关键字: python 中文python的中文问题一直是让人不爽的一件事情,而python的一个强大之处恰恰是string的处理,而且string就难免不包含chinese。所以处理string中的chinese就变得很重要了。
实验室的complex network项目,目前是数据处理阶段,考虑到python的高效和强大的string功能,我决定使用python对大量的数据进行处理。
下面是一个简单的demo,先贴代码,然后进行说明:
python 代码
- # -*- coding: gb18030 -*-
- import string
- import re
- identify = string.maketrans('', '')
- delEStr = string.punctuation + ' ' + string.digits #ASCII 标点符号,空格和数字
- delCStr = '《》()&%¥#@!{}【】'
- s = '中华人民共和国(北京)'
- s = s.translate(identify, delEStr) #去掉ASCII 标点符号和空格
- if re.findall('[\x80-\xff].', s): #s为中文
- s = s.translate(identify, delCStr)
- print s
- else: #s为英文
- print s
当然,首先是要import string和re(这里需要正则表达式功能)。
delEStr是一个包含英文标点符号和数字的字符串,就如 '(){}<>1234 ' 这样。delCStr是一个包含中文标点符号的字符串。s是一个测试字符串。
12行的功能就是把s中的英文标点符号都删除。下面一句是关键:
python 代码
- re.findall('[\x80-\xff].', s)
这行代码将返回一个list,如果s中包含中文,则返回一个包含每个汉字的非空的list,如果s中不包含中文,则返回一个空list(即[ ])。
第14行要删除这个含中文的字符串中的中文标点符号。
运行这段程序,打印出来的是“中华人民共和国北”,“京”呢?不见了。这就是python让人头疼的地方。错误出在第14行,可能原因是“京”的unicode编码和某两个相邻标点的组合编码相同了。我现在还没找到好的解决办法
这段代码最主要的应用就是translate和findall两个函数,不过在使用translate函数之前要构造一个identify,就像第5行代码那样。
出现了问题是好事,它可以促使自己更加深入的去学习,并且现在处于学习阶段,多遇到问题毕竟是好事,继续学习ing....
评论
harry
2008-05-05
s = u'中华人民共和国(北京)'
MountLion
2007-12-02
# -*- coding: utf-8 -*-
s = '中华人民共和国(北京)'
print s.encode('gb18030') # or print s
把程序文件保存成utf-8格式的即可。
s = '中华人民共和国(北京)'
print s.encode('gb18030') # or print s
把程序文件保存成utf-8格式的即可。
guotie
2007-11-30
# -*- coding: gb18030 -*-
# -*- coding: utf-8 -*-
# -*- coding: utf-8 -*-
limodou
2007-11-21
建议使用真正的unicode来处理,你说的并不是unicode。
发表评论
提醒: 该博客已发表在公共论坛,博客所有留言会成为论坛回贴,留言请注意遵守论坛发贴规则
- 浏览: 10180 次
- 性别:


- 详细资料
搜索本博客
最新评论
-
java中的Observer模式
恩,很好,谢谢
-- by xiaobai1023 -
python 字符串中的中文识 ...
s = u'中华人民共和国(北京)'
-- by harry -
java中的Observer模式
不错,思路简单易懂!
-- by James Zhao -
python 字符串中的中文识 ...
# -*- coding: utf-8 -*-s = '中华人民共和国(北京)' ...
-- by MountLion -
python 字符串中的中文识 ...
# -*- coding: gb18030 -*- # -*- codi ...
-- by guotie






评论排行榜