Python使用spark

amymo · 发表于 2019-9-9 17:01

最近在学习用Python调用spark实现词频的时候，遇到了个问题，就是txt文件内容是中文的时候的时候，输出结果是乱码。网上搜说spark有默认编码，读不了gbk的，解决方法都是java的，没找到Python的。
有学Python的大佬知道怎么解决吗？
源码如下：
# -*-coding:utf-8-*-
import sys

from pyspark import SparkConf,SparkContext

if __name__ == '__main__':
if len(sys.argv) != 2:
      print("Usage: wordcount <input>",file=sys.stderr)
      sys.exit(-1)
conf = SparkConf()
sc = SparkContext(conf = conf)
counts = sc.textFile(sys.argv[1])\
      .flatMap(lambda line:line.split("\t"))\
      .map(lambda x:(x,1))\
      .reduceByKey(lambda a,b:a+b)
output = counts.collect()

for (word,count) in output:
      print("%s: %i" %(word,count))

Azsjw · 发表于 2019-9-9 17:33

输出保存  用这个代码 with open('123.txt', 'w', encoding='utf-8') as fp:
      fp.write(decode('utf-8'))
      尝试一下

帐号		自动登录	找回密码
密码			注册[Register]

[求助] Python使用spark