吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1304|回复: 1
收起左侧

[求助] Python使用spark

[复制链接]
amymo 发表于 2019-9-9 17:01
最近在学习用Python调用spark实现词频的时候,遇到了个问题,就是txt文件内容是中文的时候的时候,输出结果是乱码。网上搜说spark有默认编码,读不了gbk的,解决方法都是java的,没找到Python的。
有学Python的大佬知道怎么解决吗?
源码如下:
# -*-coding:utf-8-*-
import sys

from pyspark import SparkConf,SparkContext

if __name__ == '__main__':
    if len(sys.argv) != 2:
        print("Usage: wordcount <input>",file=sys.stderr)
        sys.exit(-1)
    conf = SparkConf()
    sc = SparkContext(conf = conf)
    counts = sc.textFile(sys.argv[1])\
        .flatMap(lambda line:line.split("\t"))\
        .map(lambda x:(x,1))\
        .reduceByKey(lambda a,b:a+b)
    output = counts.collect()

    for (word,count) in output:
        print("%s: %i" %(word,count))

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

Azsjw 发表于 2019-9-9 17:33
    输出保存  用这个代码 with open('123.txt', 'w', encoding='utf-8') as fp:
        fp.write(decode('utf-8'))
        尝试一下
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-1-13 03:18

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表