Tfidf
①我只会对矩阵直接sklearn的TfidfVectorizer,调用char
②老师的方法
- 如果是xml,先用Beautiful取出文本
- 如果是一个个文本
- 先取出”\t”, “\n”, “ “
- 再转Unicoode
- 使用jieba.cut
- 再转回str
- 再写入汇总的txt,每个文本写入汇总时中间加个 ‘/t’
- 然后自己算一遍
TF_IDF_result[word] = ((word_n / word_sum)) * (math.log10(files_num / with_word_sum))
老师项目里的方法
老师真skr神奇的东西(132shan第二个实验)1
2
3
4
5f.read().replace('\n', '')
data_temp = text.decode('utf-8') # 转换为unicode编码形式
data = ''.join(re.findall(u'[\u4e00-\u9fff]+', data_temp)) # 必须为unicode类型,取出所有中文字符
data2 = jieba.cut(data.encode('utf-8')) # 分词
data3 = " ".join(data2) # 结果转换为字符串(列表转换为字符串)
感受下整体操作
1 | def get_text(item): |