原始文本划分为文本单元的过程,主要是分字、词、句等预处理工作; 内容表示的主要目的是通过预处理将原始文本处理成算法容易进行分析的形式。 权重计算则是要对文本单元即预处理后原始文本计算相应的权重评分,权重的计算方式多样,如基于特征评分、序列标注、分类模型等提取内容特征计算权重。 这个步骤的目的是通过这一系列计算完成对预处理后的原始文本实现初步分析。 内容选择是