当前位置：首页 > news >正文

每日读源码---Day1_processdata

news 2026/2/17 1:47:54

def processdata(instance, noise_rate, passage_num, filename, correct_rate = 0):#instance: 一个字典，包含查询（query）、答案（answer）、正例（positive）、负例（negative）等信息。#从 instance 中提取 query 和 answer。query = instance['query']ans = instance['answer']#使用 math.ceil 计算负例数量 neg_num。并计算正例数量 pos_num。neg_num = math.ceil(passage_num * noise_rate)pos_num = passage_num - neg_num#根据文件名处理数据if '_int' in filename:for i in instance['positive']:random.shuffle(i)print(len(instance['positive']))docs = [i[0] for i in instance['positive']]if len(docs) < pos_num:maxnum = max([len(i) for i in instance['positive']])for i in range(1,maxnum):for j in instance['positive']:if len(j) > i:docs.append(j[i])if len(docs) == pos_num:breakif len(docs) == pos_num:breakneg_num = passage_num - len(docs)if neg_num > 0:negative = instance['negative'][:neg_num]docs += negativeelif '_fact' in filename:correct_num = math.ceil(passage_num * correct_rate)pos_num = passage_num - neg_num - correct_numindexs = list(range(len(instance['positive'])))selected = random.sample(indexs,min(len(indexs),pos_num))docs = [instance['positive_wrong'][i] for i in selected]remain = [i for i in indexs if i not in selected]if correct_num > 0 and len(remain) > 0:docs += [instance['positive'][i] for i in random.sample(remain,min(len(remain),correct_num))]if neg_num > 0:docs += instance['negative'][:neg_num]else:if noise_rate == 1:neg_num = passage_numpos_num = 0else:if neg_num > len(instance['negative']):neg_num = len(instance['negative'])pos_num = passage_num - neg_numelif pos_num > len(instance['positive']):pos_num = len(instance['positive'])neg_num = passage_num - pos_numpositive = instance['positive'][:pos_num]negative = instance['negative'][:neg_num]docs = positive + negative#使用 random.shuffle 打乱 docs 列表的顺序。random.shuffle(docs)#返回处理后的 query、ans 和 docs。return query, ans, docs

instance: 一个字典，包含查询（query）、答案（answer）、正例（positive）、负例（negative）等信息。
noise_rate: 噪声率，用于确定负例文档的数量。
passage_num: 每个查询应该返回的文档数量，它决定了每个查询处理后应该包含多少文档。这个数量包括正例（包含答案的文档）和负例（不包含答案的文档）。通过 passage_num，可以控制正例和负例在最终数据集中的比例。例如，如果 passage_num 较大，而正例文档数量有限，可能需要添加更多的负例文档来达到这个数量，反之亦然。
filename: 文件名，用于确定处理数据的方式。
correct_rate: 正确率，用于确定正确文档的数量（默认值为0）。

根据文件名处理数据：

如果文件名包含 _int：
- 打乱正例文档的顺序。
- 从正例中选择 pos_num 个文档。
- 如果正例数量不足，从正例中继续选择，直到达到 pos_num。
- 计算剩余需要的负例数量 neg_num。
- 如果需要负例，从 instance['negative'] 中选择 neg_num 个文档。
- 将正例和负例合并到 docs 中。
如果文件名包含 _fact：
- 计算正确文档的数量 correct_num。
- 从正例中随机选择 pos_num 个文档。
- 如果还有剩余的正确文档，从剩余的正例中随机选择 correct_num 个文档。
- 如果需要负例，从 instance['negative'] 中选择 neg_num 个文档。
- 将所有文档合并到 docs 中。
其他情况：
- 根据 noise_rate 调整正例和负例的数量。
- 从 instance['positive'] 和 instance['negative'] 中选择相应数量的文档。
- 将正例和负例合并到 docs 中。