网站首页 美食营养 游戏数码 手工爱好 生活家居 健康养生 运动户外 职场理财 情感交际 母婴教育 生活知识 知识问答

MindSpore加载文本数据集

时间:2024-10-14 15:28:37

1、准备数据1. 数据如下:Welcome to Beijing!北京欢迎您!我喜欢China!2.创建tokenizer.txt文件并复制文本数据到该文件中,将该文件存放在./test路径中,目录结构如下。└─test └─tokenizer.txt3.导入mindspore.dataset和mindspore.dataset.text模块。import mindspore.dataset as dsimport mindspore.dataset.text as text

2、加载数据集1.配置数据集目录,创建数据集对象。DATA_FILE = "./test/tokenizer.txt"dataset = ds.TextFileDataset(DATA_FILE, shuffle=False)2.创建迭代器,通过迭代器获取数据。for data in dataset.create_dict_iterator(output_numpy=True): print(text.to_str(data['text']))获取到分词前的数据:Welcome to Beijing!北京欢迎您!我喜欢China!

3、数倌栗受绽据分词下面演示使用WhitespaceTokenizer分词器来分词,该分词是按照空格来进行分词。1.创建tokenizer。tokenizer = text.WhitespaceTokenizer()2.执行操作tokenizer。dataset = dataset.map(operations=tokenizer)3.创建迭代器,通过迭代器获取数据。for i in dataset.create_dict_iterator(num_epochs=1, output_numpy=True): token = text.to_str(i['text']).tolist() print(token)获取到分词后的数据:['Welcome', 'to', 'Beijing!']['北京欢迎您!']['我喜欢China!']

© 2026 小知经验
信息来自网络 所有数据仅供参考
有疑问请联系站长 site.kefu@gmail.com