Source code for avalanche.benchmarks.datasets.stream51.stream51

################################################################################
# Copyright (c) 2020 ContinualAI                                               #
# Copyrights licensed under the MIT License.                                   #
# See the accompanying LICENSE file for terms.                                 #
#                                                                              #
# Date: 19-02-2021                                                             #
# Author: Tyler L. Hayes                                                       #
# E-mail: contact@continualai.org                                              #
# Website: www.continualai.org                                                 #
################################################################################

""" Stream-51 Pytorch Dataset """

import os

import shutil
import json
import random
from pathlib import Path
from typing import Union

from torchvision.datasets.folder import default_loader
from zipfile import ZipFile

from torchvision.transforms import ToTensor

from avalanche.benchmarks.datasets import DownloadableDataset, \
    default_dataset_location
from avalanche.benchmarks.datasets.stream51 import stream51_data


[docs]class Stream51(DownloadableDataset):
    """ Stream-51 Pytorch Dataset """

[docs]    def __init__(self, root: Union[str, Path] = None,
                 *,
                 train=True, transform=None,
                 target_transform=None, loader=default_loader, download=True):
        """
        Creates an instance of the Stream-51 dataset.

        :param root: The directory where the dataset can be found or downloaded.
            Defaults to None, which means that the default location for
            'stream51' will be used.
        :param train: If True, the training set will be returned. If False,
            the test set will be returned.
        :param transform: The transformations to apply to the X values.
        :param target_transform: The transformations to apply to the Y values.
        :param loader: The image loader to use.
        :param download: If True, the dataset will be downloaded if needed.
        """

        if root is None:
            root = default_dataset_location('stream51')

        self.train = train  # training set or test set
        self.transform = transform
        self.target_transform = target_transform
        self.loader = loader
        self.transform = transform
        self.target_transform = target_transform
        self.bbox_crop = True
        self.ratio = 1.1

        super(Stream51, self).__init__(root, download=download, verbose=True)

        self._load_dataset()

    def _download_dataset(self) -> None:
        self._download_file(stream51_data.name[1], stream51_data.name[0],
                            stream51_data.name[2])

        if self.verbose:
            print('[Stream-51] Extracting dataset...')

        if stream51_data.name[1].endswith('.zip'):
            lfilename = self.root / stream51_data.name[0]
            with ZipFile(str(lfilename), 'r') as zipf:
                for member in zipf.namelist():
                    filename = os.path.basename(member)
                    # skip directories
                    if not filename:
                        continue

                    # copy file (taken from zipfile's extract)
                    source = zipf.open(member)
                    if 'json' in filename:
                        target = open(str(self.root / filename), "wb")
                    else:
                        dest_folder = os.path.join(
                            *(member.split(os.path.sep)[1:-1]))
                        dest_folder = self.root / dest_folder
                        dest_folder.mkdir(exist_ok=True, parents=True)

                        target = open(str(dest_folder / filename), "wb")
                    with source, target:
                        shutil.copyfileobj(source, target)

            # lfilename.unlink()

    def _load_metadata(self) -> bool:
        if self.train:
            data_list = json.load(
                open(str(self.root / 'Stream-51_meta_train.json')))
        else:
            data_list = json.load(
                open(str(self.root / 'Stream-51_meta_test.json')))

        self.samples = data_list
        self.targets = [s[0] for s in data_list]

        self.bbox_crop = True
        self.ratio = 1.1

        return True

    def _download_error_message(self) -> str:
        return '[Stream-51] Error downloading the dataset. Consider ' \
               'downloading it manually at: ' + stream51_data.name[1] + \
               ' and placing it in: ' + str(self.root)

    @staticmethod
    def _instance_ordering(data_list, seed):
        # organize data by video
        total_videos = 0
        new_data_list = []
        temp_video = []
        for x in data_list:
            if x[3] == 0:
                new_data_list.append(temp_video)
                total_videos += 1
                temp_video = [x]
            else:
                temp_video.append(x)
        new_data_list.append(temp_video)
        new_data_list = new_data_list[1:]
        # shuffle videos
        random.seed(seed)
        random.shuffle(new_data_list)
        # reorganize by clip
        data_list = []
        for v in new_data_list:
            for x in v:
                data_list.append(x)
        return data_list

    @staticmethod
    def _class_ordering(data_list, class_type, seed):
        # organize data by class
        new_data_list = []
        for class_id in range(data_list[-1][0] + 1):
            class_data_list = [x for x in data_list if x[0] == class_id]
            if class_type == 'class_iid':
                # shuffle all class data
                random.seed(seed)
                random.shuffle(class_data_list)
            else:
                # shuffle clips within class
                class_data_list = Stream51._instance_ordering(
                    class_data_list, seed)
            new_data_list.append(class_data_list)
        # shuffle classes
        random.seed(seed)
        random.shuffle(new_data_list)
        # reorganize by class
        data_list = []
        for v in new_data_list:
            for x in v:
                data_list.append(x)
        return data_list

    @staticmethod
    def make_dataset(data_list, ordering='class_instance', seed=666):
        """
        data_list
        for train: [class_id, clip_num, video_num, frame_num, bbox, file_loc]
        for test: [class_id, bbox, file_loc]
        """
        if not ordering or len(data_list[0]) == 3:  # cannot order the test set
            return data_list
        if ordering not in ['iid', 'class_iid', 'instance', 'class_instance']:
            raise ValueError(
                'dataset ordering must be one of: "iid", "class_iid", '
                '"instance", or "class_instance"')
        if ordering == 'iid':
            # shuffle all data
            random.seed(seed)
            random.shuffle(data_list)
            return data_list
        elif ordering == 'instance':
            return Stream51._instance_ordering(data_list, seed)
        elif 'class' in ordering:
            return Stream51._class_ordering(data_list, ordering, seed)

    def __getitem__(self, index):
        """
        Args:
            index (int): Index

        Returns:
            tuple: (sample, target) where target is class_index of the target
            class.
        """
        fpath, target = self.samples[index][-1], self.targets[index]
        sample = self.loader(str(self.root / fpath))
        if self.bbox_crop:
            bbox = self.samples[index][-2]
            cw = bbox[0] - bbox[1]
            ch = bbox[2] - bbox[3]
            center = [int(bbox[1] + cw / 2), int(bbox[3] + ch / 2)]
            bbox = [
                min([int(center[0] + (cw * self.ratio / 2)), sample.size[0]]),
                max([int(center[0] - (cw * self.ratio / 2)), 0]),
                min([int(center[1] + (ch * self.ratio / 2)), sample.size[1]]),
                max([int(center[1] - (ch * self.ratio / 2)), 0])]
            sample = sample.crop((bbox[1],
                                  bbox[3],
                                  bbox[0],
                                  bbox[2]))

        if self.transform is not None:
            sample = self.transform(sample)
        if self.target_transform is not None:
            target = self.target_transform(target)

        return sample, target

    def __len__(self):
        return len(self.samples)

    def __repr__(self):
        fmt_str = 'Dataset ' + self.__class__.__name__ + '\n'
        fmt_str += '    Number of datapoints: {}\n'.format(self.__len__())
        fmt_str += '    Root Location: {}\n'.format(self.root)
        tmp = '    Transforms (if any): '
        fmt_str += '{0}{1}\n'.format(
            tmp, self.transform.__repr__().replace(
                '\n', '\n' + ' ' * len(tmp)))

        tmp = '    Target Transforms (if any): '
        fmt_str += '{0}{1}'.format(
            tmp, self.target_transform.__repr__().replace(
                '\n', '\n' + ' ' * len(tmp)))
        return fmt_str


if __name__ == "__main__":

    # this little example script can be used to visualize the first image
    # loaded from the dataset.
    from torch.utils.data.dataloader import DataLoader
    import matplotlib.pyplot as plt
    from torchvision import transforms
    import torch

    train_data = Stream51(transform=ToTensor())
    test_data = Stream51(transform=ToTensor(), train=False)
    print("train size: ", len(train_data))
    print("Test size: ", len(test_data))
    dataloader = DataLoader(train_data, batch_size=1)

    for batch_data in dataloader:
        x, y = batch_data
        plt.imshow(
            transforms.ToPILImage()(torch.squeeze(x))
        )
        plt.show()
        print(x.size())
        print(len(y))
        break

__all__ = [
    'Stream51'
]