准备YOLO训练数据：数据标注技术和优秀实践

来自版块：开发

如果你已经对YOLO目标检测算法有了基本的了解，并且可能迫不及待地想在你的项目中尝试它。成功的关键是一个定制的训练数据集。量身定制的数据集对于开发高精度、高效的YOLO模型至关重要，这些模型满足你的特定用例需 ...

如果你已经对YOLO目标检测算法有了基本的了解，并且可能迫不及待地想在你的项目中尝试它。成功的关键是一个定制的训练数据集。

量身定制的数据集对于开发高精度、高效的YOLO模型至关重要，这些模型满足你的特定用例需求。通过标注你自己的数据，你确保模型学习识别与你领域相关的对象，无论是在道路上检测车辆、识别传送带上的产品，还是在建筑工地上发现安全隐患。

在这篇文章中，我们将指导你如何准备用于训练YOLO模型的标注数据，从在图像中标记对象到组织你的数据集。

YOLO 训练的数据准备

记住，一个准备充分的标注数据集不仅提高了模型的性能，还减少了训练所需的时间和资源。数据准备过程可以分为四个步骤：

数据收集：收集一个大型、多样化的图像数据集，代表你希望模型检测的所有类别。你可以使用像COCO和Pascal VOC这样的公共数据集，或者收集你自己的定制数据。
数据标注：每张图像都需要YOLO格式的标注，包括每个对象的类别和位置（通常是边界框）。标注的准确性直接影响模型性能。
标注格式转换：YOLO需要特定格式的标注。每张图像都有一个.txt文件，列出所有对象及其类别和边界框信息。边界框的格式如下：

<object-class> <x_center> <y_center> <width> <height>1.

坐标是相对于图像尺寸归一化的。<object-class> 是类别索引。

数据集分割：将数据集分割为训练集、验证集和测试集。这对于避免过拟合并评估模型性能至关重要。典型的分割比例是70%训练，15%验证，15%测试。

YOLO 的数据标注

现在，让我们逐步了解数据标注过程，为YOLO训练准备数据集。首先，选择一个标注工具。开源和基于云的工具都可以工作，但在线版本对于团队来说往往更高效。我们将以BasicAI Cloud为例，这是目标检测研究的流行选择。无需安装；只需在https://app.basic.ai. 注册一个免费账户即可。

我们已经收集了一个用于海龟检测的数据集。没有标注，模型无法学习，所以让我们开始标注。

1.上传数据

在BasicAI Cloud UI上，转到“Datasets”，点击“+Create”，选择“Image”类型，命名你的数据集，然后点击“Create”。

在预览界面中，点击蓝色“+Upload”按钮。你可以通过本地文件、URL或云存储上传。这里，我们从本地地址上传。

2.创建本体

让我们创建一个“Turtle”本体类别。转到“Ontology”标签页，点击“+Create”。选择边界框类型，命名它，并设置框颜色。

3.标注数据

回到“Data”标签页，选择所有数据，然后点击“Annotate”。

标注工具在左侧，类别在右侧。

选择“Bounding Box Tool”（快捷键‘1’）。光标变成十字准线。

提示：预先选择类别，以便自动将其分配给新框。非常适合多目标检测。

点击对象的一个角，然后点击对角，创建一个框。使用箭头工具调整边缘。

详情可以参考：https://video.wixstatic.com/video/4b3c31_95a85dde75de4bbf83e616098f9b73b1/720p/mp4/file.mp4

提示：在“Display setting”中启用“Measure Line”以获得辅助线。

使用这种方法在所有图像中标注对象。完成后点击“Save”并退出。

“Preview Annotateions”显示结果。

导出数据点击“Export”以创建导出任务。

在“Annotation Format”下，选择YOLO的TXT格式。点击“Create”。

准备好后下载结果。

每个文件都包含训练所需的信息。在这里，系统自动将“0”分配给单个标签。

项目结构像YOLO v7一样组织项目，因为其结构与v9非常相似。

为什么选择BasicAI Cloud进行YOLO数据标注?BasicAI Cloud是一个全面的智能数据标注解决方案，它与你的YOLO工作流程无缝集成，使标注过程高效且协作。

全面功能：BasicAI Cloud支持所有数据类型，包括图像、视频、激光雷达融合、音频和文本。模型辅助工具支持自动预标注（实例标注、语义分割、语音识别）和交互式标注。
为团队协作而建：可扩展的项目管理，将外部团队和模型集成到自定义工作流程中。快速批量分配标注任务。自定义实时QA快速捕捉质量问题。提供了详细的绩效报告。
数据集管理：上传预标注数据进行微调。视频帧提取和连续帧分割/合并。云存储集成。
成本：免费账户几乎具有全部功能——5个座位，200GB存储，10,000个免费自动标签。

它们非常适合小型研究团队，并且对于大型团队来说价格具有竞争力。提供企业级本地部署。通过利用BasicAI Cloud满足你的YOLO数据标注需求，你可以简化准备高质量标注数据的过程，与你的团队有效协作，并轻松管理你的数据集。这个强大的平台使你能够专注于开发准确高效的YOLO目标检测模型，同时最小化花在数据标注上的时间和精力。

文章来源：小白玩转Python
原文链接：https://www.51cto.com/article/797291.html
已注明著作权归属所有及作者，非用于商业用途。文章素材均来自网络，如有侵权请告知删除。