『您的瀏覽器不支援JavaScript功能,若網頁功能無法正常使用時,請開啟瀏覽器JavaScript狀態』

跳到主要內容區塊

工業技術研究院

:::

技術名稱: 中文特定領域Domain 詞彙資料集自動蒐集技術

技術簡介

電子商務網站的特定領域自動化資訊蒐集,資料源包含了Yahoo! 超級商城、PChome 購物、露天拍賣、momo購物網,以及嬰童產品官方網站,包含英國童裝Next、麗嬰房、奇哥、百事特、Smalife、UNIQLO、Nissen。自動化蒐集電子商務網站與官方網站產品公開資訊,包含產品名稱、產品價格、產品圖片、是否已售完等資訊。並且擷取類別、關鍵字等等產品特徵,作為機器學習的訓練資料(training set)。

Abstract

The system automatically collects product information from E-commerce websites, includes Yahoo! mall, PChome online store, Ruten, momo online store, Next, Les Enphant, Chick, BestPals, Smalife, UNIQLO, Nissen, etc. It automatically collects product open information from brand’s official sites and e-commerce sites, including product name, price, picture, availability, and extract product features including category, keywords etc. Product feature dataset can be used for training data set of machine learning.

技術規格

Linux 作業系統 MySQL 資料庫 Python 程式語言

Technical Specification

Linux Operating System MySQL Database Python Programming Language

技術特色

電子商務網站的特定領域自動化資訊蒐集,資料源包含了Yahoo! 超級商城、PChome 購物、露天拍賣、momo購物網,以及嬰童產品官方網站,包含英國童裝Next、麗嬰房、奇哥、百事特、Smalife、UNIQLO、Nissen。自動化蒐集電子商務網站 與官方網站產品公開資訊,包含產品名稱、產品價格、產品圖片、是否已售完等資訊。並且擷取類別、關鍵字等等產品特徵,作為機器學習的訓練資料集(training set)。

應用範圍

價格區間分析、產品自動分類機器學習、競爭產品搜尋

接受技術者具備基礎建議(設備)

須具備Linux作業系統以及MySQL資料庫

接受技術者具備基礎建議(專業)

須承接Python 程式語言撰寫之系統

技術分類 S-創意與設計系統

聯絡資訊

聯絡人:萬象 文化與運動科技組

電話:+886-3-591-8589 或 Email:swan@itri.org.tw

客服專線:+886-800-45-8899

傳真:+886-3-582-7538

舊工業技術研究院圖示